می خوام در مورد علم داده بیشتر بدون ممنون میشم منو راهنمایی کنید
علم داده یا دیتا ساینس (Data Science) یکی از مباحث روز دنیا است که با استفاده از کامپیوتر و فناوری اطلاعات شکل گرفته است. این حوزه اساسا متکی به علم کامپیوتر میباشد. جذابیت علم داده به حدی است که امروزه در بیشتر دانشگاههای دنیا دورههای تخصصی برای تدریس آن در نظر گرفته شده است. ضمن این که پژوهشهای زیادی در این زمینه رو به افزایش است.
علم داده متشکل از چند مبحث مختلف مانند ریاضی، آمار، مهندسی داده، شناخت الگوها و…است که ترکیب این مباحث با یکدیگر سبب شکلگیری این علم داده شده است.
در حال حاضر در اینترنت با دادههای بزرگی سروکار داریم که لازمه استخراج اطلاعات از این حجم داده، باعث ظهور این رشته شده است. از طریق علم داده میتوانیم به جمعآوری، آمادهسازی، تحلیل و ارزیابی، تصویرسازی، مدیریت و نگهداری اطلاعات در حجم بالا بپردازیم.
بسیاری از کسبوکارها برای حل مسائل سازمان، انتخاب و تصمیمگیری درست و سرمایه گذاری، از علم داده کمک میگیرند.
در حال حاضر یکی از مشاغلی که به دلیل توسعه و گسترش اینترنت به وجود آمده است، دانشمند دادهها یا دیتا ساینتیست (Data Scientist) میباشد. این شغل به عنوان یکی از پردرآمدترین مشاغل دنیا محسوب میشود.
در حقیقت این شغل برای کمک به شرکتها و سازمانهایی که با حجم زیادی از دادههای بزرگ سروکار دارند ایجاد شده است تا از این طریق بتوانند با تحلیل و ارزیابی آنها خدمات ارزندهای را به مشتریان خود ارائه دهند. این موضوع علاوه بر جلب مشتری به سوددهی بیشتر شرکتها نیز کمک مینماید.
هنگامی که سازمانها با حجم انبوهی از دادههای ساختاردار مواجه هستند، نیاز است تا بتوانند از این دادهها و اطلاعات بزرگ استفاده کنند و بر این اساس استراتژی بازاریابی خود را بهبود ببخشند، در اینجاست که نقش دانشمند داده پررنگتر است.
این افراد بایستی بتوانند از این حجم زیاد اطلاعات، ارزیابی دقیقی از فاکتورهای متفاوت از رفتارهای مشتریان را استخراج کنند. استفاده از این دادهها، نیازمند دانش داده است. به شخصی که از این دانش برخوردار است و میتواند به تحلیل این دادهها بپردازد، دانشمند داده یا دیتا ساینتیست میگویند.
این افراد از دانش و مهارتها مختلفی در علوم کامپیوتر، آمار، ریاضی، هوش مصنوعی، مدیریت داده و غیره برخوردار هستند و با کمک ابزارهایی که برای این منظور بکار میرود به تحلیل دادههای آماری و استخراج آنها میپردازند.
یک مهندس داده از طریق اتصال به پایگاه داده عظیم، میتواند دادهها را دریافت کند، پس از دریافت این دادهها با کمک برنامههای کامپیوتری، به تحلیل آنها بپردازد و اطلاعات قابل درکی استخراج کند. این اطلاعات باید به شکلی ارائه شوند که برای همه افراد قابل فهم باشد. این فرد از این توانایی برخوردار است که با تحلیل داده و مصورسازی آنها، از این اعداد و اطلاعات به دستآمده نمودار و اینفوگرافیک تهیه نماید.
با توجه به گسترش و توسعه شبکههای اجتماعی، در دنیا کاربران زیادی از اینترنت استفاده میکنند. در عصر جاضر نسبت به چند سال گذشته بیشتر فعالیتها اینترنتی شده و کمتر کسی یافت میشود که از دنیا اینترنت بی خبر باشد. بیشتر فعالیتها و کارهایی که انجام میشود از ثبت نام دانشگاه گرفته تا خرید از فروشگاههای اینترنتی همه توسط اینترنت انجام میشود.
روزانه حدود ۲.۵ میلیون ترابایت داده در اینترنت تولید میشود. این حجم داده یا دادههای کاربرانی هستند که صرفا محتوا مصرف میکنند یا دادههای هستند که توسط تولیدکنندگان اینترنتی بارگذاری میشوند.
قسمتی از این دادهها، بهوسیله شرکتها و سازمانها از کاربران جمع آوری میشود. فرضا در زمان ثبت نام در یک وبسایت فروشگاه اینترنتی از شما اطلاعاتی در خصوص سابقه خرید، جنسیت، موقعیت مکانی و غیره گرفته میشود؛ این دادهها ساختار (structured) دارند و خواندن آنها کار ساده و راحت است. ولی برخی دادهها مانند ویدئوها، پستهای وبلاگ، پستهای شبکههای اجتماعی، کامنتها و تصاویر دادههای بدون ساختار (Unstructured) هستند که فهم و درک آنها دشوار است و نیاز است که توسط متخصص علم داده بررسی نتایج این دادهها انجام شود.
دادههای بدون ساختار دارای مشخصههایی مانند حجم بالا، تنوع زیاد و سرعت تولید بالا هستند. حال که با انواع داده آشنا شدید، خوب است بدانید که مدیریت، نگهداری و ذخیره سازی این حجم از دادههای بزرگ کار سخت و دشواری است و بیگ دیتا برای کمک به حل این مشکل به وجود آمده است.
در کشور ما چند سالی است که علم داده از اهمیت ویژهای برخوردار شده و خیلی از شرکتها و سازمانها به دنبال استخدام این افراد هستند تا بتوانند از طریق درک و فهم دادهها، استراتژیهای بازاریابی و فروش خود را بهبود ببخشند. شاید این سوال برای شما پیش بیاید که چگونه میتوانیم یک دیتا ساینتیست شویم؟ برای دیتا ساینتیست شدن چه مهارتهایی لازم است؟
اگر شما هم علاقه دارید تا دیتا ساینتیست شوید، راه درازی در پیش دارید. زیرا باید مهارتهای ویژهای برای این شغل کسب کنید. علاوه بر دانش در زمینه کامپیوتر و فناوری اطلاعات، باید ذهن کنجکاوی داشته باشید و در این مسیر مدام مهارتهای جدید بیاموزید. اهل مطالعه و تفکر باشید تا بتوانید بین اجزای مختلف در دادهها، ارتباط برقرار کنید. باید در کار خود تمرکز داشته باشید، خلاق و خستگی ناپذیر باشید.
برای تبدیل شدن به دانشمند داده نیاز است در زمینه علم داده فعالیت کنید. لازم است علوم مختلفی را بیاموزید. در ادامه این نوشته چند گام اصلی برای تبدیل شدن به دانشمند داده بیان شده است.
افرادی که به عنوان دانشمند داده فعالیت میکنند، از تحصیلات بالایی برخوردار هستند. بیشتر این افراد دارای مدرک کارشناسی ارشد و تعدادی نیز مدرک دکترا دارند. بیشتر افرادی که در این زمینه فعالیت میکنند در رشتههای ریاضیات و آمار، کامپیوتر و مهندسی تحصیل کردهاند.
یکی از زبانهای برنامهنویسی که برای تحلیل آماری علوم داده طراحی شده زبان برنامهنویسی R است. بسیاری از دانشمندان داده برای حل مسائل آماری از برنامه R استفاده میکنند. پس نیاز است تا دانشمند داده با این زباننویسی آشنایی کامل داشته باشد. همچنین نیاز است با زبان اسکریپت نویسی مانند پایتون (Python) نیز آشنا باشید از این زبان برای حل مسائل دادهکاوی و پیاده سازیها استفاده میشود. اگر تمایل دارید با هر یک از این زبانها آشنا شوید، میتوانید از منابع و ویدئوهای آموزشی که در اینترنت موجود است، استفاده کنید.
در حین کار با دادهها ممکن است شرایطی ایجاد شود که حجم دادههای شما از حافظه سیستمتان بالاتر رود؛ یا به دلایلی لازم باشد تا دادهها را به سرورهای مختلف ارسال کنید. در این مواقع از هادوپ استفاده میشود. استفاده از هادوپ برای ارسال داده به بخشهای مختلف سیستم، اکتشاف دادهها، نمونه گیری و فیلتراسیون داده نیز به کار میرود.
دادهکاوی بر روی انواع مختلفی از دادهها شامل دادههای ساختار یافته، دادههای ساختار نیافته، دادههای تراکنشی و حتی داده پیشرفته انجام پذیر است. پس لازم است برای تحلیل این نوع از دادهها، دانشمند داده با انواع پایگاهداده مانند SQL و NoSQL آشنا باشند.
همچنین بهتر است جهت سهولت کار خود با دستورات SQL نیز آشنایی داشته باشید تا بتوانید عملیاتی مانند افزودن، حذف و استخراج داده از پایگاه داده را انجام دهید. از طریق دستورات SQL میتوانید در وقت و زمان خود صرفهجویی کنید و به اطلاعات مورد نیاز خود در کمترین زمان ممکن دست یابید.
مفاهیم و الگوریتمهای یادگیری ماشین در علم داده کاربرد بسیار وسیعی دارند. پس ضروی است که برای تبدیل شدن به دانشمند داده، مفاهیم و فنون این حوزه مانند یادگیری ماشین نظارت شده، درخت تصمیم گیری، رگرسیون لجستیک و غیره را به خوبی فرا بگیرید.
نیاز است با بکارگیری متدهای یادگیری ماشین و الگوریتمهای مرتبط، آنها را متناسب با مساله خود بهینه کنید. یادگیری این موارد به شما کمک میکند تا بتوانید دادهها را به درستی استخراج و نتیجه آن را در اختیار سازمانها قرار دهید.
به تصویرسازی دادهها، بصریسازی نیز گفته میشود که گام مهم و موثری در علم داده است. نیاز است تا دانمشند داده با نمودارها و کاربرد هر یک آشنا باشد. زیرا از این طریق باید دادهها را به صورتی ترجمه کنند تا درک آسانی داشته باشد. همانطور که اطلاع دارید، بیشتر مردم تمایل دارند تا اطلاعات را در قالب نمودار و اینفوگرافیک ببینند. این شکل از داده برای آنها قابل فهمتر است. پس دانشمند داده باید پس از تحلیل دادهها، از طریق ابزارهایی مانند ggplot ، d3.js، Matplottlib و Tableauبه تصویر سازی دادهها بپردازد.
دانشمند داده با برخورداری از درک و آگاهی، باید بداند که کدام ابزار و راهکار بصری سازی برای حل مساله مناسبتر است و با توجه به آن به ارائه دانش اقدام نماید.
دانشمند داده باید از این توانایی برخوردار باشد تا بتواند با دادههای بدون ساختار کار کند. دادههای بدون ساختار دادههایی مانند فیلم، عکس، نظرات کاربران، پستهای وبلاگ، پست شبکههای احتماعی، صدا و غیره هستند که در جداول پایگاه داده قرار نمیگیرند. این دادهها سنگین هستند و مرتب کردن آنها کار سختی است. دانشمند داده با کشف اطلاعات موجود در این دادهها میتواند شرکتها و سازمانها را برای تصمیم گیری درست یاری دهند.
علم داده در سازمان و شرکتها به توانمند سازی و تسهیل تصمیمگیری مدیران کمک بسیاری میکند. نتایج حاصل از دادههایی که از طریق دانشمند داده به دست میآید، در نتیجه باعث افزایش سودآوری و بهبود بهرهوری، افزایش عملکرد و گردش کار کسب و کار خواهد شد.
علم داده با تحلیل و بررسی دادهها، مخاطبان هدف را شناسایی می کند. حتی از این علم می توان برای استخدام در شرکتها نیز استفاده کرد. این کار از طریق پردازش اطلاعات افراد، تست شایستگی بر اساس دادههامیتواند به مدیر منابع انسانی در جذب نیرو برای سازمان کمک نماید. سازمانها از این طریق میتوانند انتخابهایی بهتر و دقیقتر را برای پرسنل شرکت خود داشته باشند.
علم داده بسیار وسیع است و کاربردهای متنوعی دارد. به طور مثال در موسسات بانکی برای تشخیص تقلب از این علم استفاده میشود. در بخش هایی از سازمانها که فروش بخش مهمی از شرکت است، از دادههای مشتریان برای بهبود نرخ جذب مشتری و ایجاد کمپین استفاده میکنند. برخی از شرکتهای حمل و نقل مطرح در دنیا مانند FedEx ، DHL و UPS از علم داده برای شناسایی بهترین مسیرها، انتخاب زمان مناسب و نوع حمل و نقل کالا استفاده میکنند. علم داده بسیار گسترده و متنوع است و در کسبوکار جدید است، به این دلیل که بررسی، ارزیابی، شناسایی و تحلیل حجم زیادی از دادههای ساختار نیافته میتواند برای سازمانها شرکتها بسیار پیچیده، گران و زمانبر باشد.
https://www.hamyarit.com/basic/data-science/
سالهای مدیدی است که جهان مملو از داده شده، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید میشده. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز به همین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ دادههای تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده به عنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.
فهرست مطالب این نوشته پنهان کردن
1. حجم بالای دادهها چگونه ذخیره میشوند؟
اولین کامپیوترها دارای حافظههای چند کیلوبایتی بودهاند، اما در حال حاضر گوشیهای هوشمند توانایی ذخیرهسازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپتاپها میتوانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند. با افزایش ظرفیت و کاهش قیمت و ابعاد حافظههای ذخیرهسازی، این موضوع در جهان کنونی و برخلاف گذشته دیگر موضوع قابل توجهی محسوب نمیشود.
عبارت «بشر در عصر اطلاعات زندگی میکند» بسیار معروف است. این در حالیست که در حقیقت، بشر در عصر دادهها زندگی میکند. با تبدیل این دادهها به اطلاعات، میتوان آنها را به شمشهایی از طلا مبدل ساخت.
ژیاوی هان – دانشمند داده و نویسنده کتاب «دادهکاوی: مفاهیم و روشها»
دادهها به میزان هوشمندی که میتوان از آنها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از دادهها، مستلزم انجام تحلیلهای موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم دادهها است. در گزارش منتشر شده توسط Bain & Co در سال ۲۰۱۴، اذعان شده بود که ۴۰۰ شرکت فعال در حوزه تحلیل دادهها جایگاه قابل توجهی در میان شرکتهای پیشرو در جهان طی این سال کسب کردهاند.
«علم داده» (data science)، یک زمینه میان رشتهای است که از روشها، فرآیندها، الگوریتمها و سیستمهای علمی برای استخراج دانش و بینش از دادهها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده میکند. چیزی مشابه دادهکاوی! علم داده مفهومی برای یکپارچهسازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیدهها با استفاده از دادهها انجام میشود.
در این دانش از روشها و نظریههای علوم گوناگون از جمله ریاضیات، آمار، علم اطلاعات و علوم کامپیوتر استفاده میشود. «جیم گری» (Jim Gray) برنده جایزه تورینگ، علم داده را به عنوان پارادایم چهارم علم (پژوهشهای تجربی، بنیادی، محاسباتی و اکنون دادهمحور ) تصور کرده و چنین ارزیابی میکند که: «کلیه موارد مربوط به علم تحت تاثیر فناوری اطلاعات در حال تغییر است».
بهطور کلی میتوان گفت علم داده، مطالعه محلی که دادهها از آن میآیند، نشانگر چه چیزی هستند و چگونگی مبدل ساختن آنها به منبعی ارزشمند برای کسبوکار و استراتژیهای فناوری اطلاعات سازمان است. کاوش حجم بالایی از دادههای ساختار یافته و ساختار نیافته بهمنظور شناسایی الگوهایی انجام میشود که میتوانند به سازمانها جهت صرفهجویی در هزینهها، افزایش کارایی، شناسایی فرصتهای جدید در بازار و افزایش مزایای رقابتی کمک کنند. در علم داده، ریاضیات، آمار، علوم کامپیوتر و دیگر روشها مانند یادگیری ماشین، کاوش داده و بصریسازی داده مورد استفاده قرار میگیرد.
در مجله «بررسی کسبوکار هاروارد» (Harvard Business Review)، از شغل «دانشمند داده» (data scientist) با عنوان جذابترین شغل قرن ۲۱ یاد شده است. اصطلاح علم داده یکی از واژگان باب روز است که بر تحلیلهای کسبوکار، هوش تجاری، مدلسازی پیشبینی یا هر گونه استفاده اختیاری از دادهها اعمال شده و به عنوان واژهای پر زرق و برق برای آمار استفاده میشود. در بسیاری از موارد، رویکردها و راهکارهای موجود در حوزههای گوناگون با عنوان «علم داده» برندسازی مجدد شدهاند تا جذابتر باشند. کاربرد این اصطلاح بیش از آنکه مفید باشد، توسط متخصصین غیر مرتبط بسیاری به شکلی گسترده اما غیر صحیح به کار برده میشود.
در حالیکه در بسیاری از دانشگاههای مطرح دنیا این رشته به عنوان یک زمینه دانشگاهی تدریس میشود، هیچ توافقی در رابطه با محتوای دوره یا سرفصلهای آن تاکنون ایجاد نشده و هر موسسه و دانشگاهی به سبک خود عمل میکند. با وجود مفید و کارآمد بودن علم داده، بسیاری از پروژههای کلان داده (مِه داده) و علم داده به دلیل مدیریت ضعیف و بهکارگیری نامناسب منابع، در انتقال نتایج مفید با شکست مواجه میشوند.
مزیت اصلی علم داده، توانمندسازی و تسهیل تصمیمگیری است. سازمانهایی که بر علم داده سرمایهگذاری میکنند، میتوانند از شواهد قابل سنجش و مبتنی بر داده برای تصمیمسازی در کسبوکار خود استفاده کنند. تصمیمهای دادهمحور میتواند منجر به افزایش سود و بهبود بهرهوری عملیاتی، کارایی کسبوکار و جریانهای کاری بشود. در سازمانهایی که با ارباب رجوع سر و کار دارند، علم داده به شناسایی و جلب مخاطبان هدف کمک میکند. این دانش همچنین میتواند به سازمانها در استخدام نیروهایشان کمک کند. علم داده با پردازش داخلی کاربردها و آزمونهای احراز صلاحیت دادهمحور، میتواند به واحد منابع انسانی سازمانها در انجام انتخابهای صحیحتر و سریعتر در طول فرآیند استخدام کمک کند.
مزایای علم داده بستگی به اهداف شرکت و صنعت مربوط به آن دارد. برای مثال دپارتمانهای فروش و بازاریابی میتوانند دادههای مشتریان را برای بهبود نرخ جذب مشتری و ساخت کمپینهای فرد به فرد کاوش کنند. موسسات بانکی، دادههای خود را جهت ارتقا وظیفه شناسایی کلاهبرداری کاوش میکنند. سرویسهای استریم مثل «نتفلیکس» (Netflix) دادهها را برای شناسایی آنچه کاربران به آن علاقمند هستند و استفاده از آنها برای دانستن اینکه تولید چه فیلمها یا برنامههای تلویزیونی بهتر است کاوش میکنند.
همچنین، در نتفلیکس از الگوریتمهای مبتنی بر پایگاه داده بهمنظور ساخت توصیههای شخصیسازی شده متناسب با عقاید کاربران استفاده شده است. شرکتهای حملونقل مانند FedEx ،DHL و UPS از علم داده برای کشف بهترین مسیرها، زمانها و نوع حملونقل کالا استفاده میکنند. با وجود کاربردهای متعدد علم داده، این زمینه در کسبوکار هنوز نوظهور است، زیرا شناسایی و تحلیل حجم انبوهی از دادههای ساختار نیافته میتواند برای شرکتها بسیار پیچیده، گران قیمت و زمانبر باشد.
اصطلاح علم داده طی سی سال گذشته در متون زیادی ظاهر شده اما تا چند سال اخیر در فضای دانشگاهی، پژوهشی و صنعتی جا نیفتاده بود. در سال ۱۹۶۰، «پیتر نائور» (Peter Naur) از این عبارت به عنوان جایگزینی برای علم کامپیوتر استفاده کرد. نائور بعدها اصطلاح «دادهشناسی» (datalogy) را بدین منظور معرفی کرد. وی در سال ۱۹۷۴ در مقالهای با عنوان «بررسی دقیق روشهای کامپیوتری» از اصطلاح علم داده برای بیان پردازشهای داده آن دوران که در گستره وسیعی از زمینهها کاربرد داشتند، استفاده کرد.
در سال ۱۹۹۶، اعضای «فدراسیون بینالمللی جامعه دستهبندی» (International Federation of Classification Societies | IFCS) برای گردهمایی دو سال یکبار خود، در شهر کوبه ژاپن گردهم آمدند. در گردهمایی مذکور، برای اولین بار از اصطلاح علم داده به عنوان اسم کنفرانس – علم داده، دستهبندی و روشهای مرتبط – استفاده شد. این کار پس از آن صورت گرفت که در میزگرد برگزار شده، این اصطلاح توسط «چیوی هوایشی» (Chikio Hayashi) معرفی شد. در نوامبر سال ۱۹۹۷، سی اف جف وو (C. F. Jeff Wu) سخنرانی افتتاحیه رویدادی در حوزه علم داده را با عنوان «آمار = علم داده؟» به مناسبت انتساب به سمت استادی در دانشگاه میشیگان انجام داد.
در این سخنرانی، او از کارهای آماری به عنوان سه گانه گردآوری، مدلسازی و تحلیل داده و تصمیمسازی یاد کرد. در این استنتاج، او استفاده مدرن و غیر کامپیوتری اصطلاح علم داده را به کار برد و از آمار به عنوان علمی که به علم داده و آماردان به دانشمندان داده تغییر نام دادهاند یاد کرد. بعدها، او سخنرانی خود با عنوان «آمار = علم داده؟» را به عنوان اولین سخنرانی رویداد Mahalanobis Memorial Lectures در سال ۱۹۹۸ ارائه کرد. سخنرانیهای این مراسم به افتخار «پراسانتا چاندرا ماهالانوبیس» (Prasanta Chandra Mahalanobis) دانشمند و آماردان هندی و بنیانگذار موسسه آمار هند انجام میشود.
در سال ۲۰۰۱، «ویلیام اس کلولند» (William S. Cleveland) علم داده را به عنوان یک اصل مستقل که ترکیبی از علم آمار و پیشرفتهای انجام شده در محاسبات دادهها است معرفی کرد، او در این رابطه میگوید: «علم داده: برنامه اقدام بهمنظور گسترش حوزههای فنی رشته آمار است». در این گزارش، کلولند شش حوزه فنی را که باور داشت برای ایجاد علم داده ترکیب شدهاند برشمرد. این حوزهها عبارتند از تحقیقات چند رشتهای، مدلها و روشهایی برای دادهها، محاسبه با داده، علوم پرورشی، ارزیابی ابزار و نظریه.
در آپریل سال ۲۰۰۲، کمیته داده برای دانش و فناوریِ (Data for Science and Technology | CODATA) شورای بینالمللی دانش (International Council for Science | ICSU)، انتشار مجلهای با عنوان علم داده (Data Science Journal) را آغاز کرد. این اثر، بر مسائلی مانند توصیف سیستمهای داده، نشر آنها در اینترنت، کاربردها و مسائل قانونی مربوط به این حوزه متمرکز بود.
مدت کوتاهی پس از انتشار این مجله، در ژانویه سال ۲۰۰۳، دانشگاه کلمبیا، مجله علم داده (The Journal of Data Science) را ارائه کرد که پلتفرمی برای همه فعالان حوزه داده جهت نشر دیدگاهها و تبادل ایدههایشان بود. این مجله بهطور گستردهای به کاربردهای روشهای آماری و پژوهشهای کمی میپرداخت.
در سال ۲۰۰۵، «انجمن علمی ملی» (National Science Board) اثری با عنوان «مجموعه دادههای دیجیتال با عمر دراز: فراهم کردن امکان آموزش و پژوهش در قرن ۲۱» منتشر کرد و در آن دانشمندان داده را بهعنوان دانشمندان اطلاعات و کامپیوتر، کارشناسان منضبط پایگاه داده، نرمافزار و برنامهنویسی، مربیان و سخنرانان متخصص، کتابداران و بایگانیسازانی معرفی کرد که برای مدیریت موفق یک مجموعه داده دیجیتال حیاتی هستند و فعالیت اصلی آنها انجام تحقیق و تحلیل خلاقانه است.
در حدود سال ۲۰۰۷، «جیم گری» (Jim Gray)، برنده جایزه تورینگ، علوم داده محور را به عنوان چهارمین پارادایم علم معرفی کرد که از تحلیل محاسباتی دادههای بزرگ به عنوان روشی علمی جهت ساخت دنیایی که در آن ادبیات علم و همه دادههای علمی آنلاین هستن استفاده میکند.
در سال ۲۰۱۲، دانراجی پاتیل (Dhanurjay “DJ” Patil)، در مقاله «دانشمند داده: جذابترین شغل قرن ۲۱» که در مجله بررسی کسبوکار هاروارد منتشر شد، ادعا میکند که همراه با «جف همرباچر» (Jeff Hammerbacher) که این عبارت را آنها برای اولین بار در سال ۲۰۰۸ برای معرفی شغلشان در لینکدین و فیسبوک ابداع کردهاند. او از دانشمندان داده به عنوان نژادی جدید یاد کرده که کمبود آنها منجر به محدودیتهای جدی در برخی از بخشهای صنعت و دانشگاه میشود.
در سال ۲۰۱۳، رویداد «نیروی کار علم داده و تحلیل پیشرفته» (IEEE Task Force on Data Science and Advanced Analytics) راهاندازی شد. همچنین، اولین «کنفرانس اروپایی تحلیل داده» (European Conference on Data Analysis | ECDA) در لوکزامبورگ برگزار و پیرو آن «اتحادیه اروپایی تحلیل داده» (European Association for Data Science | EuADS) تاسیس شد. اولین کنفرانس بینالمللی این حوزه با عنوان «کنفرانس بینالمللی علم داده و تحلیلهای پیشرفته IEEE» در سال ۲۰۱۴ برگزار شد.
در همین سال، «جنرال اسمبلی» (General Assembly)، یک اردوی تابستانی و انکوباتور داده برای علاقمندان به علم داده راهاندازی کرد. همچنین، انجمن آمار آمریکا، عنوان ژورنال خود را به «تحلیلهای آماری و دادهکاوی: ژورنال انجمن آمار آمریکا» تغییر نام داد. مدتی بعد و طی تغییر نامی دوباره، بخش اول نام این ژورنال به «یادگیری آماری و علم داده» مبدل شد.
در سال ۲۰۱۵، «ژورنال بینالمللی علم و تحلیل داده» توسط اسپرینگر بهمنظور انتشار کارهای انجام پذیرفته در حوزه علم داده و تحلیل دادههای کلان (مِه داده) بنا شد. در سپتامبر ۲۰۱۵، طی سومین کنفرانس ECDA در دانشگاه اسکس (Essex)، عبارت «Gesellschaft für Klassifikation» به نام «انجمن علم داده» افزوده شد.
محبوبیت عبارت «علم داده» در محیطهای دانشگاهی و کسبوکار به دلیل گشایش دربهای جدید به سوی فرصتهای شغلی، رشد انفجاری داشت. با این حال، بسیاری از منتقدان دانشگاهی و روزنامهنگاران تمایزی بین این دو قائل نیستند. «گیل پرس» (Gil Press) در نوشتهای که در مجله «فوربز» (Forbes) منتشر شد، ادعا کرده که علم داده یک واژه باب روز ولی بدون تعریف روشن است که در متون و زمینههای گوناگون از جمله دورههای تحصیلات تکمیلی جایگزین «تحلیل کسبوکار» شده است.
در پنل پرسشوپاسخ جلسات آمار مشترک انجمن آمار آمریکا، «نیت سیلور» (Nate Silver)، آماردان کاربردی، طی سخنانی در این رابطه گفت: «من فکر میکنم دانشمند داده، عبارت آماردان را جذابتر کرده… آمار شاخهای از علم است. دانشمند داده به تدریج در بسیاری از زمینهها به حشو مبدل خواهد شد. افراد نباید از واژه آماردان چشمپوشی کنند».
همچنین، در بخش کسبوکار، پژوهشگران و تحلیلگران گوناگون اذعان میکنند که دانشمندان داده به تنهایی نمیتوانند شرکتها را به مزیتهای رقابتی واقعی برسانند و همچنین، این شغل را تنها یکی از چهار شغلی میدانند که برای دستیابی به قدرت کلانداده (مِهداده) مورد نیاز است. چهار شغل مذکور عبارتند از: تحلیلگر داده، دانشمند داده، توسعهدهنده کلانداده و مهندس کلانداده.
از سوی دیگر، پاسخهای زیادی به چنین انتقاداتی داده شده و میشود. در مقالهای که در سال ۲۰۱۴ در وال استریت ژورنال منتشر شد، «ایروینگ لادوسکی برگر» (Irving Wladawsky-Berger)، اشتیاق به علم داده را مقارن با طلوع علوم کامپیوتر دانست. او چنین استدلال میکند که علم داده مانند هر زمینه میانرشتهای دیگری از روششناسی و راهکارهایی از دیگر زمینههای صنعتی و دانشگاهی بهره میبرد، اما آنها را در قالب جدید شکل میدهد. سخنان این پژوهشگر، به انتقادات تند انجام شده از علوم کامپیوتر که امروزه جایگاه ویژهای در فضای دانشگاهی دارد معطوف بود.
به همین ترتیب، «ویسانت دار» (Vasant Dhar)، دانشمند داده و استاد دانشگاه استرن نیویورک، همچون دیگر طرفداران دانشگاهی علم داده، به استدلال در این رابطه پرداخته است. او در دسامبر سال ۲۰۱۳ با انجام سخنرانی در این رابطه، بیان میکند که علم داده از تحلیلهای داده فعلی موجود در کلیه رشتهها متفاوت است.
تمرکز علم داده بر تشریح مجموعه دادهها و به دنبال الگوهای عملی و سازگار برای استفادههای پیشبینانه است. این هدف کاربردی مهندسی، علم داده را به جایگاهی فراتر از تحلیلهای سنتی میبرد. اکنون دادههای رشتهها و زمینههای کاربردی مانند علوم سلامت و علوم اجتماعی که فاقد نظریههای مستحکم هستند را می توان با بهرهگیری از علم داده برای ساخت مدلهای پیشبین قدرتمند به کار برد.
«دیوید دونوهو» (David Donoho)، در سپتامبر ۲۰۱۵، پاسخگوی انتقادات موجود پیرامون علم داده را با رد سه تعریف اشتباهی که پیرامون علم داده وجود داشت بود. اول آنکه علم داده معادل کلان داده (مِهداده) نیست، زیرا اندازه مجموعه داده معیاری برای ایجاد تمایز بین علم داده و آمار نیست. دوم، علم داده بهوسیله مهارتهای رایانشی مرتبسازی مجموعه دادههای بزرگ تعریف نمیشود. این مهارتها عموما برای تحلیل در کلیه رشتههای مورد استفاده قرار میگیرند. سوم اینکه، علم داده یک زمینه بسیار کاربردی است که در حال حاضر برنامههای دانشگاهی قادر به آمادهسازی دانشمندان داده برای این شغل به شکل مناسبت نیستند. این در حالیست که بسیاری از مراکز آموزشی، دورههای آمار و تحلیل خود را به اشتباه با عنوان دورههای علم داده تبلیغ میکنند.
دونو به عنوان یک آماردان که تلاشهای زیادی در زمینه کاری خود انجام داده و قهرمانانی که دامنه یادگیری را به شکل علم داده کنونی گسترش دادهاند مانند «جان چمبرز» (John Chambers) که خواستار پذیرش مفهوم یادگیری از دادهها توسط آماردانها شده بود، یا ویلیام کلوند که خواهان اولویتدهی به ابزارهای استخراج پیشبین قابل اجرا از دادهها یا نظریههای توصیفی بود، همه با هم رویای یک دانش کاربردی که بر فراز آمار کلاسیک و دیگر زمینههای علمی رشد میکند را تحقق بخشیدهاند.
به خاطر آینده علم داده، پروژه دونو که یک محیط همواره در حال رشد برای «دانش باز» (open science) است، مجموعه دادههای قابل استفاده برای پژوهشهای دانشگاهی را در دسترس کلیه پژوهشگران قرار میدهد. «موسسه ملی سلامت آمریکا» (US National Institute of Health) نیز برنامهای را بهمنظور ارتقا تکرارپذیری و شفافیت دادههای پژوهشی در حال اجرا دارد. بدین ترتیب، آینده علم داده نه تنها مرزهای نظریات آمار را در هم میشکند، بلکه انقلابی در پارادایمهای پژوهشی دانشگاهی برپا خواهد کرد. دونو از این جریانها چنین نتیجه میگیرد: «دامنه و تاثیر علم داده با فراهم شدن دادههای علمی و دادههایی درباره علم، به شکل فوقالعادهای در دهههای پیشرو گسترش خواهد یافت».
اگر نوشته بالا برای شما مفید بوده، آموزشهای زیر نیز به شما پیشنهاد میشوند:
این مطلب با حمایت «موسسه آموزش عالی آزاد توسعه» نوشته شده است.
موسسه توسعه، به صورت تخصصی به آموزش علم داده میپردازد. کسانی که صلاحیت ورود به دوره را پیدا کنند، زیر نظر اساتید طی یک دوره شش ماهه با صبر و تمرین زیاد به یک دانشمند علم داده تبدیل میشوند.
اساتید توسعه در زمینه علم داده، سالها در امریکا این موضوع را آموختهاند، پیادهسازی کردهاند و درس دادهاند. برای آشنایی بیشتر با این دوره و مدرسین آن به این آدرس مراجعه کنید.
کالا، خدمات و برند خود را در کادر «حامی مطالب» مجله فرادرس معرفی کنید. کلیک کنید
^^
لینک کوتاه
به اشتراک بگذارید:
منبعویکیپدیای انگلیسیSearch Enterprise AI
✔ تسلط بر تکنولوژی ✔ مختص کاربر ویژه
بسیاری از ما شنیدهایم که علم داده (Data Science) علمِ دنیای فرداست و متخصصان علم داده به سرعت توسط کسب و کارها جذب میشوند؛ اما شاید فرصتی پیش نیامده باشد تا دربارهی قلمرو علم داده و زیرمجموعههای آن مطالعه کنیم.
با این فرض، میخواهیم در این درس به صورت بسیار مختصر به تعریف علم داده و معرفی دانشها و مهارتهای وابسته به آن بپردازیم.
ممکن است در نگاه اول به نظر برسد که بحث علم داده، یک بحث تخصصی برای محققان است و انسانهای عادی، با دستاوردهای آن سر و کار ندارند (یا اینکه هنوز سر و کار ندارند)، اما چنین فرضی درست نیست:
هر بار که به جستجو در گوگل میپردازیم؛
هر بار که یک وبسایت را باز میکنیم و تبلیغاتی متناسب با سلیقهی ما نمایش داده میشود؛
هر بار که آمازون یا سایتهای خردهفروشی دیگر، بر اساس خریدهای قبلی و انتخابهای فعلی ما، پیشنهادهای جدیدی را مطرح میکنند (موتور توصیهگر)؛
در حال استفاده از دستاوردهای علم داده هستیم. ضمن اینکه در برخی کشورهای توسعهیافته، حق بیمه، مدیریت چراغهای راهنمایی و رانندگی و توزیع امکانات و فرصتهای شهری هم با تکیه بر علم داده انجام میشود.
واقعیت این است که علم داده به معنای خاص، چند دهه قدمت دارد و به معنای عام، ریشههای آن را میتوان در قرنهای گذشته هم جستجو کرد.
اما قدرت گرفتن چند «روند» طی سالهای اخیر، باعث شده که علم داده بیش از پیش مورد توجه قرار بگیرد. از جملهی این روندها میتوان به موارد زیر اشاره کرد:
در حال حاضر، بسیاری از کسب و کارها برای حل مسائل خود و بهخصوص سیاستگذاری و انجام اقدامهای پیشگیرانه، از علم داده کمک میگیرند. به این مثال توجه کنید:
فرض کنید یک کسب و کار پوشاک، باشگاهی برای مشتریان خود راهاندازی کرده است. بیشتر مشتریانِ مکرر این کسب و کار، عضو باشگاه مشتریان هستند و از مزیتهای آن بهره میبرند.
اما اعضای هیچ باشگاهی، برای همیشه در آن باشگاه باقی نمیمانند. بلکه زمانی میرسد که تصمیم میگیرند به سراغ برندهای دیگر بروند و همهی امتیازهای جمعشده و مزایا و ساز و کارهای گیمیفیکیشن را که یک کسب و کار، برای درگیر کردن و افزایش وفاداری مشتریان خود طراحی کرده، رها کنند.
فرض کنید کسب و کار مد نظر ما، بنا به تجربه به نتیجه رسیده است که وقتی یک عضو باشگاه، برای یکسال از کارت عضویت خود هیچ استفادهای نمیکند، آن مشتری را میتوان از دست رفته دانست.
به واسطهی سیستم نرمافزاری باشگاه مشتریان، تمام دادههای مربوط به مشتریان قبلی که از دست رفتهاند نیز موجود است (از سن و جنسیت گرفته تا تعداد و زمان و مبلغ تراکنشها و نوع کالاهایی که خریدهاند و تخفیفها و مزایایی که استفاده کردهاند).
سوال اینجاست که چگونه میتوان همین امروز، کسانی را که عضو باشگاه مشتریان هستند و هنوز غیر فعال نشدهاند، اما «احتمال غیرفعالشدنشان در یک سال آینده بالاست» پیدا کرد؟
اگر این افراد با دقت نسبتاً خوبی تشخیص داده شوند، میتوان به شیوههای مختلف (از تماس تلفنی و نظرسنجی تا ارائهی امتیازها و تخفیفهای ویژه)، احتمال غیرفعالشدن آنها را کاهش داد.
این یکی از نمونه سوالهایی است که متخصص علوم داده میتواند به آن پاسخ دهد.
میگویند علم داده گرفتارِ جنگ تعریفها است (+). به این معنا که افراد مختلف، آن را به شکلهای متفاوتی تعریف کردهاند و چون هیچکس از تعریف دیگری راضی نیست، همه مشغول نقد تعریف یکدیگر هستند.
واقعیت این است که مدعیان تخصص علم داده هم در این میان بیتقصیر نیستند. در حدی که گاهی یک نفر که صرفاً توانایی ترسیم چند نمودار در اکسل را دارد، خود را متخصص علم داده معرفی میکند و نتیجه این میشود که عدهای میگویند: «متخصص علم داده، همان کارشناس آمار است که حقوق بیشتری میخواهد.»
اگر از این اختلافنظرها و افراطها بگذریم، میتوان گفت دو تعریف زیر تقریباً در میان غالب متخصصان علم داده پذیرفته شدهاند:
تعریف علم داده توسط براشلر و همکاران (منبع)
علم داده به ترکیب منحصربهفردی از اصول و روشها، اعم از تحلیل، مهندسی، کارآفرینی و علم ارتباطات اشاره دارد که میکوشد از دادهها، ارزش اقتصادی خلق کند.
تعریف علم داده توسط کِهِلِر (منبع)
علم داده شامل مجموعهای از اصول، مسائل، الگوریتمها و فرایندهاست که برای استخراج الگوهای غیرواضح و قابلاستفاده از حجم بزرگ دادهها بهکار گرفته میشود.
این الگوها واضح نیستند؛ به این معنا که غالباً با تحلیل شهودی کارشناسان، نمیتوان آنها را یافت و درک کرد.
این الگوها کاربردی هستند؛ به این معنا که صرفاً دادههای پیش رو را توصیف نمیکنند؛ بلکه مسیری برای اقدام عملی در اختیار ما میگذارند.
گاهی اوقات علم داده (Data Science) را با داده کاوی (Data Mining) و گاه با یادگیری ماشین (Machine Learning) مترادف در نظر میگیرند.
گاهی هم پیش میآید که آن را زیرمجموعهی علم آمار فرض میکنند. اما منطقیتر است که برای علم داده تعریف گستردهتری در نظر بگیریم. زیرا:
بنابراین بهتر است علم داده را به معنای عامتر در نظر بگیریم و فرض کنیم سایر شاخهها (مثل آمار، داده کاوی و یادگیری ماشینی) دستاوردهای خود را در اختیار علم داده قرار میدهند.
علم داده چنان گسترده است که معمولاً یک متخصص علم داده هم نمیتواند در همهی زمینههای آن متخصص شود و مدعی باشد. معمولاً یک متخصص در یکی دو مورد از رشتهها، تخصص عمیق دارد و آشناییاش با سایر حوزهها، در حد عمومی باقی میماند. در اینجا چند مورد از دانشها و مهارتهای مرتبط با علم داده را مرور میکنیم (+):
محدودیت در دسترسی کامل به درسهای سواد دیجیتال
دوست عزیز. دسترسی کامل مجموعه درسهای سواد دیجیتال برای اعضای ویژهی متمم در نظر گرفته شده است. البته با عضویت ویژه، به مجموعه درسهای بسیار بیشتری به شرح زیر دسترسی پیدا میکنید:
البته اگر به تسلط بر تکنولوژی و سواد دیجیتال علاقه دارید، احتمالاً مطالعهی مباحث زیر برایتان در اولویت خواهد بود:
آموزش CRM | اتوماسیون بازاریابی
استراتژی محتوا | آموزش بازاریابی محتوا | دیجیتال مارکتینگ
آموزش سئو | ایمیل مارکتینگ | شبکه های اجتماعی
شبکه های اجتماعی | تولید محتوا
دوره MBA (پیگیری منظم مجموعه درسها)
اگر واقعاً برایتان جذاب است که به عنوان یک Data Scientist فعالیت کنید، پیشنهاد میکنیم فایل PDF زیر را دانلود کرده و بخوانید:
https://blog.faradars.org/%D8%B9%D9%84%D9%85-%D8%AF%D8%A7%D8%AF%D9%87-%DA%86%DB%8C%D8%B3%D8%AA%D8%9F/
لطفا شکیبا باشید ...