علم داده
علم داده
علم داده یا data science دانشی مبتنی برداده است که با استفاده از دیگر علوم بهعنوان علمی میانرشتهای عمل میکند.
علم داده با استفاده از فرآیندها، سامانهها و روشهای علمی، از دادهها در اشکال مختلف اعم از ساختاریافته یا غیر ساختاریافته استخراج دانش و بینش انجام میدهد. data science شبیه به کشف دانش در پایگاه دادهها است.[۱]
علم داده مفهومی است که با بهکارگیری علم آمار و تحلیل دادهها و روشهای مرتبط با آنها، سعی میکند پدیدههای واقعی را بهوسیله دادهها درک، تجزیهوتحلیل نماید.
data science درراه رسیدن به هدف خود از مهارتها و نظریههای بسیاری از زمینههای دیگر استفاده میکند، ریاضیات، آمار، علوم رایانه، علوم اطلاعات، برخی از زیرمجموعههای یادگیری ماشین، دادهکاوی، پایگاه دادهها و بصری سازی از مهمترین علوم و تخصصهای موردنیاز data science میباشند.
جیم گری[۲] برنده جایزه تورینگ، data science را علمی چهار پرادایمی معرفی میکند که شامل: علوم تجربی، علوم نظری، علوم محاسباتی و در حال حاضر علوم داده محور است. همچنین جیم گری اظهار داشت به دلیل تأثیرگذاری فنآوری اطلاعات و سیل دادهها، همهچیز در علم در حال تغییر است.
مدرسه کسبوکار هاروارد تحقیقی با عنوان «جذابترین شغل قرن ۲۱» را آغاز نمود، درنهایت آنها به تجزیهوتحلیل کسبوکارها و یا استفاده مستبدانه از دادهها و یا استفاده جذاب از آمار رسیدند.
درحالیکه در حال حاضر بسیاری از دانشگاهها رشته data science دارند، اما در تعریف علم داده و محتویات برنامه درسی آنها اتفاقنظر وجود ندارد، ولی به دلیل محبوبیت فراوان data science حمایتهای فراوانی از این رشته میشود.
تاریخچه
اصطلاح data science از سی سال پیش مورداستفاده قرارگرفته است. اولین بار در سال ۱۹۶۰ پیتر نار [۳] از واژه datalogy و بهعنوان جایگزینی برای علوم رایانه استفاده کرد.
در سال ۱۹۷۴ پیتر نار مقالهای منتشر کرد با عنوان «بررسی اجمالی روشهای رایانهای [۴]» که در آن از اصطلاح data science استفاده کرده بود و روش پردازش دادههای معاصر را که با استفاده از طیف گستردهای از برنامههای کاربردی به وجود میآیند، بررسی کرده بود.
در سال ۱۹۹۶ اعضای فدراسیون جهانی طبقهبندی جوامع [۵] برای اجلاس دوسالانه خود در شهر کوبه جمع شدند.
در آنجا برای اولین بار اصطلاح data science در عنوان اجلاس گنجانده شد. نام اجلاس آنها «علم داده، طبقهبندی و روشهای مرتبط»[۶] بود.
پس از مدتزمانی کوتاه، واژه data science توسط چیکوی هایاشی [۷] در یک میزگرد ارائه و معرفی گردید.
در نوامبر ۱۹۹۷ سیافجفوو [۸] در سخنرانی خود با عنوان «آمار = علم داده» در دانشگاه میشیگان گفت کار آماری شامل سهگانه: جمعآوری و مدلسازی دادهها، تجزیهوتحلیل دادهها و اتخاذ تصمیم است. او در نتیجهگیری خود از آغاز علمی غیر رایانهای و مدرن بانام data science خبر داده بود و معتقد بود که آمار به علم داده تغییر نام خواهد داد و دانشمندان آمار به دانشمندان داده تغیر نام میدهند.
ادامه تاریخچه
در سال ۲۰۰۱ ویلیام کلیولند [۹] علم داده را بهعنوان رشتهای مستقل از آمار و گسترشی درزمینهٔ آمار و سمبلی از محاسبات پیشرفته بر رویداده دانست و در مقالهای با عنوان: «علم داده: طرحی عملی برای گسترش حوزههای فنی درزمینهٔ آمار»[۱۰] که در آوریل ۲۰۰۱ منتشر شد، شش حوزه فنی که data science را در برگرفتهاند بیان کرد. به اعتقاد او علم داده شامل حوزههای تخصصی و فنی: تحقیقات بینرشتهای، مدلها و روشهای داده، محاسبات داده، ابزارهای ارزیابی، آموزش و نظریهپردازی است.
در آوریل ۲۰۰۲ شورای بینالمللی علم: کمیته اطلاعات علوم و فنآوری [۱۱] شروع به انتشار یک مجله علمی داده نمود. این نشریه بر روی مسائلی مانند توصیف سامانههای دادهای، برنامههای کاربردی، انتشار دادهها در اینترنت و مسائل حقوقی مرتبط با داده تمرکز دارد. مدتی بعد در ژانویه ۲۰۰۳ دانشگاه کلمبیا مجله علم داده را منتشر کرد، این مجله سکویی برای تمام کسانی که بر رویداده کار میکردند ایجاد کرد تا به ارائه دیدگاههای خود و تبادلنظر درباره داده بپردازند. این مجله تا حد زیادی به استفاده از روشهای آماری میپرداخت و بهندرت پژوهشهای غیر آماری انجام میداد.
در سال ۲۰۰۵ انجمن علمی علوم آمریکا مقالهای با عنوان «عمر طولانی مجموعه دادههای دیجیتال: امکان تحقیقات و آموزش در قرن ۲۱» [۱۲] منتشر کرد، در این مقاله دانشمند داده به این صورت تعریف گردید: «دانشمندان رایانه و اطلاعات، پایگاه داده و نرمافزار و برنامهنویسان، کارشناسان انتظامی، موزهداران، کتابداران، آرشیودارها و دیگرانی که مدیریت موفق مجموعه دادههای دیجیتالی برای آنها مهم بوده و فعالیت اصلی آنها انجام تحقیق خلاقانه و تجزیهوتحلیل دادههاست»
ادامه تاریخچه
در سال ۲۰۱۲ مدرسه کسبوکار هاروارد مقالهای با عنوان «دانشمند داده: جذابترین شغل قرن ۲۱» منتشر کرد، در این مقاله دی پاتیل [۱۳] مدعی شد که همراه با هومرباچر[۱۴] در سال ۲۰۰۸ از واژه دانشمند داده برای تعریف شغل خودشان در فیسبوک و لینکداین استفاده کردهاند و این واژه را آنها ابداع نمودهاند. او میگفت که دانشمند داده نسلی نُو و جدید از دانشمندان هستند و کم بودن دانشمندان داده در برخی از حوزهها محدودیتی بسیار جدی است، ولی این نکته را نیز بیان نمود که دانشمند داده علمی کسبوکار گرا است.
در سال ۲۰۱۳ مجله IEEE شروع بهکار بر روی علم داده و تجزیهوتحلیلهای پیشرفته نمود و اولین اجلاس بینالمللی خود را با عنوان «اجلاس بینالمللی IEEE در علم داده و تجزیهوتحلیلهای پیشرفته» در سال ۲۰۱۴ برگزار نمود. در سال ۲۰۱۴ انجمن آمار آمریکا، بخش «یادگیری آماری و دادهکاوی» مجله خود را به «تجزیهوتحلیل آماری و دادهکاوی: مجله علم داده» تغییر نام داد و سپس در سال ۲۰۱۶ نام این بخش را «آموزش آماری و علم داده» گذاشت. در سال ۲۰۱۵ یک مجله بینالمللی در علم داده و تجزیهوتحلیل توسط اسپرینگر [۱۵] راهاندازی شد که به انتشار کارهای اصلی بر روی علم داده و تجزیهوتحلیل داده کلان [۱۶] میپردازد. در سال ۲۰۱۳ اولین اجلاس اروپایی تجزیهوتحلیل دادهها در لوکزامبورگ برگزار شد و انجمن اروپایی علم داده در اوت ۲۰۱۵ ایجاد گردید.
نقدی کوتاه بر علم داده
اگرچه استفاده از اصطلاح data science در محیطهای کسبوکاری بسیار رایج گردید، اما بسیاری از دانشگاهیان و روزنامهنگاران هیچ فرقی بین data science و آمار نمیبینند. گیل پرس [۱۷] در مجله فوربس مقالهای نوشت و استدلال کرد که data science شعاری بدون تعریف واضح و مشخص است و به عباراتی ساده میتوان گفت منظور همان تجزیهوتحلیل کسبوکار است و درزمینههایی مانند برنامههای درسی کارشناسی ارشد قابلارائه است. نیت سیلور [۱۸] در قسمت پرسش و پاسخ، سخنرانی خود در جلسات آماری انجمن آمار آمریکا گفت: من فکر میکنم دانشمند داده اصطلاحی جذاب برای دانشمند آمار است و آمار شاخهای از علوم است.
دانشمند داده
دانشمند داده مدیریت مقادیر زیادی از دادهها را انجام داده و اطلاعات غنی را کشف، تحلیل و تفسیر مینمایند.
دانشمند داده مهارتها و تخصصهای متنوعی برای تحلیل اطلاعات و کشف منابع غنی داده نیاز دارد.
شاید بتوان گفت مهمترین مهارتهای دانشمند داده عبارتند از:
- مهارت استفاده از دادهها
- توانایی تحلیل دادهها
- تخصص در ادغام منابع دادهای باهم
- مسلط به استفاده از سختافزار و نرمافزار
- تخصص در مفاهیم محدودیتهای پهنای باند
- تخصص ایجاد همروندی [۱۹] بین دادهها
- مهارت در مصورسازی [۲۰] اطلاعات برای درک بهتر
- توانایی ساختن مدلهای ریاضی برای درک بهتر دادهها
- مهارت ارائه بینشها و یافتههای خود از درون دادهها
دانشمند داده معمولاً در چندین روز پاسخ سؤالاتی که مطرحشده بود خواهد رسید.
این جوابها را با تجزیهوتحلیل اکتشافی و تکراری خواهد یافت.
نتایج کار دانشمند داده در صفحهنمایش داشبوردِ گرافیکی نمایش داده خواهد شد و بهصورت مقاله یا گزارش نخواهد بود.
در بررسی که توسط مدرسه کسبوکار هاروارد صورت گرفت، دانشمند داده تبدیل به محبوبترین پیشه و حرفهی قرن ۲۱ شده است.
در این بررسی همچنین خبر از تقاضای جهانی بیش از ۱٫۵ میلیون دانشمند داده در آیندهی نزدیک شده است.
در حال حاضر در برخی از دانشگاهها دورههای کارشناسی ارشد data science برگزار میگردد.
همچنین دورههای خصوصی کوتاهمدت data science مخصوص برنامهنویسان و دانشجویان برگزار میشود.
[۱] Knowledge Discovery in Databases (KDD)
[۲] Jim Gray
[۳] Peter Naur
[۴] Concise Survey of Computer Methods
[۵] International Federation of Classification Societies (IFCS)
[۶] Data Science, classification, and related methods
[۷] Chikio Hayashi
[۸] C.F. Jeff Wu
[۹] William S. Cleveland
[۱۰] Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics
[۱۱] Committee on Data for Science and Technology (CODATA)
[۱۲] Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century
[۱۳] DJ Patil
[۱۴] Jeff Hammerbacher
[۱۵] Springer
[۱۶] big data
[۱۷] Gil Press
[۱۸] Nate Silver
[۱۹] consistency
[۲۰] visualizations
تالیف و ترجمه: آقای مهندس رضا بهادری زاده
نوشتن نظر