علم داده

علم داده

علم داده

علم داده یا data science دانشی مبتنی برداده است که با استفاده از دیگر علوم به‌عنوان علمی میان‌رشته‌ای عمل می‌کند. علم داده با استفاده از فرآیندها، سامانه‌ها و روش‌های علمی، از داده‌ها در اشکال مختلف اعم از ساختاریافته یا غیر ساختاریافته استخراج دانش و بینش انجام می‌دهد. علم داده شبیه به کشف دانش در پایگاه داده‌ها است.[۱]

علم داده مفهومی است که با به‌کارگیری علم آمار و تحلیل داده‌ها و روش‌های مرتبط با آنها، سعی می‌کند پدیده‌های واقعی را به‌وسیله داده‌ها درک، تجزیه‌وتحلیل نماید.

data science درراه رسیدن به هدف خود از مهارت‌ها و نظریه‌های بسیاری از زمینه‌های دیگر استفاده می‌کند، ریاضیات، آمار، علوم رایانه، علوم اطلاعات، برخی از زیرمجموعه‌های یادگیری ماشین، داده‌کاوی، پایگاه داده‌ها و بصری سازی از مهم‌ترین علوم و تخصص‌های موردنیاز علم داده می‌باشند.

جیم گری[۲] برنده جایزه تورینگ، data science را علمی چهار پرادایمی معرفی می‌کند که شامل: علوم تجربی، علوم نظری، علوم محاسباتی و در حال حاضر علوم داده محور است. همچنین جیم گری اظهار داشت به دلیل تأثیرگذاری فن‌آوری اطلاعات و سیل داده‌ها، همه‌چیز در علم در حال تغییر است.

مدرسه کسب‌وکار هاروارد تحقیقی با عنوان «جذاب‌ترین شغل قرن ۲۱» را آغاز نمود، درنهایت آنها به تجزیه‌وتحلیل کسب‌وکارها و یا استفاده مستبدانه از داده‌ها و یا استفاده جذاب از آمار رسیدند. درحالی‌که در حال حاضر بسیاری از دانشگاه‌ها رشته علم داده دارند، اما در تعریف علم داده و محتویات برنامه درسی آنها اتفاق‌نظر وجود ندارد، ولی به دلیل محبوبیت فراوان علم داده حمایت‌های فراوانی از این رشته می‌شود.

تاریخچه

اصطلاح data science از سی سال پیش مورداستفاده قرارگرفته است. اولین بار در سال ۱۹۶۰ پیتر نار [۳] از واژه datalogy  و به‌عنوان جایگزینی برای علوم رایانه استفاده کرد. در سال ۱۹۷۴ پیتر نار مقاله‌ای منتشر کرد با عنوان «بررسی اجمالی روش‌های رایانه‌ای [۴]» که در آن از اصطلاح data science استفاده کرده بود و روش پردازش داده‌های معاصر را که با استفاده از طیف گسترده‌ای از برنامه‌های کاربردی به‌ وجود می‌آیند، بررسی کرده بود.

در سال ۱۹۹۶ اعضای فدراسیون جهانی طبقه‌بندی جوامع [۵] برای اجلاس دوسالانه خود در شهر کوبه جمع شدند. در آنجا برای اولین بار اصطلاح data science در عنوان اجلاس گنجانده شد. نام اجلاس آنها «علم داده، طبقه‌بندی و روش‌های مرتبط»[۶] بود. پس از مدت‌زمانی کوتاه، واژه علم داده توسط چیکوی هایاشی [۷] در یک میزگرد ارائه و معرفی گردید.

در نوامبر ۱۹۹۷ سی‌اف‌جف‌وو [۸] در سخنرانی خود با عنوان «آمار = علم داده» در دانشگاه میشیگان گفت کار آماری شامل سه‌گانه: جمع‌آوری و مدل‌سازی داده‌ها، تجزیه‌وتحلیل داده‌ها و اتخاذ تصمیم است. او در نتیجه‌گیری خود  از آغاز علمی غیر رایانه‌ای و مدرن بانام علم داده خبر داده بود و معتقد بود که آمار به علم داده تغییر نام خواهد داد و دانشمندان آمار به دانشمندان داده تغیر نام می‌دهند.

علم داده
علم داده

در سال ۲۰۰۱ ویلیام‌ کلیولند [۹] علم داده را به‌عنوان رشته‌ای مستقل از آمار و گسترشی درزمینهٔ آمار و سمبلی از محاسبات پیشرفته بر روی‌داده دانست و در مقاله‌ای با عنوان: «علم داده: طرحی عملی برای گسترش حوزه‌های فنی درزمینهٔ آمار»[۱۰] که در آوریل ۲۰۰۱ منتشر شد، شش حوزه فنی که علم داده را در برگرفته‌اند بیان کرد. به اعتقاد او علم داده شامل حوزه‌های تخصصی و فنی: تحقیقات بین‌رشته‌ای، مدل‌ها و روش‌های داده، محاسبات داده، ابزارهای ارزیابی، آموزش و نظریه‌پردازی است.

در آوریل ۲۰۰۲ شورای بین‌المللی علم: کمیته اطلاعات علوم و فن‌آوری [۱۱] شروع به انتشار یک مجله علمی داده نمود. این نشریه بر روی مسائلی مانند توصیف سامانه‌های داده‌ای، برنامه‌های کاربردی، انتشار داده‌ها در اینترنت و مسائل حقوقی مرتبط با داده تمرکز دارد. مدتی بعد در ژانویه ۲۰۰۳ دانشگاه کلمبیا مجله علم داده را منتشر کرد، این مجله سکویی برای تمام کسانی که بر روی‌داده کار می‌کردند ایجاد کرد تا به ارائه دیدگاه‌های خود و تبادل‌نظر درباره داده بپردازند. این مجله تا حد زیادی به استفاده از روش‌های آماری می‌پرداخت و به‌ندرت پژوهش‌های غیر آماری انجام می‌داد. در سال ۲۰۰۵ انجمن علمی علوم آمریکا مقاله‌ای با عنوان «عمر طولانی مجموعه داده‌های دیجیتال: امکان تحقیقات و آموزش در قرن ۲۱» [۱۲] منتشر کرد، در این مقاله دانشمند داده به این صورت تعریف گردید: «دانشمندان رایانه و اطلاعات، پایگاه داده و نرم‌افزار و برنامه‌نویسان، کارشناسان انتظامی، موزه‌داران، کتابداران، آرشیودارها و دیگرانی که مدیریت موفق مجموعه داده‌های دیجیتالی برای آنها مهم بوده و فعالیت اصلی آنها انجام تحقیق خلاقانه و تجزیه‌وتحلیل داده‌هاست»

در سال ۲۰۱۲ مدرسه کسب‌وکار هاروارد مقاله‌ای با عنوان «دانشمند داده‌: جذاب‌ترین شغل قرن ۲۱» منتشر کرد، در این مقاله دی‌ پاتیل [۱۳] مدعی شد که همراه با هومرباچر[۱۴] در سال ۲۰۰۸ از واژه دانشمند داده برای تعریف شغل خودشان در فیس‌بوک و لینک‌داین استفاده کرده‌اند و این واژه را آنها ابداع نموده‌اند. او می‌گفت که دانشمند داده نسلی نُو و جدید از دانشمندان هستند و کم بودن دانشمندان داده در برخی از حوزه‌ها محدودیتی بسیار جدی است، ولی این نکته را نیز بیان نمود که دانشمند داده علمی کسب‌وکار گرا است.

علم داده
علم داده

در سال ۲۰۱۳ مجله IEEE شروع به‌کار بر روی علم داده و تجزیه‌وتحلیل‌های پیشرفته نمود و اولین اجلاس بین‌المللی خود را با عنوان «اجلاس بین‌المللی IEEE  در علم داده و تجزیه‌وتحلیل‌های پیشرفته» در سال ۲۰۱۴ برگزار نمود. در سال ۲۰۱۴ انجمن آمار آمریکا، بخش «یادگیری آماری و داده‌کاوی» مجله خود را به «تجزیه‌وتحلیل آماری و داده‌کاوی: مجله علم داده» تغییر نام داد و سپس در سال ۲۰۱۶ نام این بخش را «آموزش آماری و علم داده» گذاشت. در سال ۲۰۱۵ یک مجله بین‌المللی در علم داده و تجزیه‌وتحلیل توسط اسپرینگر [۱۵] راه‌اندازی شد که به انتشار کارهای اصلی بر روی علم داده و تجزیه‌وتحلیل داده کلان [۱۶] می‌پردازد. در سال ۲۰۱۳ اولین اجلاس اروپایی تجزیه‌وتحلیل داده‌ها در لوکزامبورگ برگزار شد و انجمن اروپایی علم داده در اوت ۲۰۱۵ ایجاد گردید.

نقدی کوتاه بر علم داده

اگرچه استفاده از اصطلاح علم داده در محیط‌های کسب‌وکاری بسیار رایج گردید، اما بسیاری از دانشگاهیان و روزنامه‌نگاران هیچ فرقی بین علم داده و آمار نمی‌بینند. گیل پرس [۱۷] در مجله فوربس مقاله‌ای نوشت و استدلال کرد که data science شعاری بدون تعریف واضح و مشخص است و به عباراتی ساده می‌توان گفت منظور همان تجزیه‌وتحلیل کسب‌وکار است و درزمینه‌هایی مانند برنامه‌های درسی کارشناسی ارشد قابل‌ارائه است. نیت سیلور [۱۸] در قسمت پرسش و پاسخ، سخنرانی خود در جلسات آماری انجمن آمار آمریکا گفت: من فکر می‌کنم دانشمند داده اصطلاحی جذاب برای دانشمند آمار است و آمار شاخه‌ای از علوم است.

دانشمند داده

دانشمند داده مدیریت مقادیر زیادی از داده‌ها را انجام داده و اطلاعات غنی را کشف، تحلیل و تفسیر می‌نمایند. دانشمند داده مهارت‌ها و تخصص‌های متنوعی برای تحلیل اطلاعات و کشف منابع غنی داده نیاز دارد. شاید بتوان گفت مهم‌ترین مهارت‌های دانشمند داده عبارتند از:

  • مهارت استفاده از داده‌ها
  • توانایی تحلیل داده‌ها
  • تخصص در ادغام منابع داده‌ای باهم
  • مسلط به استفاده از سخت‌افزار و نرم‌افزار
  • تخصص در مفاهیم محدودیت‌های پهنای باند
  • تخصص ایجاد همروندی [۱۹] بین داده‌ها
  • مهارت در مصورسازی [۲۰] اطلاعات برای درک بهتر
  • توانایی ساختن مدل‌های ریاضی برای درک بهتر داده‌ها
  • مهارت ارائه بینش‌ها و یافته‌های خود از درون داده‌ها

دانشمند داده معمولاً در چندین روز پاسخ سؤالاتی که مطرح‌شده بود خواهد رسید. این جواب‌ها را با تجزیه‌وتحلیل اکتشافی و تکراری خواهد یافت. نتایج کار دانشمند داده در صفحه‌نمایش داشبوردِ گرافیکی نمایش داده خواهد شد و به‌صورت مقاله یا گزارش نخواهد بود.

در بررسی که توسط مدرسه کسب‌وکار هاروارد صورت گرفت، دانشمند داده تبدیل به محبوب‌ترین پیشه و حرفه‌ی قرن ۲۱ شده است. در این بررسی همچنین خبر از تقاضای جهانی بیش از ۱٫۵ میلیون دانشمند داده در آینده‌ی نزدیک شده است.

در حال حاضر در برخی از دانشگاه‌ها دوره‌های کارشناسی ارشد data science برگزار می‌گردد. همچنین دوره‌های خصوصی کوتاه‌مدت علم داده مخصوص برنامه‌نویسان و دانشجویان برگزار می‌شود.

[۱] Knowledge Discovery in Databases (KDD)

[۲] Jim Gray

[۳] Peter Naur

[۴] Concise Survey of Computer Methods

[۵] International Federation of Classification Societies (IFCS)

[۶] Data Science, classification, and related methods

[۷] Chikio Hayashi

[۸] C.F. Jeff Wu

[۹] William S. Cleveland

[۱۰] Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics

[۱۱] Committee on Data for Science and Technology (CODATA)

[۱۲] Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century

[۱۳] DJ Patil

[۱۴] Jeff Hammerbacher

[۱۵] Springer

[۱۶] big data

[۱۷] Gil Press

[۱۸] Nate Silver

[۱۹] consistency

[۲۰] visualizations

نوشتن نظر

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *