معماری پلتفرم داده

معماری پلتفرم داده

معماری پلتفرم داده

معماری پلتفرم داده ؛ در این مقاله نگاهی به ویژگی های کلیدی یک پلت فرم داده مدرن خواهیم انداخت که شامل سادگی، سازگاری و امنیت است.

سازماندهی داده ها نقش مهمی در سازمان‌های پیشرو ایفا می کند. برای ماندن در رقابت با رقبا در دراز مدت علاوه بر کسب دانش از سیل اطلاعات دیجیتالی که از سوی مشتریان و شرکا در جریان است، مدیریت و تجزیه و تحلیل پایگاه داده داخلی که تا حد امکان کارآمد و مقرون به صرفه است، اهمیت دارد. یک پلت فرم داده به طور خاص طراحی شده است تا داده ها را از منابع مختلف جمع آوری کند، این داده ها را از سراسر سازمان یکپارچه کند و در دسترس همه مصرف کنندگان داده قرار دهد.

Data Platform Architecture
Data Platform Architecture

معماری پلتفرم داده ؛ ویژگی های پلتفرم داده

معماری پلتفرم داده ؛ یک پلت فرم مدرن داده باید به سرعت با مقیاس، پیچیدگی و تنوع داده ها و کاربران آن سازگار شود. ذخیره و پردازش داده ها کافی نیست یک پلت فرم داده مدرن باید تعدادی ویژگی کلیدی داشته باشد. در ادامه برخی ویژگی‌های کلیدی پلت فرم داده مدرن بیان خواهد شد:

راه اندازی سریع

معماری پلتفرم داده ؛ یکی از ویژگی های کلیدی یک پلت فرم داده مدرن این است که راه اندازی و استفاده از آن سریع و آسان باشد. باید بدون نیاز به پیکربندی پیچیده به منابع داده‌ای متصل شود و پس از استقرار پلتفرم، کاربران باید بتوانند بدون در نظر گرفتن مهارت های فنی خاص وارد پلتفرم شده و از آن استفاده کنند.

معماری پلتفرم داده ؛ مدیریت داده چابک

پلتفرم داده باید توانایی متصل و ادغام کردنِ تعداد زیادی از منابع داده مختلف را به همدیگر داشته باشد، الزامات حفاظت از داده ها را برآورده کند، و انعطاف کافی برای واکنش سریع به الزامات جدید، از جمله الزامات قانونی و الزامات تجاری تعیین شده در سازمان، داشته باشد. پلت فرم داده باید مدیریت داده چابک را دارا باشد و به این معنی که داده های مناسب در زمان مناسب در اختیار افراد مناسب قرار می گیرد.

سه اصل اساسی که بر پلتفرم های داده چابک حاکم است عبارتند از:

سادگی

یک چالش خاص در مدیریت داده ها ارائه داده های مورد نیاز بخش های مربوطه یک سازمان است. دسترسی به داده های مورد نیاز باید تا حد امکان بدون اصطکاک باشد تا سربار غیرضروری ایجاد نشود.

سرعت

مدیریت داده های مدرن باید سریع باشد. این در مورد پردازش و تجزیه و تحلیل داده‌ها صادق است، اما همچنین در مورد اخذ و دریافت داده‌ها از منابع اطلاعاتی سازمان صادق است. ابزار مدیریت داده باید گردش کار را سرعت بخشد، نه اینکه آنرا باتلاق کند.

کشسانی

مدیریت داده های مدرن با توجه به نوع و حجم داده ها و همچنین منابع مورد نیاز برای پردازش و تجزیه و تحلیل داده های سنگین قابلیت کشسانی داشته باشد، یعنی درصورت نیاز منابع اطلاعاتی جدید به آن اضافه شده یا از آن کسر گردند. کاربران همچنین باید بتوانند به راحتی منابع داده جدید را در جریان های پردازش داده موجود با آن ادغام کنند. ویژگی کلیدی یک پلت فرم داده الاستیک، ماژولار بودن است. در صورت تغییر نیاز برای اجزای جداگانه پلت فرم داده (مثلاً تغییر الزامات حفاظت از داده)، زیرساخت باید تحت تأثیر قرار نگیرد – فقط آن اجزای خاصی که تحت تأثیر این تغییر قرار گرفته اند باید تطبیق داده شوند.

امن بودن

معماری پلتفرم داده ؛ یک پلت‌فرم داده مدرن باید در دسترس قرار دادن داده‌ها برای همه کاربران و فرآیندهایش با الزامات قانونی در مورد امنیت داده‌ها، مانند GDPR[1] یا استاندارد امنیت داده صنعت پرداخت کارت[۲]، تعادل ایجاد کند. پلتفرم داده باید اطمینان حاصل کند که داده ها به طور ایمن بارگیری و روی پلتفرم ذخیره می شوند، که با رمزگذاری داده ها هنگام بارگیری و کدکردن همه داده های شخصی، به آن دسترسی داشته باشند. پلتفرم‌ها باید از کنترل‌های دسترسی قوی پشتیبانی کنند تا اطمینان حاصل شود که داده‌ها فقط توسط افراد مجاز قابل دسترسی یا تغییر هستند.

کاربر متمرکز است

یک پلت فرم داده باید بتواند طیف وسیعی از کاربران در سطوح مختلف مهارت مدیریت کند. صرف نظر از اینکه کاربران مهندس، تحلیلگر، مدیر پروژه یا بازاریاب هستند، پلت فرم داده باید آنها را قادر به مکان یابی، تجزیه و تحلیل و درک داده های شرکت کند. زمینه داده ها، مانند متاداده، کاتالوگ داده، توصیف یا منبع، باید به راحتی قابل دسترسی و درک باشد. کاربران باید بتوانند به سرعت و با حداقل تلاش، بینش و تجزیه و تحلیل را از داده ها استخراج کنند.

معماری پلتفرم داده
معماری پلتفرم داده

اجزای یک پلتفرم داده

یک پلت فرم داده، جمع آوری داده ، ذخیره، پردازش، تجزیه و تحلیل داده را انجام می دهد، تا کاربران تجاری بینش های ارزشمندی از آن به دست آورند. معماری یک پلت فرم داده مدرن شامل چندین لایه است که هر یک عملکرد متفاوتی را انجام می دهد. این لایه ها در زیر به تفصیل ارائه شده است.

منابع داده[۳]

لایه منابع داده وظیه ذخیره‌سازی داده هایی را که توسط پلتفرم داده استفاده می شود دارد. منابع داده ها عبارتند از:

  • کل سامانه‌های اطلاعاتی، مانند مدیریت ارتباط با مشتری[۴] یا سیستم های برنامه ریزی منابع سازمانی[۵]
  • منابع داده بدون ساختار، مانند فایل های متنی
  • داده های ساخت یافته، مانند اسناد اکسل
  • منابع صوتی، تصویری یا جریانی

به منظور ذخیره کارآمد این مقادیر بالقوه عظیم داده، توصیه می شود از فضای ذخیره‌سازی ابری مانند Amazon S3 یا Google Cloud Storage استفاده کنید.

لایه دریافت داده[۶]

لایه دریافت داده، منابع داده متفاوت موجود در لایه منبع داده ادغام کرده و داده ها را در بستر داده ذخیره و در دسترس قرار می دهد. در مرحله اول، لایه دریافت داده داده‌های مختلف از لایه منابع داده استخراج می کند. در مرحله بعد، داده‌ها اعتبارسنجی می‌شوند و مطمئن می‌شوند که در قالب صحیح هستند و حاوی خطا نیستند و در پلت فرم داده ذخیره می شوند، جایی که داده ها منتظر مراحل پردازش بعدی هستند.

باید دقت کرد ابزارهای مدرن برای دریافت داده که با تکنولوژی متن باز یا SaaS[7] توسعه یافته‌اند با هم تفاوت دارند. استفاده از ابزارهای متن باز رایگان است، اما غالباً نیاز به ساعت های کاری بیشتری برای نصب، پیکربندی و نگهداری ابزار دارند. راه‌حل‌های SaaS قیمت ثابتی دارند، اما عموماً از ویژگی‌های بیشتر و فرآیند یکپارچه‌سازی آسان‌تر و همچنین کاهش هزینه نگهداری بهره می‌برند.

  • ابزار متن باز مانند: StreamSets، Singer
  • ابزارهای SaaS مانند: Stitch، Fivetran، Hevo Data

لایه پردازش داده[۸]

معماری پلتفرم داده ؛ در لایه پردازش و تبدیل، داده های منابع داده برای ذخیره سازی در لایه ذخیره سازی آماده می شوند، جایی که داده ها در یک مدل داده خاص ذخیره می شوند، غالباً مدل‌هایی که تجزیه‌وتحلیل داده را آسان‌تر می‌کند. اگر این مدل داده همانند داده های مبدا باشد، هیچ پیش پردازشی در لایه پردازش و تبدیل لازم نیست. در غیر این صورت، داده ها به مدل داده ای تبدیل می شوند که متناسب با مدل داده در لایه ذخیره سازی است.

پردازش داده ها را می توان در زمان واقعی[۹] اعمال کرد یا به صورت پردازش دسته‌ای برنامه‌ریزی شده برای زمان خاصی[۱۰] از روز انجام داد. هر دو تکنیک پردازش داده را می توان در فرآیندهای ETL یا ELT اجرا کرد. برای مقادیر بیشتر داده، روش دوم به دلایل عملکرد توصیه می شود. برخی از ابزارهای کلیدی برای تبدیل و پردازش داده ها عبارتند از:

  • Databricks
  • Amazon EMR (Elastic MapReduce)
  • Amazon Athena
  • Google Cloud Dataproc
  • Starburst

لایه ذخیره سازی

داده‌ها پس از دریافت از لایه منبع داده و پردازش در لایه پردازش و تبدیل، در لایه ذخیره سازی ذخیره می شود که دارای چندین عملکرد است:

  • در دسترس قرار دادن داده برای مصرف کنندگان آن، مانند دانشمندان داده و توسعه دهندگان
  • حفاظت از داده در برابر خطا و خرابی در سامانه‌ها
  • آرشیو داده ها در یک دوره زمانی بسیار طولانی.

لایه ذخیره سازی یک پلت فرم داده را می توان با استفاده از فناوری های مختلف پیاده سازی کرد، برخی از آنها عبارتند از:

  • پایگاه های داده NoSQL
  • سیستم های فایل توزیع شده Hadoop
  • ذخیره سازی ابری
  • پایگاه های داده در حافظه[۱۱]

لایه تجزیه و تحلیل

معماری پلتفرم داده ؛ لایه تجزیه و تحلیل به منظور تجزیه و تحلیل داده ها و به دست آوردن بینش ارزشمند از آن با اعمال الگوریتم های تحلیلی مختلف بر روی داده عمل می کند. چنین الگوریتم‌هایی می‌توانند شامل تحلیل‌های توصیفی و اکتشافی و همچنین الگوریتم‌های پیشرفته‌تر مبتنی بر یادگیری ماشین و شبکه‌های عصبی باشند.

لایه مصورسازی

بینش داده‌های به‌دست‌آمده در لایه تجزیه و تحلیل به کاربر نهایی در لایه مصورسازی ارائه می‌شود. این کار معمولاً از طریق داشبوردهای هوش تجاری (BI) انجام می شود. داشبوردهای BI به کاربر نهایی این امکان را می‌دهند که داده‌ها را عمیق‌تر از آنچه که اگر فقط گزارش‌های داده‌های ثابت مصرف می‌کردند، کاوش کند. برخی از ابزارهای مدرن BI عبارتند از:

  • Tableau
  • Looker
  • Sigma
  • Superset
  • Google Data Studio
  • SAP Business Objects
  • MicroStrategy
مصورسازی داده
مصورسازی داده

لایه امنیت و حریم خصوصی

معماری پلتفرم داده ؛ یکی از چالش های یک پلت فرم داده مدرن، مدیریت و بکارگیری سیاست های حفظ حریم خصوصی و امنیتی است. این چالش در لایه حفاظت از داده و امنیت پرداخته شده است. استفاده از سیاست‌های حفظ حریم خصوصی و امنیتی با احراز هویت و بررسی مجوز دسترسی کاربر به دست می‌آید، که تضمین می‌کند که دسترسی به داده‌ها در پلتفرم داده فقط به کاربران مجاز داده می‌شود. امنیت و محرمانه بودن داده ها را می توان با رمزگذاری داده ها در حین انتقال و ذخیره سازی بیشتر تضمین کرد.

لایه حریم خصوصی و امنیت همچنین تمام فعالیت‌های انجام‌شده روی داده‌ها را ردیابی و بازرسی می‌کند و یک رکورد جامع از افرادی که به داده‌ها دسترسی پیدا کرده یا تغییر داده‌اند و زمانی که آن‌ها این کار را انجام داده‌اند، ارائه می‌کند. برخی از ابزارهای مورد استفاده برای حفظ حریم خصوصی و امنیت داده ها عبارتند از:

  • Immuta
  • Privacera
  • Apache Ranger

کاتالوگ داده و حاکمیت

معماری پلتفرم داده ؛ یک پلت فرم داده مدرن مزایای بسیاری از جمله مدیریت چابک داده، مقیاس پذیری آسان و سرعت را به همراه دارد. با این حال، از آنجایی که متاداده ها به طور فزاینده‌ای رشد می‌کنند، مدیریت متاداده، گزینه های کشف داده، اعتماد و حاکمیت اغلب به چالشی بزرگ برای پلتفرم های داده مدرن تبدیل می شود. کاتالوگ داده و لایه حاکمیت با هدف اجتناب از این عوارض است. کاتالوگ داده یک فهرست از متاداده‌هاست که می تواند به عنوان یک ابزار یا سرویس برای مدیریت متاداده دارایی های داده پلت فرم داده استفاده شود. به عنوان مثال، منابع داده، اصل و نسب داده، نام جدول، ویژگی ها، محدوده های مقدار، انواع داده ها و شاخص ها در یک کاتالوگ داده ذخیره می شوند. به این ترتیب، کاتالوگ داده، مدیریت داده ها را در یک پلت فرم داده را امکان پذیر می کند.

  • Dataedo
  • Informatica Metadata Management
  • Io-Tahoe
  • Adaptive Metadata Manager

ابزارهای مناسب و منعطف برای مدیریت متاداده هستند. کاربران خود را به توانایی ویرایش و منبع محتوایی از سایر APIها از طریق فیلدهای راه دور مجهز می کنند.

نتیجه گیری

در این مقاله با پلتفرم داده به عنوان ابزاری برای سازماندهی و تجزیه و تحلیل داده ها در یک سازمان داده محور آشنا شدیم. با ویژگی‌های کلیدی یک پلت فرم داده مدرن که شامل سادگی، سازگاری و امنیت است آشنا شدیم. همچنین یک نمای کلی از معماری یک پلت فرم داده با توضیحات مفصل در مورد هر یک از لایه های جداگانه بیان شد.

[۱] General Data Protection Regulation

[۲] Payment Card Industry Data Security Standard

[۳] Data Sources

[۴] CRM = Customer Relationship Management

[۵] ERP = Enterprise Resource Planning

[۶] Ingestion Layer

[۷] Software as a Service

[۸] Processing Layer

[۹] real time

[۱۰] batches processing scheduled

[۱۱] In-memory databases

 

تألیف و ترجمه: آقای مهندس رضا بهادری زاده در صورت تمایل. برای کسب اطلاعات بیشتر در زمینه مهندسی داده. و ارتباط با اینجانب، شماره تلفن مستقیم ۰۲۱۸۶۱۱۱۷۲۵ در اختیار شماست.

جهت استفاده از خدمت هوش تجاری نفیس. و همچنین گرفتن مشاوره. هوشمند سازی کسب‌وکار در سازمان خود، فرم زیر را تکمیل بفرمائید:

    اطلاعات مورد نیاز شما

    نوشتن نظر

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *