
معماری پلتفرم داده
معماری پلتفرم داده
معماری پلتفرم داده ؛ در این مقاله نگاهی به ویژگی های کلیدی یک پلت فرم داده مدرن خواهیم انداخت که شامل سادگی، سازگاری و امنیت است.
سازماندهی داده ها نقش مهمی در سازمانهای پیشرو ایفا می کند. برای ماندن در رقابت با رقبا در دراز مدت علاوه بر کسب دانش از سیل اطلاعات دیجیتالی که از سوی مشتریان و شرکا در جریان است، مدیریت و تجزیه و تحلیل پایگاه داده داخلی که تا حد امکان کارآمد و مقرون به صرفه است، اهمیت دارد. یک پلت فرم داده به طور خاص طراحی شده است تا داده ها را از منابع مختلف جمع آوری کند، این داده ها را از سراسر سازمان یکپارچه کند و در دسترس همه مصرف کنندگان داده قرار دهد.

معماری پلتفرم داده ؛ ویژگی های پلتفرم داده
معماری پلتفرم داده ؛ یک پلت فرم مدرن داده باید به سرعت با مقیاس، پیچیدگی و تنوع داده ها و کاربران آن سازگار شود. ذخیره و پردازش داده ها کافی نیست یک پلت فرم داده مدرن باید تعدادی ویژگی کلیدی داشته باشد. در ادامه برخی ویژگیهای کلیدی پلت فرم داده مدرن بیان خواهد شد:
راه اندازی سریع
معماری پلتفرم داده ؛ یکی از ویژگی های کلیدی یک پلت فرم داده مدرن این است که راه اندازی و استفاده از آن سریع و آسان باشد. باید بدون نیاز به پیکربندی پیچیده به منابع دادهای متصل شود و پس از استقرار پلتفرم، کاربران باید بتوانند بدون در نظر گرفتن مهارت های فنی خاص وارد پلتفرم شده و از آن استفاده کنند.
معماری پلتفرم داده ؛ مدیریت داده چابک
پلتفرم داده باید توانایی متصل و ادغام کردنِ تعداد زیادی از منابع داده مختلف را به همدیگر داشته باشد، الزامات حفاظت از داده ها را برآورده کند، و انعطاف کافی برای واکنش سریع به الزامات جدید، از جمله الزامات قانونی و الزامات تجاری تعیین شده در سازمان، داشته باشد. پلت فرم داده باید مدیریت داده چابک را دارا باشد و به این معنی که داده های مناسب در زمان مناسب در اختیار افراد مناسب قرار می گیرد.
سه اصل اساسی که بر پلتفرم های داده چابک حاکم است عبارتند از:
سادگی
یک چالش خاص در مدیریت داده ها ارائه داده های مورد نیاز بخش های مربوطه یک سازمان است. دسترسی به داده های مورد نیاز باید تا حد امکان بدون اصطکاک باشد تا سربار غیرضروری ایجاد نشود.
سرعت
مدیریت داده های مدرن باید سریع باشد. این در مورد پردازش و تجزیه و تحلیل دادهها صادق است، اما همچنین در مورد اخذ و دریافت دادهها از منابع اطلاعاتی سازمان صادق است. ابزار مدیریت داده باید گردش کار را سرعت بخشد، نه اینکه آنرا باتلاق کند.
کشسانی
مدیریت داده های مدرن با توجه به نوع و حجم داده ها و همچنین منابع مورد نیاز برای پردازش و تجزیه و تحلیل داده های سنگین قابلیت کشسانی داشته باشد، یعنی درصورت نیاز منابع اطلاعاتی جدید به آن اضافه شده یا از آن کسر گردند. کاربران همچنین باید بتوانند به راحتی منابع داده جدید را در جریان های پردازش داده موجود با آن ادغام کنند. ویژگی کلیدی یک پلت فرم داده الاستیک، ماژولار بودن است. در صورت تغییر نیاز برای اجزای جداگانه پلت فرم داده (مثلاً تغییر الزامات حفاظت از داده)، زیرساخت باید تحت تأثیر قرار نگیرد – فقط آن اجزای خاصی که تحت تأثیر این تغییر قرار گرفته اند باید تطبیق داده شوند.
امن بودن
معماری پلتفرم داده ؛ یک پلتفرم داده مدرن باید در دسترس قرار دادن دادهها برای همه کاربران و فرآیندهایش با الزامات قانونی در مورد امنیت دادهها، مانند GDPR[1] یا استاندارد امنیت داده صنعت پرداخت کارت[۲]، تعادل ایجاد کند. پلتفرم داده باید اطمینان حاصل کند که داده ها به طور ایمن بارگیری و روی پلتفرم ذخیره می شوند، که با رمزگذاری داده ها هنگام بارگیری و کدکردن همه داده های شخصی، به آن دسترسی داشته باشند. پلتفرمها باید از کنترلهای دسترسی قوی پشتیبانی کنند تا اطمینان حاصل شود که دادهها فقط توسط افراد مجاز قابل دسترسی یا تغییر هستند.
کاربر متمرکز است
یک پلت فرم داده باید بتواند طیف وسیعی از کاربران در سطوح مختلف مهارت مدیریت کند. صرف نظر از اینکه کاربران مهندس، تحلیلگر، مدیر پروژه یا بازاریاب هستند، پلت فرم داده باید آنها را قادر به مکان یابی، تجزیه و تحلیل و درک داده های شرکت کند. زمینه داده ها، مانند متاداده، کاتالوگ داده، توصیف یا منبع، باید به راحتی قابل دسترسی و درک باشد. کاربران باید بتوانند به سرعت و با حداقل تلاش، بینش و تجزیه و تحلیل را از داده ها استخراج کنند.

اجزای یک پلتفرم داده
یک پلت فرم داده، جمع آوری داده ، ذخیره، پردازش، تجزیه و تحلیل داده را انجام می دهد، تا کاربران تجاری بینش های ارزشمندی از آن به دست آورند. معماری یک پلت فرم داده مدرن شامل چندین لایه است که هر یک عملکرد متفاوتی را انجام می دهد. این لایه ها در زیر به تفصیل ارائه شده است.
منابع داده[۳]
لایه منابع داده وظیه ذخیرهسازی داده هایی را که توسط پلتفرم داده استفاده می شود دارد. منابع داده ها عبارتند از:
- کل سامانههای اطلاعاتی، مانند مدیریت ارتباط با مشتری[۴] یا سیستم های برنامه ریزی منابع سازمانی[۵]
- منابع داده بدون ساختار، مانند فایل های متنی
- داده های ساخت یافته، مانند اسناد اکسل
- منابع صوتی، تصویری یا جریانی
به منظور ذخیره کارآمد این مقادیر بالقوه عظیم داده، توصیه می شود از فضای ذخیرهسازی ابری مانند Amazon S3 یا Google Cloud Storage استفاده کنید.
لایه دریافت داده[۶]
لایه دریافت داده، منابع داده متفاوت موجود در لایه منبع داده ادغام کرده و داده ها را در بستر داده ذخیره و در دسترس قرار می دهد. در مرحله اول، لایه دریافت داده دادههای مختلف از لایه منابع داده استخراج می کند. در مرحله بعد، دادهها اعتبارسنجی میشوند و مطمئن میشوند که در قالب صحیح هستند و حاوی خطا نیستند و در پلت فرم داده ذخیره می شوند، جایی که داده ها منتظر مراحل پردازش بعدی هستند.
باید دقت کرد ابزارهای مدرن برای دریافت داده که با تکنولوژی متن باز یا SaaS[7] توسعه یافتهاند با هم تفاوت دارند. استفاده از ابزارهای متن باز رایگان است، اما غالباً نیاز به ساعت های کاری بیشتری برای نصب، پیکربندی و نگهداری ابزار دارند. راهحلهای SaaS قیمت ثابتی دارند، اما عموماً از ویژگیهای بیشتر و فرآیند یکپارچهسازی آسانتر و همچنین کاهش هزینه نگهداری بهره میبرند.
- ابزار متن باز مانند: StreamSets، Singer
- ابزارهای SaaS مانند: Stitch، Fivetran، Hevo Data
لایه پردازش داده[۸]
معماری پلتفرم داده ؛ در لایه پردازش و تبدیل، داده های منابع داده برای ذخیره سازی در لایه ذخیره سازی آماده می شوند، جایی که داده ها در یک مدل داده خاص ذخیره می شوند، غالباً مدلهایی که تجزیهوتحلیل داده را آسانتر میکند. اگر این مدل داده همانند داده های مبدا باشد، هیچ پیش پردازشی در لایه پردازش و تبدیل لازم نیست. در غیر این صورت، داده ها به مدل داده ای تبدیل می شوند که متناسب با مدل داده در لایه ذخیره سازی است.
پردازش داده ها را می توان در زمان واقعی[۹] اعمال کرد یا به صورت پردازش دستهای برنامهریزی شده برای زمان خاصی[۱۰] از روز انجام داد. هر دو تکنیک پردازش داده را می توان در فرآیندهای ETL یا ELT اجرا کرد. برای مقادیر بیشتر داده، روش دوم به دلایل عملکرد توصیه می شود. برخی از ابزارهای کلیدی برای تبدیل و پردازش داده ها عبارتند از:
- Databricks
- Amazon EMR (Elastic MapReduce)
- Amazon Athena
- Google Cloud Dataproc
- Starburst
لایه ذخیره سازی
دادهها پس از دریافت از لایه منبع داده و پردازش در لایه پردازش و تبدیل، در لایه ذخیره سازی ذخیره می شود که دارای چندین عملکرد است:
- در دسترس قرار دادن داده برای مصرف کنندگان آن، مانند دانشمندان داده و توسعه دهندگان
- حفاظت از داده در برابر خطا و خرابی در سامانهها
- آرشیو داده ها در یک دوره زمانی بسیار طولانی.
لایه ذخیره سازی یک پلت فرم داده را می توان با استفاده از فناوری های مختلف پیاده سازی کرد، برخی از آنها عبارتند از:
- پایگاه های داده NoSQL
- سیستم های فایل توزیع شده Hadoop
- ذخیره سازی ابری
- پایگاه های داده در حافظه[۱۱]
لایه تجزیه و تحلیل
معماری پلتفرم داده ؛ لایه تجزیه و تحلیل به منظور تجزیه و تحلیل داده ها و به دست آوردن بینش ارزشمند از آن با اعمال الگوریتم های تحلیلی مختلف بر روی داده عمل می کند. چنین الگوریتمهایی میتوانند شامل تحلیلهای توصیفی و اکتشافی و همچنین الگوریتمهای پیشرفتهتر مبتنی بر یادگیری ماشین و شبکههای عصبی باشند.
لایه مصورسازی
بینش دادههای بهدستآمده در لایه تجزیه و تحلیل به کاربر نهایی در لایه مصورسازی ارائه میشود. این کار معمولاً از طریق داشبوردهای هوش تجاری (BI) انجام می شود. داشبوردهای BI به کاربر نهایی این امکان را میدهند که دادهها را عمیقتر از آنچه که اگر فقط گزارشهای دادههای ثابت مصرف میکردند، کاوش کند. برخی از ابزارهای مدرن BI عبارتند از:
- Tableau
- Looker
- Sigma
- Superset
- Google Data Studio
- SAP Business Objects
- MicroStrategy

لایه امنیت و حریم خصوصی
معماری پلتفرم داده ؛ یکی از چالش های یک پلت فرم داده مدرن، مدیریت و بکارگیری سیاست های حفظ حریم خصوصی و امنیتی است. این چالش در لایه حفاظت از داده و امنیت پرداخته شده است. استفاده از سیاستهای حفظ حریم خصوصی و امنیتی با احراز هویت و بررسی مجوز دسترسی کاربر به دست میآید، که تضمین میکند که دسترسی به دادهها در پلتفرم داده فقط به کاربران مجاز داده میشود. امنیت و محرمانه بودن داده ها را می توان با رمزگذاری داده ها در حین انتقال و ذخیره سازی بیشتر تضمین کرد.
لایه حریم خصوصی و امنیت همچنین تمام فعالیتهای انجامشده روی دادهها را ردیابی و بازرسی میکند و یک رکورد جامع از افرادی که به دادهها دسترسی پیدا کرده یا تغییر دادهاند و زمانی که آنها این کار را انجام دادهاند، ارائه میکند. برخی از ابزارهای مورد استفاده برای حفظ حریم خصوصی و امنیت داده ها عبارتند از:
- Immuta
- Privacera
- Apache Ranger
کاتالوگ داده و حاکمیت
معماری پلتفرم داده ؛ یک پلت فرم داده مدرن مزایای بسیاری از جمله مدیریت چابک داده، مقیاس پذیری آسان و سرعت را به همراه دارد. با این حال، از آنجایی که متاداده ها به طور فزایندهای رشد میکنند، مدیریت متاداده، گزینه های کشف داده، اعتماد و حاکمیت اغلب به چالشی بزرگ برای پلتفرم های داده مدرن تبدیل می شود. کاتالوگ داده و لایه حاکمیت با هدف اجتناب از این عوارض است. کاتالوگ داده یک فهرست از متادادههاست که می تواند به عنوان یک ابزار یا سرویس برای مدیریت متاداده دارایی های داده پلت فرم داده استفاده شود. به عنوان مثال، منابع داده، اصل و نسب داده، نام جدول، ویژگی ها، محدوده های مقدار، انواع داده ها و شاخص ها در یک کاتالوگ داده ذخیره می شوند. به این ترتیب، کاتالوگ داده، مدیریت داده ها را در یک پلت فرم داده را امکان پذیر می کند.
- Dataedo
- Informatica Metadata Management
- Io-Tahoe
- Adaptive Metadata Manager
ابزارهای مناسب و منعطف برای مدیریت متاداده هستند. کاربران خود را به توانایی ویرایش و منبع محتوایی از سایر APIها از طریق فیلدهای راه دور مجهز می کنند.
نتیجه گیری
در این مقاله با پلتفرم داده به عنوان ابزاری برای سازماندهی و تجزیه و تحلیل داده ها در یک سازمان داده محور آشنا شدیم. با ویژگیهای کلیدی یک پلت فرم داده مدرن که شامل سادگی، سازگاری و امنیت است آشنا شدیم. همچنین یک نمای کلی از معماری یک پلت فرم داده با توضیحات مفصل در مورد هر یک از لایه های جداگانه بیان شد.
[۱] General Data Protection Regulation
[۲] Payment Card Industry Data Security Standard
[۳] Data Sources
[۴] CRM = Customer Relationship Management
[۵] ERP = Enterprise Resource Planning
[۶] Ingestion Layer
[۷] Software as a Service
[۸] Processing Layer
[۹] real time
[۱۰] batches processing scheduled
[۱۱] In-memory databases
تألیف و ترجمه: آقای مهندس رضا بهادری زاده در صورت تمایل. برای کسب اطلاعات بیشتر در زمینه مهندسی داده. و ارتباط با اینجانب، شماره تلفن مستقیم ۰۲۱۸۶۱۱۱۷۲۵ در اختیار شماست.
جهت استفاده از خدمت هوش تجاری نفیس. و همچنین گرفتن مشاوره. هوشمند سازی کسبوکار در سازمان خود، فرم زیر را تکمیل بفرمائید:
نوشتن نظر