ETL چیست

ETL چیست

ETL چیست؟

ETL چیست؟! ما نیاز داریم که داده‌ها به‌طور منظم وارد انبارداده شوند تا بتوان به سهولت از اطلاعات، گزارش‌ها و تحلیل‌ها ارائه نماییم. برای این منظور نیاز است که داده‌ها از یک یا چند سیستم عملیاتیِ مستقر در سازمان استخراج‌شده و درون انبارداده کپی گردند. یک چالش بسیار بزرگ در محیط‌های انبارداده، یکپارچه‌سازی، بازآرایی و یکی کردنِ حجم عظیمی از داده‌های سامانه‌های مختلف است، که درنتیجه این کار اطلاعات یکپارچه جدیدی ایجاد می‌شود که پایه و اساس سیستم هوش تجاری را می‌سازند.

پروسه استخراج داده‌ها از سامانه‌های منبع و آوردن آن‌ها به انبارداده ETL خوانده می‌شود. همان‌گونه که می‌دانیم ETL مخفف کلمات Extraction , Transformation , Load می‌باشند. دقت داشته باشید که ETL اشاره به یک فرآیند گسترده دارد، نه‌فقط این سه‌گامی که گفته شد. اگرچه مخفف ETL بسیار ساده و کوتاه است و Transformation آن معنای جابجایی داده‌ها را دارد بااین‌وجود کل فرآیند به‌عنوان ETL شناخته می‌شود.

فعالیت‌ها و متدولوژی‌های ETL از سال‌های گذشته شناخته‌شده است و لزوما منحصر به محیط انبارداده نیست بلکه به طیف گسترده‌ای از برنامه‌های کاربردی خاص و سامانه‌های مدیریت پایگاه داده‌ها که ستون فقرات IT هر سازمانی هستند موردنیاز می‌باشند. در ETL سعی می‌گردد داده‌هایی که بین سامانه‌ها و برنامه‌های کاربردی به اشتراک گذاشته می‌شوند را مجتمع و یکپارچه کنیم و درنهایت یک برنامه کاربردی با همان دید از جهان واقع ایجاد گردد.

مبانی ETL در انبارداده

در طی پروسه ETL چه اتفاقاتی رخ می‌دهد؟ فعالیت‌های زیر اعمال عمده‌ای است که طی فرآیند ETL صورت می‌پذیرد

ETL چیست
ETL چیست

استخراج داده‌ها Extraction

در طی عملیات استخراج، داده‌های موردنظر که از منابع بسیار متنوع مانند پایگاه داده‌ها و برنامه‌های کاربردی، شناسایی و مشخص‌شده‌اند، استخراج می‌گردند. خیلی اوقات احتمال دارد که شناسایی زیرمجموعه‌ی خاصی از داده‌های موردنظر امکان‌پذیر نباشد به همین دلیل داده‌هایی بیش ازآنچه نیاز است باید استخراج گردد، بنابراین تشخیص داده‌های مرتبط در مرحله بعدی صورت خواهد پذیرفت.

وابسته به قابلیت‌های سامانه‌های منبع (مانند سیستم‌عامل) احتمال دارد برخی از جابجایی‌ها در فرآیند استخراج صورت پذیرد. میزان حجم استخراج داده‌ها وابسته به وضعیت کسب‌وکار و همچنین سامانه‌های منبع، احتمال دارد بین صدها کیلوبایت تا چندین گیگابایت متفاوت باشد. فاصله زمانی درستی باید بین دو پروسه استخراج قرار بگیرد که وابسته به نوع کسب‌وکار و سازمان است. احتمال دارد این فاصله زمانی چندین روز، چندین ساعت، چندین دقیقه و یا حتی به‌صورت بلادرنگ باشد. به‌عنوان‌مثال لاگ فایل‌های یک وب سرور می‌توانند به‌سادگی در یک دوره زمانی بسیار کوتاه‌مدت چند صد مگابایت رشد کرده و بزرگ شوند.

دست‌کاری داده‌ها Transformations

پس‌ازآنکه داده‌ها استخراج شدند به‌صورت فیزیکی به سیستم مقصد یا یک سیستم میانی، برای پردازش‌های بعدی، آورده می‌شوند. بر اساس شیوه انتخابی دست‌کاری داده‌ها، احتمال دارد که بعضی تغییر و تحولات در حین پروسه جابجایی، بر روی‌داده‌ها صورت پذیرد. برای مثال می‌توان که به‌وسیله یک دستور SQL دو ستون را به همدیگر الحاق کرده و به‌عنوان بخشی از دستور یک SELECT مورداستفاده قرار داده و در مقصد قرارداد.

تأکید و سفارش زیاد در این بخش مقیاس‌پذیری و سرباره زمانی است که در حین محاسبات و پردازش بر روی‌داده‌ها صورت می‌گیرد.

نوشتن نظر

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *