
ETL چیست
ETL چیست؟
ETL چیست؟! ما نیاز داریم که دادهها بهطور منظم وارد انبارداده شوند تا بتوان به سهولت از اطلاعات، گزارشها و تحلیلها ارائه نماییم. برای این منظور نیاز است که دادهها از یک یا چند سیستم عملیاتیِ مستقر در سازمان استخراجشده و درون انبارداده کپی گردند. یک چالش بسیار بزرگ در محیطهای انبارداده، یکپارچهسازی، بازآرایی و یکی کردنِ حجم عظیمی از دادههای سامانههای مختلف است، که درنتیجه این کار اطلاعات یکپارچه جدیدی ایجاد میشود که پایه و اساس سیستم هوش تجاری را میسازند.
پروسه استخراج دادهها از سامانههای منبع و آوردن آنها به انبارداده ETL خوانده میشود. همانگونه که میدانیم ETL مخفف کلمات Extraction , Transformation , Load میباشند. دقت داشته باشید که ETL اشاره به یک فرآیند گسترده دارد، نهفقط این سهگامی که گفته شد. اگرچه مخفف ETL بسیار ساده و کوتاه است و Transformation آن معنای جابجایی دادهها را دارد بااینوجود کل فرآیند بهعنوان ETL شناخته میشود.
فعالیتها و متدولوژیهای ETL از سالهای گذشته شناختهشده است و لزوما منحصر به محیط انبارداده نیست بلکه به طیف گستردهای از برنامههای کاربردی خاص و سامانههای مدیریت پایگاه دادهها که ستون فقرات IT هر سازمانی هستند موردنیاز میباشند. در ETL سعی میگردد دادههایی که بین سامانهها و برنامههای کاربردی به اشتراک گذاشته میشوند را مجتمع و یکپارچه کنیم و درنهایت یک برنامه کاربردی با همان دید از جهان واقع ایجاد گردد.
مبانی ETL در انبارداده
در طی پروسه ETL چه اتفاقاتی رخ میدهد؟ فعالیتهای زیر اعمال عمدهای است که طی فرآیند ETL صورت میپذیرد

استخراج دادهها Extraction
در طی عملیات استخراج، دادههای موردنظر که از منابع بسیار متنوع مانند پایگاه دادهها و برنامههای کاربردی، شناسایی و مشخصشدهاند، استخراج میگردند. خیلی اوقات احتمال دارد که شناسایی زیرمجموعهی خاصی از دادههای موردنظر امکانپذیر نباشد به همین دلیل دادههایی بیش ازآنچه نیاز است باید استخراج گردد، بنابراین تشخیص دادههای مرتبط در مرحله بعدی صورت خواهد پذیرفت.
وابسته به قابلیتهای سامانههای منبع (مانند سیستمعامل) احتمال دارد برخی از جابجاییها در فرآیند استخراج صورت پذیرد. میزان حجم استخراج دادهها وابسته به وضعیت کسبوکار و همچنین سامانههای منبع، احتمال دارد بین صدها کیلوبایت تا چندین گیگابایت متفاوت باشد. فاصله زمانی درستی باید بین دو پروسه استخراج قرار بگیرد که وابسته به نوع کسبوکار و سازمان است. احتمال دارد این فاصله زمانی چندین روز، چندین ساعت، چندین دقیقه و یا حتی بهصورت بلادرنگ باشد. بهعنوانمثال لاگ فایلهای یک وب سرور میتوانند بهسادگی در یک دوره زمانی بسیار کوتاهمدت چند صد مگابایت رشد کرده و بزرگ شوند.
دستکاری دادهها Transformations
پسازآنکه دادهها استخراج شدند بهصورت فیزیکی به سیستم مقصد یا یک سیستم میانی، برای پردازشهای بعدی، آورده میشوند. بر اساس شیوه انتخابی دستکاری دادهها، احتمال دارد که بعضی تغییر و تحولات در حین پروسه جابجایی، بر رویدادهها صورت پذیرد. برای مثال میتوان که بهوسیله یک دستور SQL دو ستون را به همدیگر الحاق کرده و بهعنوان بخشی از دستور یک SELECT مورداستفاده قرار داده و در مقصد قرارداد.
تأکید و سفارش زیاد در این بخش مقیاسپذیری و سرباره زمانی است که در حین محاسبات و پردازش بر رویدادهها صورت میگیرد.
نوشتن نظر