کیفیت داده Data Quality

کیفیت داده

کیفیت داده‌ها چیست و چرا مهم است؟

کیفیت داده‌ها

کیفیت داده‌ها معیاری برای اندازه‌گیری درستی وضعیت داده‌ها بر اساس عواملی مانند صحت، کامل بودن، سازگاری، قابلیت اطمینان و به‌روز بودن است. معیار و سنجه کیفیت داده به سازمان‌ها کمک می‌کند تا خطاهای داده‌ای موجود که بایستی برطرف شوند شناسایی کنند. سازمان‌ها با استفاده از کیفیت داده درنهایت به این ارزیابی می‌رسند که آیا داده‌های موجود در سامانه‌های نرم‌افزاری برای اهداف در نظر گرفته‌شده مناسب هستند یا خیر؟

Data Quality
Data Quality

اهمیت کیفیت داده‌ها در سازمان‌ها افزایش‌یافته است، به خاطر اینکه پردازش داده‌ها پیچیده‌تر شده و با عملیات‌های کسب‌وکاری گره‌خورده است. همچنین به دلیل استفاده فزاینده سازمان‌ها از تجزیه‌وتحلیل داده‌ها برای کمک به تصمیم‌گیری‌های کسب‌وکاری کیفیت داده‌ها مهم‌تر از گذشته شده است. مدیریت کیفیت داده‌ها هسته اصلی فرآیندهای کلی مدیریت داده‌هاست، کارهای انجام‌شده در راستای بهبود کیفیت داده‌ها مرتبط با برنامه‌ها و اصول حاکمیت داده در سازمان می‌باشند. هدف اصلی کیفیت داده‌ها اطمینان از فرمت صحیح و استفاده مداوم از داده‌ها در کل سازمان می‌باشد.

چرا کیفیت داده‌ها مهم است؟

داده‌های بد می‌تواند عواقب کسب‌وکاری قابل‌توجهی برای سازمان‌ها داشته باشند. داده‌های باکیفیت پایین غالباً باعث می‌شوند تحلیل‌های نادرست از داده ایجاد گردد و استراتژی‌های کسب‌وکاری اشتباه به وجود آید. به‌عنوان نمونه می‌توان از خسارت‌های مالی و هزینه‌های اضافی هنگام ارسال کالا و محصولات به آدرس اشتباه مشتریان، یا فرصت‌های ازدست‌رفته فروش به علت سوابق نادرست یا ناقص از مشتریان و جریمه‌هایی که به خاطر عدم انطباق گزارش‌های مالی و نظارتی با وضعیت موجود کسب‌وکار نام برد.

طی تحقیقاتی در سال ۲۰۱۶ که توسط شرکت IBM انجام شد مشخص گردید هزینه سالیانه مسائل مربوط به کیفیت داده‌ها به ۳.۱ میلیارد دلار رسیده است. توماس ردمن در مقاله‌ای که در سال ۲۰۱۷ توسط دانشگاه MIT منتشر گردید، تخمین زده است که تصحیح خطاهای داده و مقابله با مشکلات تجاری ناشی از داده‌های معیوب و کیفیت داده‌ها به‌طور متوسط سالانه ۱۵ تا ۲۵ درصد درآمد سازمان‌ها را صرف خواهد داد.

علاوه بر موارد ذکرشده عدم اعتماد به اطلاعات موجود در داشبوردهای هوش تجاری از طرف مدیران ارشد و میانی سازمان‌ها یکی از موانع اصلی و مهم استفاده نکردن از هوش تجاری و ابزارهای تحلیلی برای بهبود تصمیم‌گیری در سازمان‌ها شده است.

کیفیت داده‌های خوب چیست؟

صحت داده‌ها ویژگی کلیدی و مهم داده‌های باکیفیت بالا است. برای اجتناب از مشکلات پردازش تراکنش‌های سیستم‌های عملیاتی و نتایج نادرست ابزارهای تحلیلی، داده‌های استفاده‌شده باید صحیح و درست باشند. داده‌های نادرست باید شناسایی‌شده تصحیح و مستند گردند، تا اطمینان مدیران، تحلیلگران و سایر کاربران جلب گردد که با داده صحیح و اطلاعات خوب کار می‌کنند.

کیفیت داده‌ها
کیفیت داده‌ها

جنبه‌ها و ابعاد مهم دیگر کیفیت داده‌ها عبارت است از:

  • کامل بودن داده‌ها Data Completeness : وجود مجموعه داده‌هایی که شامل همه عناصر موردنیاز آنهاست.
  • سازگاری داده Data Consistency : هیچ تضادی بین مقادیر داده‌ای یکسان در سامانه‌های مختلف یا مجموعه داده‌ها وجود نداشته باشد.
  • داده‌های تکراری Data Uniqueness : داده‌های تکراری درون پایگاه داده‌های یکشان وجود نداشته باشد.
  • رواج داده‌ها Data Currency : به معنی اینکه داده‌ها مطابق نیاز به‌روزرسانی شده تا جریان آنها حفظ شود.
  • انطباق داده Data Conformity : یعنی انطباق داده‌ها با قالب‌های استانداردی که توسط سازمان ایجادشده است

رعایت تمامی عوامل ذکرشده کمک می‌کند مجموعه داده‌های قابل‌اعتمادی تولید گردد.

نحوه تعیین کیفیت داده‌ها

سازمان‌ها معمولاً به‌عنوان اولین قدم برای تعیین سطح کیفیت داده‌ها، مطالعاتی جهت سنجش دقت نسبی، منحصربه‌فرد بودن و اعتبارسنجی داده‌ها انجام می‌دهند. پس از انجام فاز مطالعاتی برای مجموعه داده‌ها رتبه‌بندی پایه‌ای تعیین‌شده سپس به‌طور مداوم داده‌های موجود را با رتبه‌بندی موجود مقایسه کرده و مشکلات جدید کیفیت داده‌ها شناسایی می‌شود و برای آنها راه‌حل به‌دست می‌آید.

قدم مهم دیگر ایجاد مجموعه از قوانین کیفیت داده بر اساس نیازهای کسب‌وکاری برای داده‌های عملیاتی و تحلیلی است. وجود چنین مجموعه قوانین سطح کیفیت لازم برای داده‌ها را مشخص کرده و جزئیاتی را که عناصر مختلف داده باید داشته باشند را شرح می‌دهند. بنابراین می‌توان از این قوانین برای بررسی صحت داده‌ها، سازگاری داده‌ها و سایر خصوصیات کیفیت داده استفاده کرد. بعد از ایجاد قوانین کیفیت داده، تیم مدیریت داده ارزیابی کیفیت داده را انجام داده و برای اندازه‌گیری کیفیت مجموعه داده‌ها و مستندسازی خطاهای داده و سایر مشکلات موجود در داده‌ها و رسیدن به روشی که در فواصل منظم زمانی تکرار شود تا کیفیت داده در بالاترین سطح ممکن حفظ شود.

ابزارها و تکنیک‌های مدیریت کیفیت داده

تکنیک‌های متفاوتی جهت پیاده‌سازی کیفیت داده‌ها وجود دارد. برخی تکنیک‌ها ابتدا تأثیرات داده‌های بد بر روی کسب‌وکار شناسایی و اندازه‌گیری می‌شوند. سپس قوانین کیفیت داده تعریف می‌شوند، اهداف بهبود معیارهای کیفیت داده تعیین‌شده، درنهایت فرآیندهای بهبود کیفیت داده طراحی و پیاده‌سازی خواهند شد.

فرآیندهای بهبود کیفیت داده شامل: پاک‌سازی داده‌ها یا تمیز سازی داده‌ها برای رفع خطاهای داده، همچنین کار کردن روی مقادیر ازدست‌رفته یا گم‌شده جهت بهبود مجموعه داده‌ها و به‌روزرسانی داده‌ها و جستجوی سوابق قبلی داده‌ها می‌باشند. پس از اجرای فرآیندهای کیفیت داده، نتایج به‌دست‌آمده با اهداف تعیین‌شده قبلی، بررسی و مقایسه می‌شوند. نقص‌ها و کمبودهای باقیمانده پس از اجرای کیفیت داده نقطه شروع فرآیند بعدی کیفیت داده می‌باشند که برای انجام دادن آن مشابه با قبل برنامه‌ریزی می‌شود. اجرای چرخه کیفیت داده به علت اطمینان برای بهبود کیفیت کلی داده‌ها صورت می‌پذیرد.

ابزارهای نرم‌افزاری تخصصی کیفیت داده‌ها، می‌توانند رکوردهای داده را تشخیص داده، داده‌های تکراری را حذف کنند، داده‌های جدید را صحت‌سنجی کنند، سیاست‌های اصلاح داده را تنظیم کرده و داده‌های خاصی را از مجموعه داده‌ها تشخیص دهند. همچنین ابزارهای مذکور می‌توانند داده‌ها را پروفایل کرده تا اطلاعات مجموعه داده‌ها به‌راحتی جمع‌آوری گردند و مقادیر ازدست‌رفته شناسایی شوند. ابزارهای کیفیت داده توانایی ایجاد قوانین استفاده از داده‌ها داشته و می‌توانند روابط بین داده‌ها را کشف کنند و می‌توانند تبدیلات داده را به‌صورت اتوماتیک انجام دهند.

کیفیت داده
کیفیت داده

امروزه با رشد هوش تجاری و استفاده از ابزارهای گزارش‌گیری و تحلیل داده‌های کسب‌وکاری، دیدگاه بهتری برای مدیریت کیفیت داده به وجود آمده است، چون‌که مشکلات و نواقص داده‌ها به‌راحتی توسط داشبوردهای ایجادشده نشان داده خواهند شد. غالباً این ابزارها و فرآیندهای بهبود کیفیت داده، در برنامه‌های حاکمیت داده گنجانده می‌شوند تا از معیارهای کیفیت داده برای نشان دادن ارزش تجاری داده‌ها به شرکت‌ها و سازمان‌ها می‌باشد.

مزایای کیفیت داده خوب

حفظ کیفیت سطح بالای داده به سازمان‌ها کمک می‌کند هزینه داده‌های بد را شناسایی و آنها را در سیستم‌ها خود کاهش دهند. شرکت‌ها با استفاده از کیفیت داده‌ها قادر به جلوگیری از خطاهای عملیاتی و خرابی درروند کار هستند، این موضوع باعث می‌شود هزینه‌های عملیاتی کاهش و درآمد افزایش یابد.

علاوه بر این کیفیت داده‌های خوب باعث می‌شود دقت و صحت برنامه‌های تحلیلی افزایش یابد که منجر به بهبود فرآیند تصمیم‌گیری در کسب‌وکار خواهد شد، از مزایای دیگر آن افزایش فروش، بهبود فرآیندهای داخلی و ایجاد مزیت رقابتی نسبت به سایر رقبا خواهد بود. داده‌های باکیفیت بالا کمک خواهد کرد از داشبوردهای هوش تجاری و سایر ابزارهای تحلیلی در سازمان استفاده بیشتری شود، همچنین کیفیت داده‌ها باعث اعتماد بیشتر متولیان کسب‌وکار به داشبوردهای هوش تجاری و سایر ابزارهای تحلیلی شده که درنتیجه به‌جای تصمیم‌گیری احساسی یا شمی با اطمینان از دانش موجود در داشبوردهای ارائه‌شده جهت اخذ تصمیم استفاده خواهند کرد.

کیفیت داده‌های مؤثر کمک خواهد کرد که تیم‌های مدیریت داده زمان کمتری صرف پاک‌سازی داده کرده و زمان بیشتری برای انجام سایر کارهای مفید مرتبط نمایند. برای مثال آنها می‌توانند زمان بیشتری را برای کمک به کاربران کسب‌وکاری و تحلیلگران داده کرده تا از داده‌های موجود در سامانه بهتر استفاده کنند. بهترین شیوه در عملیات کسب‌وکاری برای به حداقل رساندن خطاهای داده ارتقای کیفیت داده‌ها می‌باشد.

چالش‌های کیفیت داده

از آنجائی که فناوری غالب برای مدیریت داده، پایگاه داده رابطه‌ای است، سال‌هاست که تلاش‌های کیفیت داده حول داده‌های ساختاریافته درون پایگاه داده‌های رابطه‌ای بوده است، اما ماهیت مشکلات و چالش‌های کیفیت داده با ظهور مباحث کلان داده و سیستم‌های رایانش ابری و داده ابری برجسته‌تر شده است. همچنین تمرکز مدیران داده بر روی کیفیت داده‌های نیمه ساختاریافته و ساختار نیافته افزایش‌یافته است. این داده‌ها شامل متن، سوابق کلیک کاربران روی اینترنت، داده‌های سنسورها، داده‌های مرتبط با شبکه، لاگ‌های مربوط به سامانه‌ها و برنامه‌های کاربردی.

استفاده روزافزون از هوش مصنوعی و یادگیری ماشین فرآیند کیفیت داده‌ها را در سازمان پیچیده‌تر خواهد کرد. همچنین جریان داده سیستم‌عامل‌های آنلاین حجم زیادی از داده‌ها را به‌صورت مستمر به سیستم‌های شرکتی و سازمانی اضافه می‌کند. علاوه بر اینها در حال حاضر، کیفیت داده باید ترکیبی از سامانه‌های عملیاتی و داخلی شرکت به‌اضافه سیستم‌های ابری را مدیریت کند.

Data Quality Nafis BI Co.
Data Quality Nafis BI Co.

به دلیل اجرای قوانین و آیین‌نامه‌های جدید مربوط به حفظ محرمانگی و حریم خصوصی داده‌ها که در اروپا و ایالات‌متحده آمریکا وضع‌شده‌اند، تقاضاهای جدید مربوط به کیفیت داده‌ها در حال گسترش و افزایش می‌باشد. این قوانین تأکیددارند که تمام سوابق یک فرد موجود در سازمان‌ها باید حفظ گردند و با عدم دقت، ناهماهنگی اطلاعاتی نباید ایجاد شود.

رفع مشکلات کیفیت داده

مدیران، تحلیلگران و مهندسان کیفیت داده مسئول اصلی رفع خطاهای داده و سایر مشکلات داده می‌باشند. آنها موظف هستند داده‌ها بد درون پایگاه داده‌ها یا سایر مخازن داده پیداکرده و پاک‌سازی نمایند. این کار با کمک سایر متخصصان مدیریت داده و مدیران برنامه‌های مدیریت اطلاعات انجام خواهد شد.

همچنین به‌صورت معمول کارشناسان و متولیان کسب‌وکار، سایر تحلیلگران کسب‌وکار و دانشمندان داده در فرآیندهای کیفیت داده مشارکت کرده تا بتوانند مشکلات مربوط به کیفیت داده را کاهش دهند. علاوه بر این بسیاری از شرکت‌ها آموزش‌هایی جهت بهبود کیفیت داده به کاربران نهایی سامانه‌‌ها ارائه می‌کنند. یکی از معیارهای رایج در بین مدیران داده این است که همه افراد سازمان مسئول کیفیت داده هستند.

مقایسه کیفیت داده با یکپارچگی داده

بعضی‌اوقات کیفیت داده و یکپارچگی داده بجای یکدیگر مورداستفاده قرار می‌گیرند. همچنین برخی افراد یکپارچگی را وجهی از دقت و صحت داده‌ها در فرآیند کیفیت داده در نظر می‌گیرند. به‌طورکلی یکپارچگی داده‌ها یک مفهوم وسیع‌تر بوده که ترکیبی از کیفیت داده‌ها، مدیریت داده‌ها، محافظت از داده‌ها، ثبات و امنیت داده‌ها می‌باشد. با این دیدگاه یکپارچگی داده‌ها روی منظرهای منطقی و فیزیکی تمرکز دارد. یکپارچگی منطقی شامل اقداماتی مربوط به کیفیت داده‌ها و ویژگی‌های مرجعی است که این اطمینان را می‌دهد عناصر داده‌ای مرتبط در جدول‌های پایگاه داده‌های مختلف معتبر هستند. یکپارچگی فیزیکی شامل کنترل دسترسی‌ها و سایر اقدامات امنیتی است که هدف آنها جلوگیری از خراب شدن داده توسط کاربران غیرمجاز و همچنین محافظت از نسخه پشتیبان و بازیابی داده‌ها در صورت از بین رفتن پایگاه داده اصلی می‌باشد.

 

تألیف و ترجمه: جناب آقای مهندس رضا بهادری‌زاده

نوشتن نظر

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *