کیفیت داده Data Quality

کیفیت داده

کیفیت سنجی داده‌ها چیست و چرا مهم است؟

کیفیت داده‌ها معیاری برای اندازه‌گیری درستی وضعیت داده‌ها بر اساس عواملی مانند صحت، کامل بودن، سازگاری، قابلیت اطمینان و به‌روز بودن است. معیار و سنجه کیفیت سنجی داده به سازمان‌ها کمک می‌کند تا خطاهای داده‌ای موجود که بایستی برطرف شوند شناسایی کنند. سازمان‌ها با استفاده از کیفیت سنجی داده درنهایت به این ارزیابی می‌رسند که آیا داده‌های موجود در سامانه‌های نرم‌افزاری برای اهداف در نظر گرفته‌شده مناسب هستند یا خیر؟

Data Quality
Data Quality

اهمیت کیفیت داده در سازمان‌ها افزایش‌یافته است، به خاطر اینکه پردازش داده‌ها پیچیده‌تر شده و با عملیات‌های کسب‌وکاری گره‌خورده است. همچنین به دلیل استفاده فزاینده سازمان‌ها از تجزیه‌وتحلیل داده‌ها برای کمک به تصمیم‌گیری‌های کسب‌وکاری کیفیت سنجی داده‌ مهم‌تر از گذشته شده است. مدیریت کیفیت سنجی داده‌ هسته اصلی فرآیندهای کلی مدیریت داده‌هاست، کارهای انجام‌شده در راستای بهبود کیفیت سنجی داده مرتبط با برنامه‌ها و اصول حاکمیت داده در سازمان می‌باشند. هدف اصلی کیفیت سنجی داده‌ها اطمینان از فرمت صحیح و استفاده مداوم از داده‌ها در کل سازمان می‌باشد.

چرا کیفیت سنجی داده‌ها مهم است؟

داده‌های بد می‌تواند عواقب کسب‌وکاری قابل‌توجهی برای سازمان‌ها داشته باشند. داده‌های باکیفیت پایین غالباً باعث می‌شوند تحلیل‌های نادرست از داده ایجاد گردد و استراتژی‌های کسب‌وکاری اشتباه به وجود آید. به‌عنوان نمونه می‌توان از خسارت‌های مالی و هزینه‌های اضافی هنگام ارسال کالا و محصولات به آدرس اشتباه مشتریان، یا فرصت‌های ازدست‌رفته فروش به علت سوابق نادرست یا ناقص از مشتریان و جریمه‌هایی که به خاطر عدم انطباق گزارش‌های مالی و نظارتی با وضعیت موجود کسب‌وکار نام برد.

طی تحقیقاتی در سال ۲۰۱۶ که توسط شرکت IBM انجام شد مشخص گردید هزینه سالیانه مسائل مربوط به کیفیت داده‌ها به ۳.۱ میلیارد دلار رسیده است. توماس ردمن در مقاله‌ای که در سال ۲۰۱۷ توسط دانشگاه MIT منتشر گردید، تخمین زده است که تصحیح خطاهای داده و مقابله با مشکلات تجاری ناشی از داده‌های معیوب و کیفیت سنجی داده به‌طور متوسط سالانه ۱۵ تا ۲۵ درصد درآمد سازمان‌ها را صرف خواهد داد.

علاوه بر موارد ذکرشده عدم اعتماد به اطلاعات موجود در داشبوردهای هوش تجاری از طرف مدیران ارشد و میانی سازمان‌ها یکی از موانع اصلی و مهم استفاده نکردن از هوش تجاری و ابزارهای تحلیلی برای بهبود تصمیم‌گیری در سازمان‌ها شده است.

کیفیت سنجی داده‌های خوب چیست؟

صحت داده‌ها ویژگی کلیدی و مهم داده‌های باکیفیت بالا است. برای اجتناب از مشکلات پردازش تراکنش‌های سیستم‌های عملیاتی و نتایج نادرست ابزارهای تحلیلی، داده‌های استفاده‌شده باید صحیح و درست باشند. داده‌های نادرست باید شناسایی‌شده تصحیح و مستند گردند، تا اطمینان مدیران، تحلیلگران و سایر کاربران جلب گردد که با داده صحیح و اطلاعات خوب کار می‌کنند.

کیفیت داده‌ها
کیفیت سنجی داده‌

جنبه‌ها و ابعاد مهم دیگر کیفیت سنجی داده‌ها عبارت است از:

  • کامل بودن داده‌ها Data Completeness : وجود مجموعه داده‌هایی که شامل همه عناصر موردنیاز آنهاست.
  • سازگاری داده Data Consistency : هیچ تضادی بین مقادیر داده‌ای یکسان در سامانه‌های مختلف یا مجموعه داده‌ها وجود نداشته باشد.
  • داده‌های تکراری Data Uniqueness : داده‌های تکراری درون پایگاه داده‌های یکشان وجود نداشته باشد.
  • رواج داده‌ها Data Currency : به معنی اینکه داده‌ها مطابق نیاز به‌روزرسانی شده تا جریان آنها حفظ شود.
  • انطباق داده Data Conformity : یعنی انطباق داده‌ها با قالب‌های استانداردی که توسط سازمان ایجادشده است

رعایت تمامی عوامل ذکرشده کمک می‌کند مجموعه داده‌های قابل‌اعتمادی تولید گردد.

نحوه تعیین کیفیت سنجی داده‌ها

سازمان‌ها معمولاً به‌عنوان اولین قدم برای تعیین سطح کیفیت سنجی داده، مطالعاتی جهت سنجش دقت نسبی، منحصربه‌فرد بودن و اعتبارسنجی داده‌ها انجام می‌دهند. پس از انجام فاز مطالعاتی برای مجموعه داده‌ها رتبه‌بندی پایه‌ای تعیین‌شده سپس به‌طور مداوم داده‌های موجود را با رتبه‌بندی موجود مقایسه کرده و مشکلات جدید کیفیت داده‌ها شناسایی می‌شود و برای آنها راه‌حل به‌دست می‌آید.

قدم مهم دیگر ایجاد مجموعه از قوانین کیفیت سنجی داده بر اساس نیازهای کسب‌وکاری برای داده‌های عملیاتی و تحلیلی است. وجود چنین مجموعه قوانین سطح کیفیت لازم برای داده‌ها را مشخص کرده و جزئیاتی را که عناصر مختلف داده باید داشته باشند را شرح می‌دهند. بنابراین می‌توان از این قوانین برای بررسی صحت داده‌ها، سازگاری داده‌ها و سایر خصوصیات کیفیت سنجی داده استفاده کرد. بعد از ایجاد قوانین کیفیت سنجی داده، تیم مدیریت داده ارزیابی کیفیت سنجی داده را انجام داده و برای اندازه‌گیری کیفیت مجموعه داده‌ها و مستندسازی خطاهای داده و سایر مشکلات موجود در داده‌ها و رسیدن به روشی که در فواصل منظم زمانی تکرار شود تا کیفیت سنجی داده در بالاترین سطح ممکن حفظ شود.

ابزارها و تکنیک‌های مدیریت کیفیت سنجی داده

تکنیک‌های متفاوتی جهت پیاده‌سازی کیفیت داده‌ها وجود دارد. برخی تکنیک‌ها ابتدا تأثیرات داده‌های بد بر روی کسب‌وکار شناسایی و اندازه‌گیری می‌شوند. سپس قوانین کیفیت سنجی داده تعریف می‌شوند، اهداف بهبود معیارهای کیفیت سنجی داده تعیین‌شده، درنهایت فرآیندهای بهبود کیفیت سنجی داده طراحی و پیاده‌سازی خواهند شد.

فرآیندهای بهبود کیفیت سنچی داده شامل: پاک‌سازی داده‌ها یا تمیز سازی داده‌ها برای رفع خطاهای داده، همچنین کار کردن روی مقادیر ازدست‌رفته یا گم‌شده جهت بهبود مجموعه داده‌ها و به‌روزرسانی داده‌ها و جستجوی سوابق قبلی داده‌ها می‌باشند. پس از اجرای فرآیندهای کیفیت سنجی داده، نتایج به‌دست‌آمده با اهداف تعیین‌شده قبلی، بررسی و مقایسه می‌شوند. نقص‌ها و کمبودهای باقیمانده پس از اجرای کیفیت سنجی داده نقطه شروع فرآیند بعدی می‌باشند که برای انجام دادن آن مشابه با قبل برنامه‌ریزی می‌شود. اجرای چرخه کیفیت سنجی داده به علت اطمینان برای بهبود کیفیت کلی داده‌ها صورت می‌پذیرد.

ابزارهای نرم‌افزاری تخصصی کیفیت سنجی داده‌ها، می‌توانند رکوردهای داده را تشخیص داده، داده‌های تکراری را حذف کنند، داده‌های جدید را صحت‌سنجی کنند، سیاست‌های اصلاح داده را تنظیم کرده و داده‌های خاصی را از مجموعه داده‌ها تشخیص دهند. همچنین ابزارهای مذکور می‌توانند داده‌ها را پروفایل کرده تا اطلاعات مجموعه داده‌ها به‌راحتی جمع‌آوری گردند و مقادیر ازدست‌رفته شناسایی شوند. ابزارهای کیفیت سنجی داده توانایی ایجاد قوانین استفاده از داده‌ها داشته و می‌توانند روابط بین داده‌ها را کشف کنند و می‌توانند تبدیلات داده را به‌صورت اتوماتیک انجام دهند.

کیفیت داده
کیفیت داده

امروزه با رشد هوش تجاری و استفاده از ابزارهای گزارش‌گیری و تحلیل داده‌های کسب‌وکاری، دیدگاه بهتری برای مدیریت کیفیت سنجی داده به وجود آمده است، چون‌که مشکلات و نواقص داده‌ها به‌راحتی توسط داشبوردهای ایجادشده نشان داده خواهند شد. غالباً این ابزارها و فرآیندهای بهبود کیفیت سنجی داده، در برنامه‌های حاکمیت داده گنجانده می‌شوند تا از معیارهای کیفیت سنجی داده برای نشان دادن ارزش تجاری داده‌ها به شرکت‌ها و سازمان‌ها می‌باشد.

مزایای کیفیت سنجی داده خوب

حفظ کیفیت سطح بالای داده به سازمان‌ها کمک می‌کند هزینه داده‌های بد را شناسایی و آنها را در سیستم‌ها خود کاهش دهند. شرکت‌ها با استفاده از کیفیت داده‌ها قادر به جلوگیری از خطاهای عملیاتی و خرابی درروند کار هستند، این موضوع باعث می‌شود هزینه‌های عملیاتی کاهش و درآمد افزایش یابد.

علاوه بر این کیفیت سنجی داده‌های خوب باعث می‌شود دقت و صحت برنامه‌های تحلیلی افزایش یابد که منجر به بهبود فرآیند تصمیم‌گیری در کسب‌وکار خواهد شد، از مزایای دیگر آن افزایش فروش، بهبود فرآیندهای داخلی و ایجاد مزیت رقابتی نسبت به سایر رقبا خواهد بود. داده‌های باکیفیت بالا کمک خواهد کرد از داشبوردهای هوش تجاری و سایر ابزارهای تحلیلی در سازمان استفاده بیشتری شود، همچنین کیفیت سنجی داده‌ها باعث اعتماد بیشتر متولیان کسب‌وکار به داشبوردهای هوش تجاری و سایر ابزارهای تحلیلی شده که درنتیجه به‌جای تصمیم‌گیری احساسی یا شمی با اطمینان از دانش موجود در داشبوردهای ارائه‌شده جهت اخذ تصمیم استفاده خواهند کرد.

کیفیت سنجی داده‌های مؤثر کمک خواهد کرد که تیم‌های مدیریت داده زمان کمتری صرف پاک‌سازی داده کرده و زمان بیشتری برای انجام سایر کارهای مفید مرتبط نمایند. برای مثال آنها می‌توانند زمان بیشتری را برای کمک به کاربران کسب‌وکاری و تحلیلگران داده کرده تا از داده‌های موجود در سامانه بهتر استفاده کنند. بهترین شیوه در عملیات کسب‌وکاری برای به حداقل رساندن خطاهای داده ارتقای کیفیت سنجی داده‌ها می‌باشد.

چالش‌های کیفیت سنجی داده

از آنجائی که فناوری غالب برای مدیریت داده، پایگاه داده رابطه‌ای است، سال‌هاست که تلاش‌های کیفیت داده حول داده‌های ساختاریافته درون پایگاه داده‌های رابطه‌ای بوده است، اما ماهیت مشکلات و چالش‌های کیفیت سنجی داده با ظهور مباحث کلان داده و سیستم‌های رایانش ابری و داده ابری برجسته‌تر شده است. همچنین تمرکز مدیران داده بر روی کیفیت سنجی داده‌های نیمه ساختاریافته و ساختار نیافته افزایش‌یافته است. این داده‌ها شامل متن، سوابق کلیک کاربران روی اینترنت، داده‌های سنسورها، داده‌های مرتبط با شبکه، لاگ‌های مربوط به سامانه‌ها و برنامه‌های کاربردی.

استفاده روزافزون از هوش مصنوعی و یادگیری ماشین فرآیند کیفیت سنجی داده‌ها را در سازمان پیچیده‌تر خواهد کرد. همچنین جریان داده سیستم‌عامل‌های آنلاین حجم زیادی از داده‌ها را به‌صورت مستمر به سیستم‌های شرکتی و سازمانی اضافه می‌کند. علاوه بر اینها در حال حاضر، کیفیت سنجی داده باید ترکیبی از سامانه‌های عملیاتی و داخلی شرکت به‌اضافه سیستم‌های ابری را مدیریت کند.

Data Quality Nafis BI Co.
Data Quality Nafis BI Co.

به دلیل اجرای قوانین و آیین‌نامه‌های جدید مربوط به حفظ محرمانگی و حریم خصوصی داده‌ها که در اروپا و ایالات‌متحده آمریکا وضع‌شده‌اند، تقاضاهای جدید مربوط به کیفیت داده‌ها در حال گسترش و افزایش می‌باشد. این قوانین تأکیددارند که تمام سوابق یک فرد موجود در سازمان‌ها باید حفظ گردند و با عدم دقت، ناهماهنگی اطلاعاتی نباید ایجاد شود.

رفع مشکلات کیفیت داده

مدیران، تحلیلگران و مهندسان کیفیت داده مسئول اصلی رفع خطاهای داده و سایر مشکلات داده می‌باشند. آنها موظف هستند داده‌ها بد درون پایگاه داده‌ها یا سایر مخازن داده پیداکرده و پاک‌سازی نمایند. این کار با کمک سایر متخصصان مدیریت داده و مدیران برنامه‌های مدیریت اطلاعات انجام خواهد شد.

همچنین به‌صورت معمول کارشناسان و متولیان کسب‌وکار، سایر تحلیلگران کسب‌وکار و دانشمندان داده در فرآیندهای کیفیت سنجی داده مشارکت کرده تا بتوانند مشکلات مربوط به کیفیت سنجی داده را کاهش دهند. علاوه بر این بسیاری از شرکت‌ها آموزش‌هایی جهت بهبود کیفیت سنجی داده به کاربران نهایی سامانه‌‌ها ارائه می‌کنند. یکی از معیارهای رایج در بین مدیران داده این است که همه افراد سازمان مسئول کیفیت سنجی داده هستند.

مقایسه کیفیت سنجی داده با یکپارچگی داده

بعضی‌اوقات کیفیت داده و یکپارچگی داده بجای یکدیگر مورداستفاده قرار می‌گیرند. همچنین برخی افراد یکپارچگی را وجهی از دقت و صحت داده‌ها در فرآیند کیفیت سنجی داده در نظر می‌گیرند. به‌طورکلی یکپارچگی داده‌ها یک مفهوم وسیع‌تر بوده که ترکیبی از کیفیت سنجی داده‌ها، مدیریت داده‌ها، محافظت از داده‌ها، ثبات و امنیت داده‌ها می‌باشد. با این دیدگاه یکپارچگی داده‌ها روی منظرهای منطقی و فیزیکی تمرکز دارد. یکپارچگی منطقی شامل اقداماتی مربوط به کیفیت سنجی داده‌ها و ویژگی‌های مرجعی است که این اطمینان را می‌دهد عناصر داده‌ای مرتبط در جدول‌های پایگاه داده‌های مختلف معتبر هستند. یکپارچگی فیزیکی شامل کنترل دسترسی‌ها و سایر اقدامات امنیتی است که هدف آنها جلوگیری از خراب شدن داده توسط کاربران غیرمجاز و همچنین محافظت از نسخه پشتیبان و بازیابی داده‌ها در صورت از بین رفتن پایگاه داده اصلی می‌باشد.

تألیف و ترجمه: جناب آقای مهندس رضا بهادری زاده

جهت استفاده از خدمت هوش تجاری نفیس و همچنین گرفتن مشاوره هوشمند سازی کسب‌وکار در سازمان خود، فرم زیر را تکمیل بفرمائید:

    اطلاعات مورد نیاز شما

    نوشتن نظر

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *