کیفیت داده
کیفیت سنجی دادهها چیست و چرا مهم است؟
کیفیت دادهها معیاری برای اندازهگیری درستی وضعیت دادهها بر اساس عواملی مانند صحت، کامل بودن، سازگاری، قابلیت اطمینان و بهروز بودن است. معیار و سنجه کیفیت سنجی داده به سازمانها کمک میکند تا خطاهای دادهای موجود که بایستی برطرف شوند شناسایی کنند. سازمانها با استفاده از کیفیت سنجی داده درنهایت به این ارزیابی میرسند که آیا دادههای موجود در سامانههای نرمافزاری برای اهداف در نظر گرفتهشده مناسب هستند یا خیر؟
اهمیت کیفیت داده در سازمانها افزایشیافته است، به خاطر اینکه پردازش دادهها پیچیدهتر شده و با عملیاتهای کسبوکاری گرهخورده است. همچنین به دلیل استفاده فزاینده سازمانها از تجزیهوتحلیل دادهها برای کمک به تصمیمگیریهای کسبوکاری کیفیت سنجی داده مهمتر از گذشته شده است. مدیریت کیفیت سنجی داده هسته اصلی فرآیندهای کلی مدیریت دادههاست، کارهای انجامشده در راستای بهبود کیفیت سنجی داده مرتبط با برنامهها و اصول حاکمیت داده در سازمان میباشند. هدف اصلی کیفیت سنجی دادهها اطمینان از فرمت صحیح و استفاده مداوم از دادهها در کل سازمان میباشد.
چرا کیفیت سنجی دادهها مهم است؟
دادههای بد میتواند عواقب کسبوکاری قابلتوجهی برای سازمانها داشته باشند. دادههای باکیفیت پایین غالباً باعث میشوند تحلیلهای نادرست از داده ایجاد گردد و استراتژیهای کسبوکاری اشتباه به وجود آید. بهعنوان نمونه میتوان از خسارتهای مالی و هزینههای اضافی هنگام ارسال کالا و محصولات به آدرس اشتباه مشتریان، یا فرصتهای ازدسترفته فروش به علت سوابق نادرست یا ناقص از مشتریان و جریمههایی که به خاطر عدم انطباق گزارشهای مالی و نظارتی با وضعیت موجود کسبوکار نام برد.
طی تحقیقاتی در سال ۲۰۱۶ که توسط شرکت IBM انجام شد مشخص گردید هزینه سالیانه مسائل مربوط به کیفیت دادهها به ۳.۱ میلیارد دلار رسیده است. توماس ردمن در مقالهای که در سال ۲۰۱۷ توسط دانشگاه MIT منتشر گردید، تخمین زده است که تصحیح خطاهای داده و مقابله با مشکلات تجاری ناشی از دادههای معیوب و کیفیت سنجی داده بهطور متوسط سالانه ۱۵ تا ۲۵ درصد درآمد سازمانها را صرف خواهد داد.
علاوه بر موارد ذکرشده عدم اعتماد به اطلاعات موجود در داشبوردهای هوش تجاری از طرف مدیران ارشد و میانی سازمانها یکی از موانع اصلی و مهم استفاده نکردن از هوش تجاری و ابزارهای تحلیلی برای بهبود تصمیمگیری در سازمانها شده است.
کیفیت سنجی دادههای خوب چیست؟
صحت دادهها ویژگی کلیدی و مهم دادههای باکیفیت بالا است. برای اجتناب از مشکلات پردازش تراکنشهای سیستمهای عملیاتی و نتایج نادرست ابزارهای تحلیلی، دادههای استفادهشده باید صحیح و درست باشند. دادههای نادرست باید شناساییشده تصحیح و مستند گردند، تا اطمینان مدیران، تحلیلگران و سایر کاربران جلب گردد که با داده صحیح و اطلاعات خوب کار میکنند.
جنبهها و ابعاد مهم دیگر کیفیت سنجی دادهها عبارت است از:
- کامل بودن دادهها Data Completeness : وجود مجموعه دادههایی که شامل همه عناصر موردنیاز آنهاست.
- سازگاری داده Data Consistency : هیچ تضادی بین مقادیر دادهای یکسان در سامانههای مختلف یا مجموعه دادهها وجود نداشته باشد.
- دادههای تکراری Data Uniqueness : دادههای تکراری درون پایگاه دادههای یکشان وجود نداشته باشد.
- رواج دادهها Data Currency : به معنی اینکه دادهها مطابق نیاز بهروزرسانی شده تا جریان آنها حفظ شود.
- انطباق داده Data Conformity : یعنی انطباق دادهها با قالبهای استانداردی که توسط سازمان ایجادشده است
رعایت تمامی عوامل ذکرشده کمک میکند مجموعه دادههای قابلاعتمادی تولید گردد.
نحوه تعیین کیفیت سنجی دادهها
سازمانها معمولاً بهعنوان اولین قدم برای تعیین سطح کیفیت سنجی داده، مطالعاتی جهت سنجش دقت نسبی، منحصربهفرد بودن و اعتبارسنجی دادهها انجام میدهند. پس از انجام فاز مطالعاتی برای مجموعه دادهها رتبهبندی پایهای تعیینشده سپس بهطور مداوم دادههای موجود را با رتبهبندی موجود مقایسه کرده و مشکلات جدید کیفیت دادهها شناسایی میشود و برای آنها راهحل بهدست میآید.
قدم مهم دیگر ایجاد مجموعه از قوانین کیفیت سنجی داده بر اساس نیازهای کسبوکاری برای دادههای عملیاتی و تحلیلی است. وجود چنین مجموعه قوانین سطح کیفیت لازم برای دادهها را مشخص کرده و جزئیاتی را که عناصر مختلف داده باید داشته باشند را شرح میدهند. بنابراین میتوان از این قوانین برای بررسی صحت دادهها، سازگاری دادهها و سایر خصوصیات کیفیت سنجی داده استفاده کرد. بعد از ایجاد قوانین کیفیت سنجی داده، تیم مدیریت داده ارزیابی کیفیت سنجی داده را انجام داده و برای اندازهگیری کیفیت مجموعه دادهها و مستندسازی خطاهای داده و سایر مشکلات موجود در دادهها و رسیدن به روشی که در فواصل منظم زمانی تکرار شود تا کیفیت سنجی داده در بالاترین سطح ممکن حفظ شود.
ابزارها و تکنیکهای مدیریت کیفیت سنجی داده
تکنیکهای متفاوتی جهت پیادهسازی کیفیت دادهها وجود دارد. برخی تکنیکها ابتدا تأثیرات دادههای بد بر روی کسبوکار شناسایی و اندازهگیری میشوند. سپس قوانین کیفیت سنجی داده تعریف میشوند، اهداف بهبود معیارهای کیفیت سنجی داده تعیینشده، درنهایت فرآیندهای بهبود کیفیت سنجی داده طراحی و پیادهسازی خواهند شد.
فرآیندهای بهبود کیفیت سنچی داده شامل: پاکسازی دادهها یا تمیز سازی دادهها برای رفع خطاهای داده، همچنین کار کردن روی مقادیر ازدسترفته یا گمشده جهت بهبود مجموعه دادهها و بهروزرسانی دادهها و جستجوی سوابق قبلی دادهها میباشند. پس از اجرای فرآیندهای کیفیت سنجی داده، نتایج بهدستآمده با اهداف تعیینشده قبلی، بررسی و مقایسه میشوند. نقصها و کمبودهای باقیمانده پس از اجرای کیفیت سنجی داده نقطه شروع فرآیند بعدی میباشند که برای انجام دادن آن مشابه با قبل برنامهریزی میشود. اجرای چرخه کیفیت سنجی داده به علت اطمینان برای بهبود کیفیت کلی دادهها صورت میپذیرد.
ابزارهای نرمافزاری تخصصی کیفیت سنجی دادهها، میتوانند رکوردهای داده را تشخیص داده، دادههای تکراری را حذف کنند، دادههای جدید را صحتسنجی کنند، سیاستهای اصلاح داده را تنظیم کرده و دادههای خاصی را از مجموعه دادهها تشخیص دهند. همچنین ابزارهای مذکور میتوانند دادهها را پروفایل کرده تا اطلاعات مجموعه دادهها بهراحتی جمعآوری گردند و مقادیر ازدسترفته شناسایی شوند. ابزارهای کیفیت سنجی داده توانایی ایجاد قوانین استفاده از دادهها داشته و میتوانند روابط بین دادهها را کشف کنند و میتوانند تبدیلات داده را بهصورت اتوماتیک انجام دهند.
امروزه با رشد هوش تجاری و استفاده از ابزارهای گزارشگیری و تحلیل دادههای کسبوکاری، دیدگاه بهتری برای مدیریت کیفیت سنجی داده به وجود آمده است، چونکه مشکلات و نواقص دادهها بهراحتی توسط داشبوردهای ایجادشده نشان داده خواهند شد. غالباً این ابزارها و فرآیندهای بهبود کیفیت سنجی داده، در برنامههای حاکمیت داده گنجانده میشوند تا از معیارهای کیفیت سنجی داده برای نشان دادن ارزش تجاری دادهها به شرکتها و سازمانها میباشد.
مزایای کیفیت سنجی داده خوب
حفظ کیفیت سطح بالای داده به سازمانها کمک میکند هزینه دادههای بد را شناسایی و آنها را در سیستمها خود کاهش دهند. شرکتها با استفاده از کیفیت دادهها قادر به جلوگیری از خطاهای عملیاتی و خرابی درروند کار هستند، این موضوع باعث میشود هزینههای عملیاتی کاهش و درآمد افزایش یابد.
علاوه بر این کیفیت سنجی دادههای خوب باعث میشود دقت و صحت برنامههای تحلیلی افزایش یابد که منجر به بهبود فرآیند تصمیمگیری در کسبوکار خواهد شد، از مزایای دیگر آن افزایش فروش، بهبود فرآیندهای داخلی و ایجاد مزیت رقابتی نسبت به سایر رقبا خواهد بود. دادههای باکیفیت بالا کمک خواهد کرد از داشبوردهای هوش تجاری و سایر ابزارهای تحلیلی در سازمان استفاده بیشتری شود، همچنین کیفیت سنجی دادهها باعث اعتماد بیشتر متولیان کسبوکار به داشبوردهای هوش تجاری و سایر ابزارهای تحلیلی شده که درنتیجه بهجای تصمیمگیری احساسی یا شمی با اطمینان از دانش موجود در داشبوردهای ارائهشده جهت اخذ تصمیم استفاده خواهند کرد.
کیفیت سنجی دادههای مؤثر کمک خواهد کرد که تیمهای مدیریت داده زمان کمتری صرف پاکسازی داده کرده و زمان بیشتری برای انجام سایر کارهای مفید مرتبط نمایند. برای مثال آنها میتوانند زمان بیشتری را برای کمک به کاربران کسبوکاری و تحلیلگران داده کرده تا از دادههای موجود در سامانه بهتر استفاده کنند. بهترین شیوه در عملیات کسبوکاری برای به حداقل رساندن خطاهای داده ارتقای کیفیت سنجی دادهها میباشد.
چالشهای کیفیت سنجی داده
از آنجائی که فناوری غالب برای مدیریت داده، پایگاه داده رابطهای است، سالهاست که تلاشهای کیفیت داده حول دادههای ساختاریافته درون پایگاه دادههای رابطهای بوده است، اما ماهیت مشکلات و چالشهای کیفیت سنجی داده با ظهور مباحث کلان داده و سیستمهای رایانش ابری و داده ابری برجستهتر شده است. همچنین تمرکز مدیران داده بر روی کیفیت سنجی دادههای نیمه ساختاریافته و ساختار نیافته افزایشیافته است. این دادهها شامل متن، سوابق کلیک کاربران روی اینترنت، دادههای سنسورها، دادههای مرتبط با شبکه، لاگهای مربوط به سامانهها و برنامههای کاربردی.
استفاده روزافزون از هوش مصنوعی و یادگیری ماشین فرآیند کیفیت سنجی دادهها را در سازمان پیچیدهتر خواهد کرد. همچنین جریان داده سیستمعاملهای آنلاین حجم زیادی از دادهها را بهصورت مستمر به سیستمهای شرکتی و سازمانی اضافه میکند. علاوه بر اینها در حال حاضر، کیفیت سنجی داده باید ترکیبی از سامانههای عملیاتی و داخلی شرکت بهاضافه سیستمهای ابری را مدیریت کند.
به دلیل اجرای قوانین و آییننامههای جدید مربوط به حفظ محرمانگی و حریم خصوصی دادهها که در اروپا و ایالاتمتحده آمریکا وضعشدهاند، تقاضاهای جدید مربوط به کیفیت دادهها در حال گسترش و افزایش میباشد. این قوانین تأکیددارند که تمام سوابق یک فرد موجود در سازمانها باید حفظ گردند و با عدم دقت، ناهماهنگی اطلاعاتی نباید ایجاد شود.
رفع مشکلات کیفیت داده
مدیران، تحلیلگران و مهندسان کیفیت داده مسئول اصلی رفع خطاهای داده و سایر مشکلات داده میباشند. آنها موظف هستند دادهها بد درون پایگاه دادهها یا سایر مخازن داده پیداکرده و پاکسازی نمایند. این کار با کمک سایر متخصصان مدیریت داده و مدیران برنامههای مدیریت اطلاعات انجام خواهد شد.
همچنین بهصورت معمول کارشناسان و متولیان کسبوکار، سایر تحلیلگران کسبوکار و دانشمندان داده در فرآیندهای کیفیت سنجی داده مشارکت کرده تا بتوانند مشکلات مربوط به کیفیت سنجی داده را کاهش دهند. علاوه بر این بسیاری از شرکتها آموزشهایی جهت بهبود کیفیت سنجی داده به کاربران نهایی سامانهها ارائه میکنند. یکی از معیارهای رایج در بین مدیران داده این است که همه افراد سازمان مسئول کیفیت سنجی داده هستند.
مقایسه کیفیت سنجی داده با یکپارچگی داده
بعضیاوقات کیفیت داده و یکپارچگی داده بجای یکدیگر مورداستفاده قرار میگیرند. همچنین برخی افراد یکپارچگی را وجهی از دقت و صحت دادهها در فرآیند کیفیت سنجی داده در نظر میگیرند. بهطورکلی یکپارچگی دادهها یک مفهوم وسیعتر بوده که ترکیبی از کیفیت سنجی دادهها، مدیریت دادهها، محافظت از دادهها، ثبات و امنیت دادهها میباشد. با این دیدگاه یکپارچگی دادهها روی منظرهای منطقی و فیزیکی تمرکز دارد. یکپارچگی منطقی شامل اقداماتی مربوط به کیفیت سنجی دادهها و ویژگیهای مرجعی است که این اطمینان را میدهد عناصر دادهای مرتبط در جدولهای پایگاه دادههای مختلف معتبر هستند. یکپارچگی فیزیکی شامل کنترل دسترسیها و سایر اقدامات امنیتی است که هدف آنها جلوگیری از خراب شدن داده توسط کاربران غیرمجاز و همچنین محافظت از نسخه پشتیبان و بازیابی دادهها در صورت از بین رفتن پایگاه داده اصلی میباشد.
تألیف و ترجمه: جناب آقای مهندس رضا بهادری زاده
جهت استفاده از خدمت هوش تجاری نفیس و همچنین گرفتن مشاوره هوشمند سازی کسبوکار در سازمان خود، فرم زیر را تکمیل بفرمائید:
نوشتن نظر