دیتا ماینینگ یا داده کاوی چیست؟
همانگونه که در مقالهی پیشین به آن اشاره شد، دادهکاوی عبارت است از فرآیند اکتشاف الگو و روندهای منظم وپنهان در دادههای بزرگ و توزیع شده، با استفاده از مجموعه وسیعی از الگوریتمهای مبتنی بر علوم ریاضی و آمار. این الگوریتمها معمولا بروی مقادیر عددی و غیرمتنی اعمال میشوند و برای دادههای متنی، از الگوریتمهای متنکاوی استفاده میشود. دادهکاوی از علومی مانند هوش مصنوعی، یادگیری ماشینی، آمار، پژوهش عملیاتی و مدیریت پایگاههای داده برای ساخت مدلها و پاسخ به سوالات بهره میبرد.
استخراج و تحلیل اطلاعات سازمان از دادههای در دسترس توسط کارکنان، فرایندی است که برای سالهای متمادی انجام شده و وظیفه جدیدی در سازمانها به شمار نمیآید. اولین الگوریتمهای شناسایی روندهای منظم و الگوها در پایگاه داده، از علم آمار و نظریههای احتمال نشات گرفتهاند. در سالهای اخیر، با رشد روزافزون قدرت محاسباتی رایانهها و امکان دستیابی به نتایج حاصل از محاسبات پیچیده در مدت زمان کوتاه، سبب شده است تا الگوریتمهای پیشرفته ریاضی مورد توجه قرار بگیرند. این الگوریتمها با درنظرگرفتن ابعاد مختلف داده، به پالایش و تحلیل آن پرداخته و الگوهای پیچیده و غیرقابل شناسایی توسط روشهای قدیمی را استخراج و ارائه میکنند. رایانهها کمک کردهاند تا فرآیند استخراج،پالایش، پیش پردازش و مدلسازی دادهها و همچنین اعتبارسنجی یافتهها با دقت بیشتر و سرعتی بینظیر انجام شود.
پیشنیازهای داده کاوی
پیش از آغاز عملیات دادهکاوی نیاز است که پیش پردازش کاملی روی دادهها انجام شود تا دادههای غیرمفید و ناکارآمد از دادههای مفید و کاربردی تفکیک شوند. در ادامه به برخی از مهمترین روشهای پیشپردازش داده میپردازیم:
- بررسی و جایگزینی دادههای مفقود شده (Missing Data): برای مواجه با دادههای مفقود شده از روشهایی مانند حذف رکورد داده، جایگزینی دادههای مفقود شده با میانگین یا میانه دادهها یا جایگزینی با نزدیکترین مقدار محتمل استفاده میشود. در صورتی که هیچیک از این موارد امکان پذیر نباشند، جایگزینی با یک عدد یا یک طبقه ثابت مدنظر قرار می گیرد تا عدم وجود یک عنصر داده، مشکلی در نتایج داده کاوی ایجاد نکند.
- تشخیص و حذف دادههای تکراری و اضافه (Redundant Data): در صورتی که بخشی از دادهها تکراری باشد یا از نظر تصمیمگیری، زاید و غیرقابل استفاده تشخیص داده شود، باید تفکیک و حذف شود.
- تصمیمگیری درباره دادههای خارج از محدوده یا دارای اختلال (Outlier Detection and Noise Reduction): گاهی اوقات، داده ها بهطور کامل تهیه و آماده شدهاند ولی برخی از مقادیر، دچار انحراف یا تمایز زیادی با بقیه عناصر هستند و اصطلاحا خارج از محدوده منطقی قرار داشته یا دچار اختلال هستند. این مقادیر میتوانند الگوهای منظم قابل استخراج از دادهها را دچار انحراف کنند. به همین دلیل پیشنهاد میشود پیش از دادهکاوی، این دادهها شناسایی و از مجموعه دادهها جداسازی یا اصلاح و بهینهسازی شوند. یکی از روشهای تعیین دادههای خارج از محدوده، خوشهبندی دادهها است که جزو روشهای دادهکاوی نیز محسوب میشوند. در تصویر زیر، نمونهای از دادههای خارج از محدوده ارائه شدهاند که با روش خوشهبندی، از دادههای دیگر تفکیک میشوند. (دایرههای بزرگ خوشههای اصلی داده و دایرههای کوچک، مقادیر خارج از محدوده هستند):
- تبدیل دادههای پیوسته به گسسته (Discretization): در صورتی که طیف اعداد ورودی بسیار متنوع باشد (برای نمونه دادههای مربوط به حقوق کارکنان)، در این حالت میتوان طبقههایی را برای دادهها در نظر گرفت و برای هر طبقه، یک نام انتخاب کرد. (برای نمونه عبارت حقوق اندک برای افراد دارای حقوق کمتر از یک میلیون تومان). این طبقهها میتوانند جایگزین دادههای پیوسته قبلی یا همان مبلغ حقوق شده و با یک طیف گسسته (حقوق اندک، حقوق متوسط، حقوق بالا)، همان دادهها را شبیه سازی کنند. این تبدیل پیوسته به گسسته، به الگوریتمها کمک میکند تا با یک سادهسازی مختصر، با طیف محدودتری از دادهها مواجه باشند و از پیچیدگیهای محاسبات دادهکاوی کاسته شود.
- تصمیمگیری درباره دادههای متناقض و ناسازگار (Incomplete or Inconsistent Data): در صورتی که یک یا چند عنصر داده، با مقادیر غیرمتعارف تکمیل شده باشند (برای نمونه در فیلدی که مقادیر ۱ و ۲ برای مرد و زن استفاده شده است، از عبارت مرد به جای عدد ۱ استفاده شود)، این مقادیر باید به ساختاری تبدیل شوند که مشابه دیگر مقادیر همان فیلد باشند (در این نمونه، عبارت مرد باید به عدد ۱ تبدیل شود.)
- تحلیل همبستگی دادهها (Correlation Analysis): در صورتی که همبستگی بالایی بین دو یا چند فیلد از دادهها وجود داشته باشد، بهطور معمول یک یا چند فیلد همبسته را حذف میکنند. به این دلیل که وجود این فیلدها، تنها منجر به پیچیدگی بیشتر مدل دادهکاوی میشود و اطلاعات جدیدی را در اختیار الگوریتم قرار نمیدهد. تحلیل همبستگی دادهها میتواند منجر به کاهش ابعاد داده (Dimension Reduction) و به دنبال آن کاهش پیچیدگی مدل شود.
- ایجاد فیلد محاسباتی جدید (Pre-Calculated Field): در این حالت، دو یا چند فیلد اطلاعاتی به یک فیلد تبدیل میشوند که منجر به کاهش ابعاد و پیچیدگی دادهها میشود، مانند فیلد BMI که بر اساس قد و وزن افراد قابل محاسبه است.
- فشردهسازی دادهها (Data Compression): در برخی از مسائل دادهکاوی، ابتدا دادهها فشردهسازی و سپس پردازش میشوند. این روش، تاثیری بر نتایج دادهکاوی نخواهد داشت ولی سرعت پردازش را به شکل موثری افزایش میدهد. گاهی اوقات فشردهسازی دادهها، خود به عنوان یکی از خروجیهای دادهکاوی مطرح میشود.
- نرمالسازی دادهها (Normalization): نرمالسازی عبارت است از تبدیل طیفی از مقادیر عددی به طیف صفر تا یک. این فعالیت در صورتی انجام میشود که فیلدهای مختلف در مجموعهی داده، دارای مقادیر غیرهمسان باشند. برای نمونه یک فیلد شامل سن افراد بوده و مقادیر آن بین ۱ تا ۱۲۰ سال و فیلد دیگر شامل مبلغ حقوق باشد که دارای مقادیری با واحد میلیون تومان است. با توجه به فاصله بسیار زیاد مقادیر این دو فیلد، الگوریتمهای دادهکاوی قادر به ایجاد تمایز مناسب بین آنها برای تهیهی مدل و الگوی بهینه نیستند. بههمین دلیل با تبدیل مقادیر هر دو فیلد به مقادیری بین صفر تا یک، این تناسب بین آنها ایجاد شده و اثر کاذب یک فیلد بر فیلد دیگر از بین میرود.
- کاهش ابعاد دادهها (Dimension Reduction): در بسیاری از پروژههای دادهکاوی، امکان حذف فیلدهای اطلاعاتی وجود دارد، ولی تشخیص اینکه کدام فیلدها در اولویت حذف قرار میگیرند دشوار است. به همین منظور روشهای مختلفی برای کاهش ابعاد داده (حذف فیلدهای اطلاعاتی غیرمفید و کم کاربرد) مطرح شده است. روشهایی همچون تحلیل عاملی اکتشافی (Exploratory Factor Analysis)، تحلیل عاملی تائیدی (Confirmatory Factor Analysis)، تحلیل همبستگی (Correlation Analysis) و تحلیل حساسیت (Sensitivity Analysis) در کاهش ابعاد دادهها کاربرد فراوانی دارند. همچنین یکی از روشهای مهم کاهش ابعاد، شناسایی و انتخاب ویژگی (Feature Selection) است که به واسطهی آن، ویژگیهای غیر مهم و اضافه از مدل حذف میشوند.
- نمونهگیری از دادهها (Data Sampling): در صورتی که حجم داده بسیار بالا باشد و نیازی به پیادهسازی الگوریتمهای دادهکاوی روی تمام دادهها نباشد، میتوان «نمونهگیری» انجام داد. دادههایی که به این روش انتخاب میشوند باید نماینده قابل اطمینانی از کل دادهها باشند. در پروژههایی که با دادههای بزرگ (Big Data) کار میکنند، برخی موارد از این روش برای کاهش حجم دادهها استفاده میشود.
- یکپارچهسازی و تجمیع دادهها (Data Integration): در پروژههایی که دادهها از منابع مختلف گردآوری میشوند، عملیات یکسانسازی ساختار دادهها (Data Format Unification) و تجمیع منابع دادهای (Data Source Integration) باید بهطور دقیق انجام شود. پس از یکسانسازی ساختار دادهها، امکان آغاز فرآیند دادهکاوی وجود خواهد داشت.