با پیشرفت علم و تکنولوژی و درراستای آن فناوری اطلاعات، دنیا شاهد پیشرفت سریع در تولید داده، گردآوری و ذخیره آن در دامنههای گوناگون است. هر روز تعداد بسیار زیادی داده در زمینههای مختلف تولید میشود. همه افرادی که حداقل یک بار کار پژوهشی انجام دادند، تاحدودی با مفهوم دادهکاوی و اهمیت آن آشنا هستند، اما افرادی نیز هستند که کامل با مفهوم داده کاوی آشنا نیستند و یا افرادی که به تازگی درحوزهی تحقیق و پژوهش وارد شدهاند که از مفهوم و کاربرد دادهکاوی آگاه نیستند. در واقع دادهکاوی یکی از شاخههای مهم و توسعه یافته علم آمار است، اما بسیار فراتر از آمار است، بنابراین درادامه قصد داریم مطالبی را درمورد مفهوم دادهکاوی، اهمیت و کاربرد آن برای شما عزیزان ارائه دهیم پس با ما همراه باشید:
تعریف دادهکاوی
Data Mining در لغت به معنی دادهکاوی میباشد. به استخراج اطلاعات از تعداد زیادی داده، داده کاوی میگویند. درواقع برای دسترسی به اطلاعات مفید و کاربردی از یک مجموعه داده بزرگ، باید از دادهکاوی استفاده کرد. دادهکاوی درحوزههای مختلفی از جمله آموزش، مدیریت، بازاریابی، پزشکی، بورس، بانکداری و … بهکاربرده میشود.
تعریف داده و فرق داده با اطلاعات چیست؟
بسیاری از افراد هستند که فکر میکنند داده با اطلاعات تفاوتی ندارد و اغلب این دو واژه را به جای یکدیگر بهکار میبرند. اما دو واژهی اطلاعات و داده، مفهوم های متفاوتی دارند. به هر کاراکتر شامل متن، عدد، علامت، کلمه،تصویر، صدا و … داده میگویند که طبقه بندی و دسته بندی نشده اند و هیچ معنا و مفهوم خاصی ندارند. اگر این دادهخام را طبقه بندی، دسته بندی و ساختاردهی شوند، به اطلاعات علمی و قابل فهم و کاربردی تبدیل میشوند.
ویژگیهای داده کاوی
- پیشبینی احتمالی نتیجهها وخروجیها
- کشف اتوماتیک الگوها
- تولید اطلاعات مفید، دقیق و مطمئن
- استفاده از دادههای بزرگ و مجموعه پایگاه دادهها
ابزارهای مورد استفاده در داده کاوی
برای داده کاوی ابزارها و نرمافزارهای مختلفی وجود دارند، که هر کدام مزایا و معایب خود را دارند. هرمحقق با توجه به ماهیت داده هایش میتواند یکی نرمافزارهای دادهکاوی را برای استخراج اطلاعات از دادههایش استفاده کند. برخی از نرمافزارهای پرکاربرد در دادهکاوی عبارتند از:
Miner
Oracle Data Mining
SPSS Modeler
Orange
KNIME
PYTHON
R
WEKA
و…
مراحل دادهکاوی
مانند هر فرآیند دیگری، فرآیند دادهکاوی نیز شامل مراحلی است که باید گام به گام انجام شوند تا اطلاعات درست به دست آید. در ادامه مراحل داده کاوی را نام برده و بهاختصار هرکدام را توضیح میدهیم:
- پاکسازی داده
- یکپارچه سازی داده
- انتخاب داده
- تبدیل داده
- کاوش داده
- ارزیابی الگو
- ارائه اطلاعات
1. پاکسازی دادهها
دراین مرحله که اولین مرحله فرآیند دادهکاوی است، دادههای اضافی و نامرتبط را حذف میکنیم. همچنین دادههای ناسازگار نیز در این مرحله حذف میشوند.
2. یکپارچه سازی دادهها
این مرحله درواقع همان همگن سازی دادهها است، به عبارت دیگر دادههای ناهمگن پایگاه دادههای مختلف را در یک جا همگن میکنیم. دراین مرحله دادهها از منابع داده مختلف، باید به یکباره مورد تحلیل قرار بگیرند.
3. انتخاب داده
در این مرحه از بین تمام دادههای موجود، دادههای مرتبط با تحلیل انتخاب میشود.
4. تبدیل داده
در این مرحله دادههای انتخاب شده به شکل دیگری تبدیل میشوند. این کار به سادهتر شدن، بهبود صحت و دقت فرآیند کاوش کمک میکند.
5. کاوش داده
در این مرحله با استفاده از روشهای هوشمندانه، الگوهای مهم و قابل توجه از میان دادهها استخراج و مورد استفاده قرار میگیرند.
6. ارزیابی الگو
دراین مرحله، الگوهای مرحله قبل از جنبههای گوناگونی شامل دقت، صحت و قابلیت تعمیم و غیره ارزیابی میشوند.
7. ارائه دانش
آخرین مرحله فرآیند داده کاوی، ارائه دانش میباشد. درمرحله، دانش و اطلاعات کشف شده یا استخراج شده به شیوه قابل درک به محقق ارائه میشود. مرحله ارائه دانش یکی از مهمترین مراحل داده کاوی است که از روش های بصری استفاده می شود که این کار به محققان در درک و تفسیر نتایج دادهکاوی کمک میکند.