داده کاوی چیست؟
با توجه به حجم عظیم داده هایی که این روزها ما را احاطه کرده است، کشف دانش با ارزش از داده ها یکی از مهمترین دغدغههای هر کسب و کار میباشد. کسب و کارهای موفق در عصر دیجیتال آنهایی هستند که با کشف دانش با ارزش از حجم بسیار زیاد داده ها بتوانند به بینشی دست یابند که از آن برای تصمیم گیری های سازمانی بهره جویند. کشف دانش از داده ها و دستیابی به الگوهای پنهان میان داده ها مستلزم به کارگیری فرآیندها، تکنیکها و ابزار داده کاوی است. از این رو، این روزها موضوعات مرتبط با داده کاوی و ابزار آن با اقبال بسیار خوبی در میان جامعه علمی و صنعتی کشور مواجه شده است. کشف دانش درون دادهها آن هم در عصر اطلاعات یکی از هیجانانگیزترین و کلیدیترین مفاهیمی است که روز به روز اهمیت بیشتری میگیرد. اصولاً یک شرکت با دادههای زیادی سروکار دارد. اکثر این دادهها از رفتار مشتریان بدست میآید و تنوع و حجم آن نیز تا حد زیادی به مقیاس کسبوکار وابسته است. اطلاعات کلی مشتریان (سن، جنسیت، تحصیلات، محل زندگی و …)، دفعات خرید، میزان خرید، دادههای شکایتها و تماس با امور مشتریان همه از این قبیل دادهها هستند. معمولاً همهی شرکتها انبوهی از این دادهها را ثبت و ضبط میکنند اما در اختیار داشتن این دادهها به تنهایی هیچ کمکی به کسبوکار نخواهد کرد. هنر اصلی این است که به کمک تحلیل این دادهها که به آن دادهکاوی یا دیتا ماینینگ (Data Mining) میگویند، الگوهای رفتاری مشتریان را پیدا کرد. در حقیقت این دادهها حکم یک معدن طلا را دارند که باید از طریق دادهکاوی به طلای آن دست پیدا کرد.
چرا به سراغ دادهکاوی رفتهایم؟
چون
- حجم دادهها (Data) با سرعت زیادی در حال رشد است.
- اطلاعات (Information) ما در مورد این دادهها کم است.
- دانش (Knowledge) ما نسبت به این اطلاعات صفر است.
جالب اینجاست که مشکل تمام اینها یک کلمه است و آن دادهکاوی است.
از طرف دیگرتوسعه تکنولوژیهای ذخیره و بازیابی اطلاعات امکانی است برای محقق شدن دادهکاوی:
- افزایش روزافزون حجم اطلاعات ذخیره شده
- تنوع بسیار زیاد در اطلاعات موجود
- بانکهای اطلاعاتی
- فایلهای چندرسانهای (تصاویر متحرک، فایلهای صوتی)
- اطلاعات متنی و فاقد ساختار
آرشیوهای اطلاعاتی، به دلیل حجم بسیار زیاد، غالباً به مقبرههای اطلاعات تبدیل میشوند. علیرغم هزینههای سنگین در بخش تکنولوژی اطلاعات، بسیاری از تصمیمها همچنان در فقر اطلاعاتی اتخاذ میگردند. از قابلیتهای بالقوه اطلاعات ذخیره شده استفاده نمیشود. نیاز به تبدیل اطلاعات به دانش در بسیاری زمینهها آشکار گردیده است.
فنون داده کاوی ؟
برخی از فنون رایج بکار گرفته شده تحت عنوان دادهکاوی عبارتند از:
- ابزارهای پرس و جو
- فنون آماری
- مصورسازی
- پردازش تحلیلی پیوسته
- یادگیری مبتنی بر مورد
- درختان تصمیمگیری
- قوانین وابستگی
- شبکههای عصبی
- الگوریتم ژنتیکی
کاربردهای داده کاوی ؟
دادهکاوی یک رشته جدید با کاربردهای وسیع و گوناگون است که به عنوان ده علم برتر که منجر به ایجاد تحول در عصر تکنولوژی میشود و در تمام زمینهها کاربرد دارد، معرفی میشود. اصولاً هر جایی که داده وجود داشته باشد دادهکاوی نیز معنا مییابد، از قبیل: امور تجاری و مالی، امور پزشکی، زیست پزشکی، تجزیه و تحلیلهای مربوط به DNA، کشف ناهنجاریها و اسناد جعلی، ارتباطات از راه دور، ورزش و سرگرمی، کتابداری و اطلاعرسانی. امروزه عملیات دادهکاوی به صورت گسترده توسط تمامی شرکتهایی که مشتریان در کانون توجه آنها قرار دارند، استفاده میشود، از جمله: فروشگاهها، شرکتهای مالی، ارتباطاتی، بازاریابی و غیره. استفاده از دادهکاوی به این شرکتها کمک میکند تا ارتباط عوامل داخلی از جمله: قیمت، محل قرارگیری محصولات و مهارت کارمندان را با عوامل خارجی از جمله: وضعیت اقتصادی، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند. دادهکاوی پیشبینی وضع آینده بازار، گرایش مشتریان و شناخت سلیقههای عمومی آنها را برای شرکتها ممکن میسازد.
ابزارهای مطرح در داده کاوی ؟
دادهکاوی یک رشته جدید با کاربردهای وسیع و گوناگون است که به عنوان ده علم برتر که منجر به ایجاد تحول در عصر تکنولوژی میشود و در تمام زمینهها کاربرد دارد، معرفی میشود. اصولاً هر جایی که داده وجود داشته باشد دادهکاوی نیز معنا مییابد، از قبیل: امور تجاری و مالی، امور پزشکی، زیست پزشکی، تجزیه و تحلیلهای مربوط به DNA، کشف ناهنجاریها و اسناد جعلی، ارتباطات از راه دور، ورزش و سرگرمی، کتابداری و اطلاعرسانی. امروزه عملیات دادهکاوی به صورت گسترده توسط تمامی شرکتهایی که مشتریان در کانون توجه آنها قرار دارند، استفاده میشود، از جمله: فروشگاهها، شرکتهای مالی، ارتباطاتی، بازاریابی و غیره. استفاده از دادهکاوی به این شرکتها کمک میکند تا ارتباط عوامل داخلی از جمله: قیمت، محل قرارگیری محصولات و مهارت کارمندان را با عوامل خارجی از جمله: وضعیت اقتصادی، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند. دادهکاوی پیشبینی وضع آینده بازار، گرایش مشتریان و شناخت سلیقههای عمومی آنها را برای شرکتها ممکن میسازد.
داده کاوی و علوم داده به سبب عصر انفجار اطلاعات کنونی بسیار ضروری است. امروزه دولت ها و سازمان های بزرگ برای افزایش راندمان و هوشمند سازی کارایی خود نیز به اهمیت آن پی برده اند. به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود. روشهای دادهکاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میانرشتهای دادهکاوی، پیرامون ابزارها، متدولوژیها و تئوریهایی است که برای آشکارسازی الگوهای موجود در دادهها مورد استفاده قرار میگیرند و گامی اساسی در راستای کشف دانش محسوب میشود. دلایل گوناگونی پیرامون چرایی مبدل شدن دادهکاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شدهاند.
فرآیند دادهکاوی؟
با رشد و افزایش توجهات به دادهکاوی، پرسش «چرا دادهکاوی؟» همواره مطرح میشود. در پاسخ به این پرسش باید گفت، دادهکاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینهای جوان و آیندهدار برای نسل کنونی محسوب میشود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع دادهها، نیاز حتمی به تبدیل چنین دادههایی به اطلاعات و دانش وجود دارد. بنابراین، بشر از اطلاعات و دانش برای گستره وسیعی از کاربردها، از تحلیل بازار گرفته تا تشخیص بیماریها، کشف کلاهبرداری و پیشبینی قیمت سهام استفاده میکند. در مجموع باید گفت، ضربالمثل انگلیسی «نیاز، مادر همه ابداعات بشر است»، پاسخی کوتاه و گویا به پرسش مطرح شده است. در ادامه، برخی از استفادههای دادهکاوی مورد بررسی قرار گرفتهاند. فرآیند دادهکاوی شامل چندین گام است. این فرآیند از دادههای خام آغاز میشود و تا شکلدهی دانش جدید ادامه دارد. فرآیند بازگشتی دادهکاوی شامل گامهای زیر است:
- «پاکسازی داده» (Data Cleaning)
- «یکپارچهسازی داده» (Data Integration)
- «انتخاب داده» (Data Selection)
- «تبدیل داده» (Data Transformation)
- «کاوش داده» (Data Mining)
- «ارزیابی الگو» (Pattern Evaluation)
- «ارائه دانش» (Knowledge Representation)
weka چیست ؟
weka مجموعه اي از به روزترین الگوریتم هاي یادگیري ماشینی و ابزارهایی براي پیش پردازش داده ها میباشد. WEKA در قالب واسطهاي کاربري مناسب در اختیار کاربران قرار میگیرد بنابراین کاربران میتوانند با توجه اینکه کلیه امکانات متدهاي مختلف را بر روي دادههاي خود پیاده سازي کرده و بهترین الگوریتم را براي کار انتخاب نمایند.. همچنین این نرم افزار تحت مجوز Java که ماشین مجازي بدان معناست که استفاده از آن رایگان بوده و کاربران به راحتی میتوانند به کدمنبع هاي آن دسترسی داشته و حتی آنها را برحسب نیاز تغییر داده و روشهاي دیگري را نیز به آنها اضافه کنند. این نرم افزار توسط جاوا پیاده سازی شده و شما می توانید مستقیما از وکا استفاده کنید یا در کد جاوای برنامه خود مورد استفاده قرار دهید. در وکا مجموعه کاملی از الگوریتم ها ارائه شده است که می توان در نظرکاوی، متن کاوی و امور مختلف داده کاوی مورد استفاده قرار داد. یکی از نقاط قوت وکا عملکرد مناسب الگوریتم ماشین یادگیری این نرم افزار است. الگوریتم به شکلی پیاده سازی شده اند که عملکرد قابل قبولی نسبت به بقیه نرم افزارها ارائه می دهند. در کنار این نکات قوت وکا ظاهر کاربرپسندی نیز دارد.
این پکیج شامل چهار واسط کاربری متفاوت میباشد:
- Explorer: در این حالت شما میتوانید روشهای مختلف آمادهسازی، تبدیل و الگوریتمهای مدلسازی بر روی دادهها را اجرا کنید.
- Experimenter: در این حالت فقط امکان اجرای الگوریتمهای مختلف ردهبندی به صورت همزمان و مقایسه نتایج آنها وجود دارد. تمامی شاخصهای مورد نیاز به منظور بررسی مدلهای رده بندی در این قسمت تعریف شده و قرار دارند و گزارشات مفصلی را از جمله آزمون T می توان در این قسمت پس از مدلسازی استخراج نمود.
- Knowledge Flow: در این قسمت یک واسط گرافیکی طراحی شده است که مانند نرم افزارهای IBM Modeler و رپیدماینر در آن می توان جریان های داده ای مختلف تولید نمود.
- (command line interface (CLI: در این حالت امکان مدلسازی توسط کدنویسی خط به خط قرار دارد.
- در وکا داده ها می توانند به فرمت های مختلف از جمله Excel، CSV و Arff باشند. اما به طور کلی این نرم افزار با دادهها به فرمت Arff میانه بهتری دارد.
يكي از راههاي به كارگيري Weka ، اعمال يك روش يادگيري به يك مجموعه داده و تحليل خروجي آن براي شناخت چيزهاي بيشتري راجع به آن اطلاعات ميباشد. راه ديگر استفاده از مدل يادگيري شده براي توليد پيشبينيهايي در مورد نمونههاي جديد است. سومين راه، اعمال يادگيرندههاي مختلف و مقايسه كارآيي آنها به منظور انتخاب يكي از آنها براي تخمين ميباشد. روشهاي يادگيري Classifier ناميده ميشوند و در واسط تعاملي Weka ، ميتوان هر يك از آنها را از منو انتخاب نمود. بسياري از classifier ها پارامترهاي قابل تنظيم دارند كه ميتوان از طريق صفحه ويژگيها يا object editor به آنها دسترسي داشت. يك واحد ارزيابي مشترك، براي اندازهگيري كارآيي همه classifier به كار ميرود. پياده سازيهاي چارچوبهاي يادگيري واقعي، منابع بسيار ارزشمندي هستند كه Weka فراهم ميكند. ابزارهايي كه براي پيش پردازش دادهها استفاده ميشوند. filter ناميده ميشوند. همانند classifier ها، ميتوان filter ها را از منوي مربوطه انتخاب كرده و آنها را با نيازمنديهاي خود، سازگار نمود. در ادامه، به روش به كارگيري فيلترها اشاره ميشود. علاوه بر موارد فوق، Weka شامل پياده سازي الگوريتمهايي براي يادگيري قواعد انجمني، خوشهبندي دادهها در جايي كه هيچ دستهاي تعريف نشده است، و انتخاب ويژگيهاي مرتبط در دادهها ميشود.
هدف از این دوره آموزشی ؟
هدف از این دوره آموزشی انجام عملیات داده کاوی با نرم افزار قدرتمند weka می باشد تا ضمن آشنایی با کتابخانه weka، بتوان کارهای مختلف داده کاوی و یادگیری ماشین نیز انجام داد. این آموزش با زبانی ساده و روان و قابل فهم تمامی آنچه که برای داده کاوی ضروری است به شما آموزش می دهد. همچنین این آموزش به صورت پروژه محور و بسیار روان عملیات داده کاوی را روی چند دیتاست معتبر انجام می دهد. ابتدا نکات مهم پیرامون داده کاوی و نحوه پردازش داده ها بحث و بررسی می شود. سپس، کارهای مختلف یادگیری ماشین و اتسخراج دنش از داده با weka انجام می شود. بدون شک یکی از بهترین آموزش های داده کاوی با weka است که می توانید در کاربردهای مختلف از آن استفاده کنید. مدرس این دوره سال هاست در این حوزه کار می کند و نکات آموزشی و تدریس خوب ایشان می تواند به شما در متخصص شدن برای کار با weka کمک زیادی کند. امیدواریم که این آموزش از “بیگ لرن” هم مثل سایر آموزش ها مورد تایید و رضایت شما مخاطبان گرامی قرار گیرد.
بخش اول: معرفی داده کاوی و اصول اساسی آن
بخش دوم: کنترل کیفیت و اکتشاف داده ها با weka
بخش دوم: معرفی ماژول های weka برای داده کاوی و نصب موارد لازم
بخش سوم: آماده سازی داده ها
بخش چهارم: محاسبات آماری و قوانین انجمنی روی داده ها
بخش پنجم: آزمون معنی داری آماری
بخش پنجم: مدل سازی با استفاده از داده ها
بخش ششم: ترسیم داده ها و نتایج
بخش هفتم: ارزیابی مدل حاصل از داده ها
نظرات
3 دیدگاه برای آموزش کامل داده کاوی با weka
برای فرستادن دیدگاه، باید وارد شده باشید.
ستار
نسبت به قیمت خیلی مطالب کاربردی و جالب مطرح شده بود. تشکر
فرید
سلام و خسته نباشید.عالی بود
مریم(خریدار محصول)
ممنون از اقای دکتر بخاطر این دوره عالی