داده کاوی چیست؟

با توجه به حجم عظیم داده هایی که این روزها ما را احاطه کرده است، کشف دانش با ارزش از داده ها یکی از مهم‌ترین دغدغه‌های هر کسب و کار می‌باشد. کسب و کارهای موفق در عصر دیجیتال آن‌هایی هستند که با کشف دانش با ارزش از حجم بسیار زیاد داده ها بتوانند به بینشی دست یابند که از آن برای تصمیم گیری های سازمانی بهره جویند. کشف دانش از داده ها و دستیابی به الگوهای پنهان میان داده ها مستلزم به کارگیری فرآیندها، تکنیک‌ها و ابزار داده کاوی است. از این رو، این روزها موضوعات مرتبط با داده کاوی و ابزار آن با اقبال بسیار خوبی در میان جامعه علمی و صنعتی کشور مواجه شده است. کشف دانش درون داده‌ها آن هم در عصر اطلاعات یکی از هیجان‌انگیزترین و کلیدی‌ترین مفاهیمی است که روز به روز اهمیت بیشتری می‌گیرد. اصولاً یک شرکت با داده‌های زیادی سروکار دارد. اکثر این داده‌ها از رفتار مشتریان بدست می‌آید و تنوع و حجم آن نیز تا حد زیادی به مقیاس کسب‌وکار وابسته است. اطلاعات کلی مشتریان (سن، جنسیت، تحصیلات، محل زندگی و …)، دفعات خرید، میزان خرید، داده‌های شکایت‌ها و تماس با امور مشتریان همه از این قبیل داده‌ها هستند. معمولاً همه‌ی شرکت‌ها انبوهی از این داده‌ها را ثبت و ضبط می‌کنند اما در اختیار داشتن این داده‌ها به تنهایی هیچ کمکی به کسب‌وکار نخواهد کرد. هنر اصلی این است که به کمک تحلیل این داده‌ها که به آن داده‌کاوی یا دیتا ماینینگ (Data Mining) می‌گویند، الگوهای رفتاری مشتریان را پیدا کرد. در حقیقت این داده‌ها حکم یک معدن طلا را دارند که باید از طریق داده‌کاوی به طلای آن دست پیدا کرد.

چرا به سراغ داده‌کاوی رفته‌ایم؟

چون

  • حجم داده‌ها (Data) با سرعت زیادی در حال رشد است.
  • اطلاعات (Information) ما در مورد این داده‌ها کم است.
  • دانش (Knowledge) ما نسبت به این اطلاعات صفر است.

جالب اینجاست که مشکل تمام اینها یک کلمه است و آن داده‌کاوی است.

از طرف دیگرتوسعه تکنولوژیهای ذخیره و بازیابی اطلاعات امکانی است برای محقق شدن داده‌کاوی:

  • افزایش روزافزون حجم اطلاعات ذخیره شده
  • تنوع بسیار زیاد در اطلاعات موجود
  •  بانکهای اطلاعاتی
  • فایلهای چندرسانه‌ای (تصاویر متحرک، فایلهای صوتی)
  • اطلاعات متنی و فاقد ساختار

آرشیوهای اطلاعاتی، به دلیل حجم بسیار زیاد، غالباً به مقبره‌های اطلاعات تبدیل می‌شوند. علیرغم هزینه‌های سنگین در بخش تکنولوژی اطلاعات، بسیاری از تصمیمها همچنان در فقر اطلاعاتی اتخاذ می‌گردند. از قابلیتهای بالقوه اطلاعات ذخیره‌ شده استفاده نمی‌شود. نیاز به تبدیل اطلاعات به دانش در بسیاری زمینه‌ها  آشکار گردیده است.

فنون داده کاوی ؟

برخی از فنون رایج بکار گرفته شده تحت عنوان داده‌کاوی عبارتند از:

  • ابزارهای پرس و جو
  • فنون آماری
  • مصورسازی
  • پردازش تحلیلی پیوسته
  • یادگیری مبتنی بر مورد
  • درختان تصمیم‌گیری
  • قوانین وابستگی
  • شبکه‌های عصبی
  • الگوریتم ژنتیکی

کاربردهای داده کاوی ؟

داده‌کاوی یک رشته جدید با کاربردهای وسیع و گوناگون است که به عنوان ده علم برتر که منجر به ایجاد تحول در عصر تکنولوژی می‌شود و در تمام زمینه‌ها کاربرد دارد، معرفی می‌‌شود.  اصولاً هر جایی که داده وجود داشته باشد داده‌کاوی نیز معنا می‌یابد، از قبیل: امور تجاری و مالی، امور پزشکی، زیست پزشکی، تجزیه و تحلیلهای مربوط به DNA، کشف ناهنجاریها و اسناد جعلی، ارتباطات از راه دور، ورزش و سرگرمی، کتابداری و اطلاع‌رسانی. امروزه عملیات داده‌کاوی به صورت گسترده توسط تمامی شرکتهایی که مشتریان در کانون توجه آنها قرار دارند، استفاده می‌شود، از جمله: فروشگاه‌ها، شرکتهای مالی، ارتباطاتی، بازاریابی و غیره. استفاده از داده‌کاوی به این شرکتها کمک می‌کند تا ارتباط عوامل داخلی از جمله: قیمت، محل قرارگیری محصولات و مهارت کارمندان را با عوامل خارجی از جمله: وضعیت اقتصادی، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند. داده‌کاوی پیش‌بینی وضع آینده بازار، گرایش مشتریان و شناخت سلیقه‌های عمومی آنها را برای شرکتها ممکن می‌سازد.

ابزارهای مطرح در داده کاوی ؟

داده‌کاوی یک رشته جدید با کاربردهای وسیع و گوناگون است که به عنوان ده علم برتر که منجر به ایجاد تحول در عصر تکنولوژی می‌شود و در تمام زمینه‌ها کاربرد دارد، معرفی می‌‌شود.  اصولاً هر جایی که داده وجود داشته باشد داده‌کاوی نیز معنا می‌یابد، از قبیل: امور تجاری و مالی، امور پزشکی، زیست پزشکی، تجزیه و تحلیلهای مربوط به DNA، کشف ناهنجاریها و اسناد جعلی، ارتباطات از راه دور، ورزش و سرگرمی، کتابداری و اطلاع‌رسانی. امروزه عملیات داده‌کاوی به صورت گسترده توسط تمامی شرکتهایی که مشتریان در کانون توجه آنها قرار دارند، استفاده می‌شود، از جمله: فروشگاه‌ها، شرکتهای مالی، ارتباطاتی، بازاریابی و غیره. استفاده از داده‌کاوی به این شرکتها کمک می‌کند تا ارتباط عوامل داخلی از جمله: قیمت، محل قرارگیری محصولات و مهارت کارمندان را با عوامل خارجی از جمله: وضعیت اقتصادی، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند. داده‌کاوی پیش‌بینی وضع آینده بازار، گرایش مشتریان و شناخت سلیقه‌های عمومی آنها را برای شرکتها ممکن می‌سازد.

 icon-file-o ابزارهای مطرح در داده کاوی:

از ابزارهای مطرح در داده کاوی می‌توان به نرم افزارهای رپیدماینر ، وکا و زبان‌های برنامه‌ نویسی همچون R و پایتون اشاره کرد. در این میان، زبان برنامه نویسی پایتون یک زبان چند منظوره است که طراحی آن با هدف سهولت در خواندن و نوشتن این زبان انجام گرفته است.

محبوبیت زبان پایتون به دلایل زیر روز به روز در حال افزایش است:

  • پایتون انجمنی فعال و پویا دارد که اعضای آن با قدرت از این زبان برنامه نویسی حمایت می کنند.

  • پایتون حامیان مالی قدری دارد.

  • راهکارهای پردازش ابری و بیگ دیتا در پایتون کاربرد زیادی دارد. علاوه برآن، پایتون این قابلیت را دارد که برای سیستم‌های هوش مصنوعی و یادگیری ماشین و سایر تکنولوژی‌های مدرن دیگر مورد استفاده قرار گیرد، در نتیجه پایتون به یکی‌از پرکاربردترین زبان‌های مورد استفاده در علم داده تبدیل شده است.

  • پایتون کتابخانه های گسترده و بسیار جالبی دارد.

  • هر کسی که تا به‌حال از زبان برنامه نویسی پایتون استفاده کرده باشد، این نظر را تأیید می‌کند که نرم افزار پایتون سریع، قابل اعتماد و مفید است و می‌توان از آن در هر محیطی استفاده کرد بدون آن که از میزان کارایی آن ذره‌ای کم شود.

  • یادگیری و کاربرد پایتون برای مبتدیان بسیارساده است.

داده کاوی و علوم داده به سبب عصر انفجار اطلاعات کنونی بسیار ضروری است. امروزه دولت ها و سازمان های بزرگ برای افزایش راندمان و هوشمند سازی کارایی خود نیز به اهمیت آن پی برده اند. به مجموعه‌ای از روش‌های قابل اعمال بر پایگاه داده‌های بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان داده‌ها، داده‌کاوی گفته می‌شود. روش‌های داده‌کاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میان‌رشته‌ای داده‌کاوی، پیرامون ابزارها، متدولوژی‌ها و تئوری‌هایی است که برای آشکارسازی الگوهای موجود در داده‌ها مورد استفاده قرار می‌گیرند و گامی اساسی در راستای کشف دانش محسوب می‌شود. دلایل گوناگونی پیرامون چرایی مبدل شدن داده‌کاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شده‌اند.

فرآیند داده‌کاوی؟

با رشد و افزایش توجهات به داده‌کاوی، پرسش «چرا داده‌کاوی؟» همواره مطرح می‌شود. در پاسخ به این پرسش باید گفت، داده‌کاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینه‌ای جوان و آینده‌دار برای نسل کنونی محسوب می‌شود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع داده‌ها، نیاز حتمی به تبدیل چنین داده‌هایی به اطلاعات و دانش وجود دارد. بنابراین، بشر از اطلاعات و دانش برای گستره وسیعی از کاربردها، از تحلیل بازار گرفته تا تشخیص بیماری‌ها، کشف کلاهبرداری و پیش‌بینی قیمت سهام استفاده می‌کند. در مجموع باید گفت، ضر‌ب‌المثل انگلیسی «نیاز، مادر همه ابداعات بشر است»، پاسخی کوتاه و گویا به پرسش مطرح شده است. در ادامه، برخی از استفاده‌های داده‌کاوی مورد بررسی قرار گرفته‌اند. فرآیند داده‌کاوی شامل چندین گام است. این فرآیند از داده‌های خام آغاز می‌شود و تا شکل‌دهی دانش جدید ادامه دارد. فرآیند بازگشتی داده‌کاوی شامل گام‌های زیر است:

  • «پاک‌سازی داده» (Data Cleaning)
  • «یکپارچه‌سازی داده» (Data Integration)
  • «انتخاب داده» (Data Selection)
  • «تبدیل داده» (Data Transformation)
  • «کاوش داده» (Data Mining)
  • «ارزیابی الگو» (Pattern Evaluation)
  • «ارائه دانش» (Knowledge Representation)

weka چیست ؟

weka مجموعه اي از به روزترین الگوریتم هاي یادگیري ماشینی و ابزارهایی براي پیش پردازش داده ها میباشد.  WEKA در قالب واسطهاي کاربري مناسب در اختیار کاربران قرار میگیرد بنابراین کاربران میتوانند  با توجه اینکه کلیه امکانات متدهاي مختلف را بر روي دادههاي خود پیاده سازي کرده و بهترین الگوریتم را براي کار انتخاب نمایند.. همچنین این نرم افزار تحت مجوز Java که ماشین مجازي بدان معناست که استفاده از آن رایگان بوده و کاربران به راحتی میتوانند به کدمنبع هاي آن دسترسی داشته و حتی آنها را برحسب نیاز تغییر داده و روشهاي دیگري را نیز به آنها اضافه کنند. این نرم افزار توسط جاوا پیاده سازی شده و شما می توانید مستقیما از وکا استفاده کنید یا در کد جاوای برنامه خود مورد استفاده قرار دهید. در وکا مجموعه کاملی از الگوریتم ها ارائه شده است که می توان در نظرکاوی، متن کاوی و امور مختلف داده کاوی مورد استفاده قرار داد. یکی از نقاط قوت وکا عملکرد مناسب الگوریتم ماشین یادگیری این نرم افزار است. الگوریتم به شکلی پیاده سازی شده اند که عملکرد قابل قبولی نسبت به بقیه نرم افزارها ارائه می دهند. در کنار این نکات قوت وکا ظاهر کاربرپسندی نیز دارد.

 این پکیج شامل چهار واسط کاربری متفاوت می‌باشد:

  •  Explorer: در این حالت شما می‌توانید روش‌های مختلف آماده‌سازی، تبدیل و الگوریتم‌های مدلسازی بر روی داده‌ها را اجرا کنید.
  • Experimenter: در این حالت فقط امکان اجرای الگوریتم‌های مختلف رده‌بندی به صورت هم‌زمان و مقایسه نتایج آن‌ها وجود دارد. تمامی شاخص‌های مورد نیاز به منظور بررسی مدل‌های رده بندی در این قسمت تعریف شده و قرار دارند و گزارشات مفصلی را از جمله آزمون T می توان در این قسمت پس از مدلسازی استخراج نمود.
  • Knowledge Flow: در این قسمت یک واسط گرافیکی طراحی شده است که مانند نرم افزارهای IBM Modeler و رپیدماینر در آن می توان جریان های داده ای مختلف تولید نمود.
  •  (command line interface (CLI: در این حالت امکان مدلسازی توسط کدنویسی خط به خط قرار دارد.
  • در وکا داده ها می توانند به فرمت های مختلف از جمله Excel، CSV و Arff باشند. اما به طور کلی این نرم افزار با داده‌ها به فرمت Arff میانه بهتری دارد.

يكي از راه­‏هاي به كارگيري Weka ، اعمال يك روش يادگيري به يك مجموعه داده و تحليل خروجي آن براي شناخت چيزهاي بيشتري راجع به آن اطلاعات مي‏­باشد. راه ديگر استفاده از مدل يادگيري شده براي توليد پيش‏بيني­‏هايي در مورد نمونه­‏هاي جديد است. سومين راه، اعمال يادگيرنده­‏هاي مختلف و مقايسه كارآيي آنها به منظور انتخاب يكي از آنها براي تخمين مي‏­باشد. روش­‏هاي يادگيري Classifier ناميده مي‏­شوند و در واسط تعاملي Weka ، مي‏­توان هر يك از آنها را از منو انتخاب نمود. بسياري از classifier ‏ها پارامترهاي قابل تنظيم دارند كه مي‏­توان از طريق صفحه ويژگي‏‏ها يا object editor به آنها دسترسي داشت. يك واحد ارزيابي مشترك، براي اندازه‏گيري كارآيي همه classifier به كار مي‏­رود. پياده سازي­‏هاي چارچوب­‏هاي يادگيري واقعي، منابع بسيار ارزشمندي هستند كه Weka فراهم مي‏­كند. ابزارهايي كه براي پيش پردازش داده­‏ها استفاده مي‏­شوند. filter ناميده مي‏­شوند. همانند classifier ‏ها، مي‏­توان filter ‏ها را از منوي مربوطه انتخاب كرده و آنها را با نيازمندي­‏هاي خود، سازگار نمود. در ادامه، به روش به كارگيري فيلترها اشاره مي‏­شود. علاوه بر موارد فوق، Weka شامل پياده سازي الگوريتم­‏هايي براي يادگيري قواعد انجمني، خوشه­بندي داده­‏ها در جايي كه هيچ دسته­اي تعريف نشده است، و انتخاب ويژگي‏هاي مرتبط در داده­‏ها مي‏­شود.

هدف از این دوره آموزشی ؟

هدف از این دوره آموزشی انجام عملیات داده کاوی با نرم افزار قدرتمند weka می باشد تا ضمن آشنایی با کتابخانه  weka، بتوان کارهای مختلف داده کاوی و یادگیری ماشین نیز انجام داد. این آموزش با زبانی ساده و روان و قابل فهم تمامی آنچه که برای داده کاوی ضروری است به شما آموزش می دهد. همچنین این آموزش به صورت پروژه محور و بسیار روان عملیات داده کاوی را روی چند دیتاست معتبر انجام می دهد. ابتدا نکات مهم پیرامون داده کاوی و نحوه پردازش داده ها بحث و بررسی می شود. سپس، کارهای مختلف یادگیری ماشین و اتسخراج دنش از داده با weka انجام می شود. بدون شک یکی از بهترین آموزش های داده کاوی با weka است که می توانید در کاربردهای مختلف از آن استفاده کنید. مدرس این دوره سال هاست در این حوزه کار می کند و نکات آموزشی و تدریس خوب ایشان می تواند به شما در متخصص شدن برای کار با weka کمک زیادی کند. امیدواریم که این آموزش از “بیگ لرن” هم مثل سایر آموزش ها مورد تایید و رضایت شما مخاطبان گرامی قرار گیرد.

بخش اول: معرفی داده کاوی و اصول اساسی آن
بخش دوم: کنترل کیفیت و اکتشاف داده ها با weka
بخش دوم: معرفی ماژول های weka برای داده کاوی و نصب موارد لازم
بخش سوم: آماده سازی داده ها
بخش چهارم: محاسبات آماری و قوانین انجمنی روی داده ها
بخش پنجم: آزمون معنی داری آماری
بخش پنجم: مدل سازی با استفاده از داده ها
بخش ششم: ترسیم داده ها و نتایج
بخش هفتم: ارزیابی مدل حاصل از داده ها
مشاهده بیشتر

نظرات

متوسط امتیازات

3.7
3.67 3 رای
150,000 تومان
3 نقد و بررسی

جزئیات امتیازات

5 ستاره
1
4 ستاره
0
3 ستاره
2
2 ستاره
0
1 ستاره
0

3 دیدگاه برای آموزش کامل داده کاوی با weka

  1. ستار

    نسبت به قیمت خیلی مطالب کاربردی و جالب مطرح شده بود. تشکر

  2. فرید

    سلام و خسته نباشید.عالی بود

  3. مریم(خریدار محصول)

    ممنون از اقای دکتر بخاطر این دوره عالی

دیدگاه خود را بنویسید