داده کاوی چیست؟
با توجه به حجم عظیم داده هایی که این روزها ما را احاطه کرده است، کشف دانش با ارزش از داده ها یکی از مهمترین دغدغههای هر کسب و کار میباشد. کسب و کارهای موفق در عصر دیجیتال آنهایی هستند که با کشف دانش با ارزش از حجم بسیار زیاد داده ها بتوانند به بینشی دست یابند که از آن برای تصمیم گیری های سازمانی بهره جویند. کشف دانش از داده ها و دستیابی به الگوهای پنهان میان داده ها مستلزم به کارگیری فرآیندها، تکنیکها و ابزار داده کاوی است. از این رو، این روزها موضوعات مرتبط با داده کاوی و ابزار آن با اقبال بسیار خوبی در میان جامعه علمی و صنعتی کشور مواجه شده است. کشف دانش درون دادهها آن هم در عصر اطلاعات یکی از هیجانانگیزترین و کلیدیترین مفاهیمی است که روز به روز اهمیت بیشتری میگیرد. اصولاً یک شرکت با دادههای زیادی سروکار دارد. اکثر این دادهها از رفتار مشتریان بدست میآید و تنوع و حجم آن نیز تا حد زیادی به مقیاس کسبوکار وابسته است. اطلاعات کلی مشتریان (سن، جنسیت، تحصیلات، محل زندگی و …)، دفعات خرید، میزان خرید، دادههای شکایتها و تماس با امور مشتریان همه از این قبیل دادهها هستند. معمولاً همهی شرکتها انبوهی از این دادهها را ثبت و ضبط میکنند اما در اختیار داشتن این دادهها به تنهایی هیچ کمکی به کسبوکار نخواهد کرد. هنر اصلی این است که به کمک تحلیل این دادهها که به آن دادهکاوی یا دیتا ماینینگ (Data Mining) میگویند، الگوهای رفتاری مشتریان را پیدا کرد. در حقیقت این دادهها حکم یک معدن طلا را دارند که باید از طریق دادهکاوی به طلای آن دست پیدا کرد.
چرا به سراغ دادهکاوی رفتهایم؟
چون
- حجم دادهها (Data) با سرعت زیادی در حال رشد است.
- اطلاعات (Information) ما در مورد این دادهها کم است.
- دانش (Knowledge) ما نسبت به این اطلاعات صفر است.
جالب اینجاست که مشکل تمام اینها یک کلمه است و آن دادهکاوی است.
از طرف دیگرتوسعه تکنولوژیهای ذخیره و بازیابی اطلاعات امکانی است برای محقق شدن دادهکاوی:
- افزایش روزافزون حجم اطلاعات ذخیره شده
- تنوع بسیار زیاد در اطلاعات موجود
- بانکهای اطلاعاتی
- فایلهای چندرسانهای (تصاویر متحرک، فایلهای صوتی)
- اطلاعات متنی و فاقد ساختار
آرشیوهای اطلاعاتی، به دلیل حجم بسیار زیاد، غالباً به مقبرههای اطلاعات تبدیل میشوند. علیرغم هزینههای سنگین در بخش تکنولوژی اطلاعات، بسیاری از تصمیمها همچنان در فقر اطلاعاتی اتخاذ میگردند. از قابلیتهای بالقوه اطلاعات ذخیره شده استفاده نمیشود. نیاز به تبدیل اطلاعات به دانش در بسیاری زمینهها آشکار گردیده است.
فنون داده کاوی ؟
برخی از فنون رایج بکار گرفته شده تحت عنوان دادهکاوی عبارتند از:
- ابزارهای پرس و جو
- فنون آماری
- مصورسازی
- پردازش تحلیلی پیوسته
- یادگیری مبتنی بر مورد
- درختان تصمیمگیری
- قوانین وابستگی
- شبکههای عصبی
- الگوریتم ژنتیکی
کاربردهای داده کاوی ؟
دادهکاوی یک رشته جدید با کاربردهای وسیع و گوناگون است که به عنوان ده علم برتر که منجر به ایجاد تحول در عصر تکنولوژی میشود و در تمام زمینهها کاربرد دارد، معرفی میشود. اصولاً هر جایی که داده وجود داشته باشد دادهکاوی نیز معنا مییابد، از قبیل: امور تجاری و مالی، امور پزشکی، زیست پزشکی، تجزیه و تحلیلهای مربوط به DNA، کشف ناهنجاریها و اسناد جعلی، ارتباطات از راه دور، ورزش و سرگرمی، کتابداری و اطلاعرسانی. امروزه عملیات دادهکاوی به صورت گسترده توسط تمامی شرکتهایی که مشتریان در کانون توجه آنها قرار دارند، استفاده میشود، از جمله: فروشگاهها، شرکتهای مالی، ارتباطاتی، بازاریابی و غیره. استفاده از دادهکاوی به این شرکتها کمک میکند تا ارتباط عوامل داخلی از جمله: قیمت، محل قرارگیری محصولات و مهارت کارمندان را با عوامل خارجی از جمله: وضعیت اقتصادی، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند. دادهکاوی پیشبینی وضع آینده بازار، گرایش مشتریان و شناخت سلیقههای عمومی آنها را برای شرکتها ممکن میسازد.
ابزارهای مطرح در داده کاوی ؟
دادهکاوی یک رشته جدید با کاربردهای وسیع و گوناگون است که به عنوان ده علم برتر که منجر به ایجاد تحول در عصر تکنولوژی میشود و در تمام زمینهها کاربرد دارد، معرفی میشود. اصولاً هر جایی که داده وجود داشته باشد دادهکاوی نیز معنا مییابد، از قبیل: امور تجاری و مالی، امور پزشکی، زیست پزشکی، تجزیه و تحلیلهای مربوط به DNA، کشف ناهنجاریها و اسناد جعلی، ارتباطات از راه دور، ورزش و سرگرمی، کتابداری و اطلاعرسانی. امروزه عملیات دادهکاوی به صورت گسترده توسط تمامی شرکتهایی که مشتریان در کانون توجه آنها قرار دارند، استفاده میشود، از جمله: فروشگاهها، شرکتهای مالی، ارتباطاتی، بازاریابی و غیره. استفاده از دادهکاوی به این شرکتها کمک میکند تا ارتباط عوامل داخلی از جمله: قیمت، محل قرارگیری محصولات و مهارت کارمندان را با عوامل خارجی از جمله: وضعیت اقتصادی، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند. دادهکاوی پیشبینی وضع آینده بازار، گرایش مشتریان و شناخت سلیقههای عمومی آنها را برای شرکتها ممکن میسازد.
ابزارهای مطرح در داده کاوی:
از ابزارهای مطرح در داده کاوی میتوان به نرم افزارهای رپیدماینر ، وکا و زبانهای برنامه نویسی همچون R و پایتون اشاره کرد. در این میان، زبان برنامه نویسی پایتون یک زبان چند منظوره است که طراحی آن با هدف سهولت در خواندن و نوشتن این زبان انجام گرفته است.
محبوبیت زبان پایتون به دلایل زیر روز به روز در حال افزایش است:
-
پایتون انجمنی فعال و پویا دارد که اعضای آن با قدرت از این زبان برنامه نویسی حمایت می کنند.
-
پایتون حامیان مالی قدری دارد.
-
راهکارهای پردازش ابری و بیگ دیتا در پایتون کاربرد زیادی دارد. علاوه برآن، پایتون این قابلیت را دارد که برای سیستمهای هوش مصنوعی و یادگیری ماشین و سایر تکنولوژیهای مدرن دیگر مورد استفاده قرار گیرد، در نتیجه پایتون به یکیاز پرکاربردترین زبانهای مورد استفاده در علم داده تبدیل شده است.
-
پایتون کتابخانه های گسترده و بسیار جالبی دارد.
-
هر کسی که تا بهحال از زبان برنامه نویسی پایتون استفاده کرده باشد، این نظر را تأیید میکند که نرم افزار پایتون سریع، قابل اعتماد و مفید است و میتوان از آن در هر محیطی استفاده کرد بدون آن که از میزان کارایی آن ذرهای کم شود.
-
یادگیری و کاربرد پایتون برای مبتدیان بسیارساده است.
داده کاوی و علوم داده به سبب عصر انفجار اطلاعات کنونی بسیار ضروری است. امروزه دولت ها و سازمان های بزرگ برای افزایش راندمان و هوشمند سازی کارایی خود نیز به اهمیت آن پی برده اند. به مجموعهای از روشهای قابل اعمال بر پایگاه دادههای بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان دادهها، دادهکاوی گفته میشود. روشهای دادهکاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میانرشتهای دادهکاوی، پیرامون ابزارها، متدولوژیها و تئوریهایی است که برای آشکارسازی الگوهای موجود در دادهها مورد استفاده قرار میگیرند و گامی اساسی در راستای کشف دانش محسوب میشود. دلایل گوناگونی پیرامون چرایی مبدل شدن دادهکاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شدهاند.
فرآیند دادهکاوی؟
با رشد و افزایش توجهات به دادهکاوی، پرسش «چرا دادهکاوی؟» همواره مطرح میشود. در پاسخ به این پرسش باید گفت، دادهکاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینهای جوان و آیندهدار برای نسل کنونی محسوب میشود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع دادهها، نیاز حتمی به تبدیل چنین دادههایی به اطلاعات و دانش وجود دارد. بنابراین، بشر از اطلاعات و دانش برای گستره وسیعی از کاربردها، از تحلیل بازار گرفته تا تشخیص بیماریها، کشف کلاهبرداری و پیشبینی قیمت سهام استفاده میکند. در مجموع باید گفت، ضربالمثل انگلیسی «نیاز، مادر همه ابداعات بشر است»، پاسخی کوتاه و گویا به پرسش مطرح شده است. در ادامه، برخی از استفادههای دادهکاوی مورد بررسی قرار گرفتهاند. فرآیند دادهکاوی شامل چندین گام است. این فرآیند از دادههای خام آغاز میشود و تا شکلدهی دانش جدید ادامه دارد. فرآیند بازگشتی دادهکاوی شامل گامهای زیر است:
- «پاکسازی داده» (Data Cleaning)
- «یکپارچهسازی داده» (Data Integration)
- «انتخاب داده» (Data Selection)
- «تبدیل داده» (Data Transformation)
- «کاوش داده» (Data Mining)
- «ارزیابی الگو» (Pattern Evaluation)
- «ارائه دانش» (Knowledge Representation)
هدف از این دوره آموزشی ؟
هدف از این دوره، آموزش کامل داده کاوی با پایتون است تا ضمن آشنایی با کتابخانه های قدرتمند پایتون، بتوان کارهای مختلف داده کاوی و علم داده را نیز انجام داد. این آموزش با زبانی ساده و روان و قابل فهم تمامی آنچه که برای داده کاوی ضروری است به شما یاد می دهد. همچنین این آموزش به صورت پروژه محور عملیات داده کاوی را روی یک دیتاست های مشهور انجام می دهد. در ابتدا تئوری لازم و کاربردی که در هیچ آموزشی از داده کاوی و علم داده گفته نشده، مورد بحث و تجزیه و تحلیل قرار می گیرد و تمامی نکات مفیدی که می تواند دانش داده کاوی و علم داده شما را افزایش دهد، گفته می شود. نحوه شروع به کار با یک دیتاست دلخواه را به شما آموزش می دهد و مرحله به مرحله مراحل داده کاوی را روی آن دیتاست آموزش می دهد. لذا شما قادر خواهید بود برای هر دیتاست دلخواهی مراحل ضروری را طی کرده و بتوانید داده را بخوبی بشناسید و ابزارها و توابع مختلف متناسب با آن داده را استفاده کنید. بدون شک یکی از بهترین دوره های داده کاوی با پایتون می باشد که با زبان فارسی، ساده و روان توضیح داده شده است. امیدواریم که این آموزش از “بیگ لرن” هم مثل سایر آموزش ها مورد تایید و رضایت شما مخاطبان گرامی قرار گیرد.
بخش اول: مرور کامل روی پایتون
بخش دوم: تئوری داده کاوی و اصول اساسی آن
بخش سوم: اصول داده کاوی در Numpy
بخش چهارم: اصول داده کاوی در Pandas
بخش پنجم: اصول داده کاوی در Scipy
بخش ششم: اصول داده کاوی در Matplotlib
بخش هفتم: اصول داده کاوی در Scikit-learn
بخش هشتم: اصول داده کاوی در NLTK
بخش نهم: داده کاوی یک سیستم برای طبقه بندی میوه ها
بخش دهم: پیش پردازش داده و یادگیری ماشینی
بخش یازدهم: یادگیری عمیق برای داده کاوی
بخش دازدهم: مثال های عملی داده کاوی روی انواع داده ها
نظرات
3 دیدگاه برای آموزش داده کاوی با پایتون
برای فرستادن دیدگاه، باید وارد شده باشید.
راسان
ارائه مدرس، کیفیت صدا و تصویر جز آموزش های خیلی خوب بود.
هوشنگ
من دوره رو خریدم به نظرم آموزش مختصر و خیلی مفیدی بود. تشکر از آقای دکتر بابت این آموزش
شیراز فاطمه عسکری(خریدار محصول)
با سلام من این دوره خریدم و دانلود کردم اما بخش اول ان فقط نصب و راه اندازی هست
ایا فایل های این دوره مواردی که در سایت مطرح کرده کامل دارد؟
biglearn
با سلام. بله موارد مطرح شده به صورت پروژه محور کدنویسی شده است