داده مصنوعی چیست:

هنگامی که مجموعه داده های واقعی از نظر کیفیت، تعداد یا تنوع ناکافی هستند، می توان از داده های مصنوعی برای آموزش مدل های هوش مصنوعی به جای داده های تاریخی واقعی استفاده کرد.داده های مصنوعی اغلب به جای داده های واقعی استفاده می شوند. به طور دقیق تر، داده هایی هستند که به طور مصنوعی توسط شبیه سازی ها یا الگوریتم های کامپیوتری برچسب گذاری شده و تولید شده اند. داشتن یک پایه داده قوی با دسترسی آسان و سریع به داده های قابل استفاده و با کیفیت بالا برای توسعه مدل ها ضروری است. در حالی که داده های اصلی در تمام تعاملات شما با افراد واقعی (مانند مشتریان، بیماران، کارمندان و غیره) جمع آوری می شود و از طریق تمام فرآیندهای داخلی شما، داده های مصنوعی توسط یک الگوریتم کامپیوتری تولید می شود. این الگوریتم کامپیوتری نقاط داده کاملاً جدید و مصنوعی تولید می کند.

انواع داده های مصنوعی:

سه نوع داده مصنوعی در چتر داده مصنوعی وجود دارد. این 3 نوع داده مصنوعی عبارتند از: داده های ساختگی، داده های مصنوعی تولید شده مبتنی بر قانون و داده های مصنوعی تولید شده توسط هوش مصنوعی (AI). ما به طور خلاصه توضیح می دهیم که 3 نوع مختلف داده مصنوعی چیست.

  • داده های ساختگی / داده های ساختگی

داده‌های ساختگی داده‌هایی هستند که به‌طور تصادفی تولید می‌شوند (مثلاً توسط یک تولیدکننده داده ساختگی). در نتیجه، ویژگی‌ها، روابط و الگوهای آماری که در داده‌های اصلی هستند، در داده‌های ساختگی تولید شده حفظ، ضبط و تکثیر نمی‌شوند. از این رو، نمایندگی داده های ساختگی / داده های ساختگی در مقایسه با داده های اصلی حداقل است.

  • داده های مصنوعی مبتنی بر قوانین

داده های مصنوعی تولید شده مبتنی بر قانون، داده های مصنوعی است که توسط مجموعه ای از قوانین از پیش تعریف شده تولید می شود. نمونه هایی از آن قوانین از پیش تعریف شده می تواند این باشد که می خواهید داده های مصنوعی با حداقل مقدار معین، حداکثر مقدار یا مقدار متوسط ​​داشته باشید. هر یک از ویژگی‌ها، روابط و الگوهای آماری که می‌خواهید در داده‌های مصنوعی تولید شده مبتنی بر قانون بازتولید شود، باید از قبل تعریف شده باشد. در نتیجه، کیفیت داده ها به خوبی مجموعه قوانین از پیش تعریف شده خواهد بود. این منجر به چالش هایی می شود که کیفیت داده بالا از اهمیت بالایی برخوردار است. اول، می توان تنها مجموعه محدودی از قوانین را برای ثبت در داده های مصنوعی تعریف کرد. علاوه بر این، تنظیم قوانین متعدد معمولاً منجر به همپوشانی و تضاد قوانین می شود. علاوه بر این، شما هرگز تمام قوانین مربوطه را به طور کامل پوشش نمی دهید. علاوه بر این، ممکن است قوانین مرتبطی وجود داشته باشد که شما حتی از آنها آگاه نباشید. و در نهایت این کار زمان و انرژی زیادی از شما می گیرد و در نتیجه یک راه حل غیر کارآمد ایجاد می شود.

  • داده های مصنوعی تولید شده توسط هوش مصنوعی (AI)

داده های مصنوعی تولید شده توسط هوش مصنوعی (AI) داده های مصنوعی تولید شده توسط یک الگوریتم هوش مصنوعی (AI) است. مدل هوش مصنوعی بر روی داده های اصلی آموزش داده شده است تا تمام ویژگی ها، روابط و الگوهای آماری را بیاموزد. پس از آن، این الگوریتم هوش مصنوعی قادر است نقاط داده کاملاً جدیدی تولید کند و آن نقاط داده جدید را به گونه‌ای مدل‌سازی کند که ویژگی‌ها، روابط و الگوهای آماری را از مجموعه داده اصلی بازتولید کند. این همان چیزی است که ما به آن داده های مصنوعی دوقلو می گوییم. یک داده مصنوعی دوقلو تولید شده توسط هوش مصنوعی را می توان به عنوان داده اصلی استفاده کرد. مدل هوش مصنوعی از داده‌های اصلی تقلید می‌کند تا دوقلوهای داده مصنوعی تولید کند که می‌توانند به عنوان داده‌های اصلی استفاده شوند. این قفل موارد استفاده مختلف را باز می کند که در آن داده های مصنوعی تولید شده توسط هوش مصنوعی می تواند به عنوان جایگزین برای استفاده از داده های اصلی (حساس) استفاده شود، مانند استفاده از داده های مصنوعی تولید شده توسط هوش مصنوعی به عنوان داده های آزمایشی، داده های آزمایشی یا برای تجزیه و تحلیل. در مقایسه با داده های مصنوعی تولید شده مبتنی بر قانون: به جای اینکه شما قوانین مربوطه را مطالعه و تعریف کنید، الگوریتم هوش مصنوعی این کار را به طور خودکار برای شما انجام می دهد. در اینجا نه تنها ویژگی ها، روابط و الگوهای آماری که شما از آنها آگاه هستید، پوشش داده می شود، همچنین ویژگی ها، روابط و الگوهای آماری که شما حتی از آنها اطلاع ندارید نیز پوشش داده می شود.

بسته به مورد استفاده شما، ترکیبی از داده های ساختگی / داده های ساختگی، داده های مصنوعی تولید شده مبتنی بر قانون یا داده های مصنوعی تولید شده توسط هوش مصنوعی (AI) توصیه می شود.

روش های تولید داده مصنوعی:

رویکردهای مورد استفاده برای ایجاد یک مجموعه داده مصنوعی به شرح زیر است:

  • بر اساس توزیع آماری (روش های سطح پایین)

استراتژی مورد استفاده در این مورد، گرفتن اعداد از توزیع یا نگاه کردن به توزیع‌های آماری واقعی به منظور ایجاد داده‌های نادرست است که قابل مقایسه به نظر می‌رسند. داده های واقعی ممکن است در برخی شرایط به طور کامل وجود نداشته باشد. یک دانشمند داده در صورتی که درک عمیقی از توزیع آماری در داده های واقعی داشته باشد، می تواند مجموعه داده ای حاوی نمونه تصادفی از هر توزیع ایجاد کند. توزیع نرمال، توزیع نمایی، توزیع خی دو، توزیع لگ نرمال و موارد دیگر تنها چند نمونه از توزیع های احتمال آماری هستند که می توانند برای انجام این کار مورد استفاده قرار گیرند. ایجاد چندین عکس از یک تصویر، به عنوان مثال، با تنظیم جهت، روشنایی، بزرگنمایی و موارد دیگر. گاهی اوقات، مجموعه داده های واقعی تنها با باقی مانده اطلاعات شخصی استفاده می شود. ناشناس سازی داده ها همین است و مجموعه ای از این داده ها نیز نباید به عنوان داده مصنوعی در نظر گرفته شوند. از جمله روش های سطح پایین برای تولید تصاویر شامل:

  • قرینه کردن
  • تغییر مقیاس
  • تغییر رنگ
  • جابجایی
  • نویز

 

  • با یادگیری عمیق (روش های سطح بالا)

در روش های یادگیری عمیق از شبکه های مولد- متخاصم برای تولید داده مصنوعی استفاده می شود. اولین شبکه که به شبکه مولد معروف است، وظیفه تولید داده های جعلی را بر عهده دارد. شبکه متخاصم، با مقایسه داده های مصنوعی ایجاد شده با داده های واقعی در تلاش برای شناسایی تقلبی بودن مجموعه داده کار می کند. لذا هنگامی که یک مجموعه داده جعلی را کشف می کند به مولد هشدار می دهد.این روش ها از رمزگذارها تشکیل شده‌اند که داده‌های اصلی را کوچک و فشرده می‌کنند و رمزگشاهایی که این داده‌ها را برای ارائه نمایشی از داده‌های واقعی موشکافی می‌کنند. یکسان نگه داشتن داده های ورودی و خروجی تا حد امکان هدف اصلی روش های یادگیری عمیق است.  دسته ای از داده های ارائه شده به متخاصم متعاقباً توسط مولد اصلاح می شود. در نتیجه، تمایزکننده با گذشت زمان در شناسایی مجموعه داده های جعلی بهتر می شود. این نوع مدل اغلب در بخش مالی برای کشف تقلب و همچنین در بخش مراقبت های بهداشتی برای تصویربرداری پزشکی استفاده می شود.

چالش ها و محدودیت های داده های مصنوعی:

اگرچه داده های مصنوعی دارای مزایای مختلفی است که می تواند در کاربردهای مختلف استفاده شود، اما محدودیت های خاصی نیز دارد:

  • قابلیت اطمینان داده ها: این دانش عمومی است که هر مدل یادگیری ماشینی/یادگیری عمیق فقط به اندازه داده هایی است که تغذیه می شود. کیفیت داده های مصنوعی در این زمینه به شدت با کیفیت داده های ورودی و مدل مورد استفاده برای تولید داده ها مرتبط است. بسیار مهم است که اطمینان حاصل شود که هیچ سوگیری در داده های منبع وجود ندارد، زیرا این موارد می توانند به وضوح در داده های مصنوعی منعکس شوند. علاوه بر این، قبل از انجام هر گونه پیش بینی، کیفیت داده ها باید تایید و تایید شود.
  • نیاز به دانش، تلاش و زمان دارد: در حالی که ایجاد داده های مصنوعی می تواند ساده تر و کم هزینه تر از ایجاد داده های واقعی باشد، اما به دانش، زمان و تلاش نیاز دارد.
  • تکرار ناهنجاری ها: کپی کامل داده های دنیای واقعی امکان پذیر نیست. داده های مصنوعی فقط می توانند آن را تقریبی کنند. بنابراین، برخی از نقاط پرت که در داده‌های واقعی وجود دارند، ممکن است تحت پوشش داده‌های مصنوعی نباشند. ناهنجاری های داده ها از داده های معمولی مهم تر هستند.
  • کنترل تولید و اطمینان از کیفیت: داده های مصنوعی برای تکرار داده های دنیای واقعی در نظر گرفته شده است. تأیید دستی داده ها ضروری می شود. بررسی صحت داده‌ها قبل از گنجاندن آن در مدل‌های یادگیری ماشین/یادگیری عمیق برای مجموعه داده‌های پیچیده که به‌طور خودکار با استفاده از الگوریتم‌ها ایجاد می‌شوند، ضروری است.
  • بازخورد کاربر: از آنجایی که داده های مصنوعی یک مفهوم جدید است، همه حاضر نیستند پیش بینی های انجام شده با آن را باور کنند. این نشان می دهد که برای افزایش مقبولیت کاربر، ابتدا لازم است دانش در مورد کاربرد داده های مصنوعی افزایش یابد.

داده نامتعادل(imbalance data) چیست؟

داده نامتعادل مربوط به مسائل طبقه بندی که در آنها داده های گروه‌ها به طور یکسان نباشد. برای مثال در یک مسئله دو کلاسه، 50 تا نمونه داشته باشید که 40 تا از این نمونه های مربوط به کلاس یک و 10 تا مربوط به کلاس دو باشد. در چنین حالتی شما یک دیتاست نامتوازن دارید که در آن تعداد نمونه‌های کلاس یک 4 برابر کلاس دو هست. وقتی شما یک داده ی نامتعادل داشته باشید و مدل همه داده‌ها را به کلاسی که بیشترین نمونه دارد دسته‌بندی کند دقت خیلی خوبی بدست می‌آید ولی توجه کنیم که اینجا دقت توزیع داده‌ها در کلاسها را نشان میدهد تا اینکه مدل را ارزیابی کند. لذا برای حل این مشکل در این دوره 3 روش مهم برای متوازن سازی کلاس ها بحث و پیاده سازی می شود.

هدف از این دوره آموزشی:

هدف از این دوره آموزشی تولید داده مصنوعی و متوازن سازی کلاس ها با روش های سطح پایین و سطح بالا با زبان برنامه نویسی پایتون است. ما از هوش مصنوعی برای مدل‌سازی داده‌های مصنوعی تولید شده استفاده می‌کنیم به گونه‌ای که روابط، الگوها و آمار را در سطح مجموعه داده حفظ کنیم. برای اینکه خواننده بتواند مطالب را بخوبی درک کند، ابتدا مروری کامل روی پایتون و یادگیری ماشین انجام می شود. در ابتدا تئوری کامل روش های سطح پایین و سطح بالا بحث و بررسی می شود و بعد روی دیتاست پژشکی عملیات تولید داده مصنوعی براساس روش های سطح بالا و سطج پایین انجام می شود. جزئیات این دوره آموزشی در زیر لیست شده است. بدون شک یکی از بهترین دوره های داده افزایی با پایتون است که با زبان فارسی و روان توضیح داده شده است. امیدواریم که این آموزش از “بیگ لرن” نیز مثل سایر آموزش ها مورد تایید و رضایت شما مخاطبان گرامی قرار گیرد.

بخش اول: مرور کامل روی پایتون
بخش دوم: مرور یادگیری ماشین و یادگیری عمیق
بخش سوم: روش مبتنی بر پردازش تصویر برای داده افزایی
بخش چهارم: روش مبتنی بر شبکه عمیق برای داده افزایی
بخش پنجم: متوزان سازی کلاس ها (Data balancing)
مشاهده بیشتر

نظرات

متوسط امتیازات

5
5.00 1 رای
190,000 تومان
1 نقد و بررسی

جزئیات امتیازات

5 ستاره
1
4 ستاره
0
3 ستاره
0
2 ستاره
0
1 ستاره
0

1 دیدگاه برای تولید داده مصنوعی (داده افزایی) و متوازن سازی داده ها

  1. بهنام

    دوره خیلی عالی بود. تدریس آقای دکتر عالی بود

دیدگاه خود را بنویسید