
داده مصنوعی چیست:
هنگامی که مجموعه داده های واقعی از نظر کیفیت، تعداد یا تنوع ناکافی هستند، می توان از داده های مصنوعی برای آموزش مدل های هوش مصنوعی به جای داده های تاریخی واقعی استفاده کرد.داده های مصنوعی اغلب به جای داده های واقعی استفاده می شوند. به طور دقیق تر، داده هایی هستند که به طور مصنوعی توسط شبیه سازی ها یا الگوریتم های کامپیوتری برچسب گذاری شده و تولید شده اند. داشتن یک پایه داده قوی با دسترسی آسان و سریع به داده های قابل استفاده و با کیفیت بالا برای توسعه مدل ها ضروری است. در حالی که داده های اصلی در تمام تعاملات شما با افراد واقعی (مانند مشتریان، بیماران، کارمندان و غیره) جمع آوری می شود و از طریق تمام فرآیندهای داخلی شما، داده های مصنوعی توسط یک الگوریتم کامپیوتری تولید می شود. این الگوریتم کامپیوتری نقاط داده کاملاً جدید و مصنوعی تولید می کند.
انواع داده های مصنوعی:
روش های تولید داده مصنوعی:
رویکردهای مورد استفاده برای ایجاد یک مجموعه داده مصنوعی به شرح زیر است:
-
بر اساس توزیع آماری (روش های سطح پایین)
استراتژی مورد استفاده در این مورد، گرفتن اعداد از توزیع یا نگاه کردن به توزیعهای آماری واقعی به منظور ایجاد دادههای نادرست است که قابل مقایسه به نظر میرسند. داده های واقعی ممکن است در برخی شرایط به طور کامل وجود نداشته باشد. یک دانشمند داده در صورتی که درک عمیقی از توزیع آماری در داده های واقعی داشته باشد، می تواند مجموعه داده ای حاوی نمونه تصادفی از هر توزیع ایجاد کند. توزیع نرمال، توزیع نمایی، توزیع خی دو، توزیع لگ نرمال و موارد دیگر تنها چند نمونه از توزیع های احتمال آماری هستند که می توانند برای انجام این کار مورد استفاده قرار گیرند. ایجاد چندین عکس از یک تصویر، به عنوان مثال، با تنظیم جهت، روشنایی، بزرگنمایی و موارد دیگر. گاهی اوقات، مجموعه داده های واقعی تنها با باقی مانده اطلاعات شخصی استفاده می شود. ناشناس سازی داده ها همین است و مجموعه ای از این داده ها نیز نباید به عنوان داده مصنوعی در نظر گرفته شوند. از جمله روش های سطح پایین برای تولید تصاویر شامل:
- قرینه کردن
- تغییر مقیاس
- تغییر رنگ
- جابجایی
- نویز
- …
-
با یادگیری عمیق (روش های سطح بالا)
در روش های یادگیری عمیق از شبکه های مولد- متخاصم برای تولید داده مصنوعی استفاده می شود. اولین شبکه که به شبکه مولد معروف است، وظیفه تولید داده های جعلی را بر عهده دارد. شبکه متخاصم، با مقایسه داده های مصنوعی ایجاد شده با داده های واقعی در تلاش برای شناسایی تقلبی بودن مجموعه داده کار می کند. لذا هنگامی که یک مجموعه داده جعلی را کشف می کند به مولد هشدار می دهد.این روش ها از رمزگذارها تشکیل شدهاند که دادههای اصلی را کوچک و فشرده میکنند و رمزگشاهایی که این دادهها را برای ارائه نمایشی از دادههای واقعی موشکافی میکنند. یکسان نگه داشتن داده های ورودی و خروجی تا حد امکان هدف اصلی روش های یادگیری عمیق است. دسته ای از داده های ارائه شده به متخاصم متعاقباً توسط مولد اصلاح می شود. در نتیجه، تمایزکننده با گذشت زمان در شناسایی مجموعه داده های جعلی بهتر می شود. این نوع مدل اغلب در بخش مالی برای کشف تقلب و همچنین در بخش مراقبت های بهداشتی برای تصویربرداری پزشکی استفاده می شود.
چالش ها و محدودیت های داده های مصنوعی:
اگرچه داده های مصنوعی دارای مزایای مختلفی است که می تواند در کاربردهای مختلف استفاده شود، اما محدودیت های خاصی نیز دارد:
- قابلیت اطمینان داده ها: این دانش عمومی است که هر مدل یادگیری ماشینی/یادگیری عمیق فقط به اندازه داده هایی است که تغذیه می شود. کیفیت داده های مصنوعی در این زمینه به شدت با کیفیت داده های ورودی و مدل مورد استفاده برای تولید داده ها مرتبط است. بسیار مهم است که اطمینان حاصل شود که هیچ سوگیری در داده های منبع وجود ندارد، زیرا این موارد می توانند به وضوح در داده های مصنوعی منعکس شوند. علاوه بر این، قبل از انجام هر گونه پیش بینی، کیفیت داده ها باید تایید و تایید شود.
- نیاز به دانش، تلاش و زمان دارد: در حالی که ایجاد داده های مصنوعی می تواند ساده تر و کم هزینه تر از ایجاد داده های واقعی باشد، اما به دانش، زمان و تلاش نیاز دارد.
- تکرار ناهنجاری ها: کپی کامل داده های دنیای واقعی امکان پذیر نیست. داده های مصنوعی فقط می توانند آن را تقریبی کنند. بنابراین، برخی از نقاط پرت که در دادههای واقعی وجود دارند، ممکن است تحت پوشش دادههای مصنوعی نباشند. ناهنجاری های داده ها از داده های معمولی مهم تر هستند.
- کنترل تولید و اطمینان از کیفیت: داده های مصنوعی برای تکرار داده های دنیای واقعی در نظر گرفته شده است. تأیید دستی داده ها ضروری می شود. بررسی صحت دادهها قبل از گنجاندن آن در مدلهای یادگیری ماشین/یادگیری عمیق برای مجموعه دادههای پیچیده که بهطور خودکار با استفاده از الگوریتمها ایجاد میشوند، ضروری است.
- بازخورد کاربر: از آنجایی که داده های مصنوعی یک مفهوم جدید است، همه حاضر نیستند پیش بینی های انجام شده با آن را باور کنند. این نشان می دهد که برای افزایش مقبولیت کاربر، ابتدا لازم است دانش در مورد کاربرد داده های مصنوعی افزایش یابد.
بخش اول: مرور کامل روی پایتون
بخش دوم: مرور یادگیری ماشین و یادگیری عمیق
بخش سوم: روش مبتنی بر پردازش تصویر برای داده افزایی
بخش چهارم: روش مبتنی بر شبکه عمیق برای داده افزایی
نظرات
1 دیدگاه برای تولید تصاویر مصنوعی (داده افزایی) با هوش مصنوعی
برای فرستادن دیدگاه، باید وارد شده باشید.
بهنام
دوره خیلی عالی بود. تدریس آقای دکتر عالی بود