شرح تصویر (Image Captioning):
تصاویر بخش مهمی از اخبار و مطالب در دنیای مجازی به شمار می آیند. استخراج اطلاعات مفید از تصاویر کاربردهای زیادی دارد. شرح تصویر یا Image Captioning یک تصویر اطلاعات زیادی در مورد تصاویر به ما میدهد و باعث میشود که تصمیم گیری های مختلف و مفیدی را براساس متون استخراج شده از تصاویر بدست آوریم. عنوانبندی تصویر زیرشاخهای از بینایی رایانه است که بر تولید توصیفات زبان طبیعی از محتوای بصری، مانند تصاویر و ویدئوها، تمرکز میکند. این حوزه قدرت الگوریتمهای بینایی کامپیوتری را که میتوانند ویژگیها را از دادههای بصری شناسایی و استخراج کنند با تکنیکهای پردازش زبان طبیعی ترکیب میکند که میتواند توصیفات متنی انسانمانند را ایجاد کند. درک تصویر یا image captioning، به طور خودکار توصیفات زبان گفتاری با توجه به مطالب مشاهده شده در تصویر و بخش مهمی از درک صحنه می باشد، که ترکیبی از دانش بصری کامپیوتری و پردازش زبان گفتاری است. CNNها برای استخراج ویژگیها از تصاویر استفاده میشوند، درحالیکه RNNها برای تولید توصیفات متنی مبتنی بر این ویژگیها به کار میروند. این دو مدل با یکدیگر برای ایجاد توضیحات دقیق همکاری میکنند. تشریح تصویر در زمینههای مختلفی مانند کمک به افراد کمبینا، بهبود تجربه خرید آنلاین، افزایش دسترسی به محتوای رسانههای اجتماعی، کمک به تصمیمگیریهای پزشکی و بهبود امنیت عمومی کاربرد دارد. فیس بوک به عنوان یکی از شناخته شده ترین شبکههای اجتماعی وارد عمل شده و با تکیه بر تازه ترین دستاوردهای هوش مصنوعی این امکان چشمگیر را برای نابینایان فراهم آورده تا با تبدیل تصویر به متن و بعد به صوت، مشکل نابینایان را حل کنند. سیستم گوگل پس از آنکه با استفاده از کپشن های نوشته شده توسط انسان آموزش دیده توانسته به شرح تصاویری بپردازد که قبلاً ندیده است. در شکل زیر یک تصویر توسط کلماتی مرتبط با مفهوم تصویر توصیف شده است.
کاربردهای شرح تصویر:
شرح تصاویر در انواع مختلف برنامه ها استفاده می شود. مثلا:
- می توان از آن برای توصیف تصاویر به افرادی که نابینا هستند یا بینایی کم دارند و برای توصیف صحنه به تکیه بر اصوات و متون استفاده می شود ، استفاده کرد.
- در توسعه وب، این کار صحیح است که توضیحی را برای هر تصویری که در صفحه ظاهر می شود ارائه دهید تا تصویر بر خلاف عکس دیده شده خوانده شود یا شنیده شود. این باعث می شود محتوای وب در دسترس باشد.
- می توان از آن برای توصیف فیلم در زمان واقعی استفاده کرد و دوبله.
- اتومبیل های خود رانندگی، رانندگی اتوماتیک یکی از بزرگترین چالش هاست و اگر بتوانیم صحنه را در اطراف خودرو به درستی شرح دهیم، می تواند به سیستم خود رانندگی دامن بزند.
- کمک به نابینایان، ما می توانیم محصولی برای نابینایان ایجاد کنیم که آنها را راهنمایی کند که بدون کمک هیچ کس دیگری در جاده ها سفر کنند. ما می توانیم با تبدیل صحنه به متن و سپس متن به صدا، این کار را انجام دهیم. هر دو برنامه کاربردی معروف Deep Learning هستند.
- دوربین های مداربسته امروزه در همه جا وجود دارند ، اما در کنار مشاهده جهان ، اگر ما همچنین بتوانیم زیرنویس های مربوطه را تولید کنیم، می توانیم به محض اینکه برخی فعالیت های مخرب در جایی انجام می شود ، آلارم را بالا ببریم. این احتمالاً می تواند به کاهش برخی از جرائم و / یا حوادث کمک کند.
-
شرح خودکار تصاویر می تواند به جستجوی تصویر Google به همان اندازه جستجوی Google کمک کند ، زیرا در این صورت ابتدا می توانید هر تصویر را به یک عنوان تبدیل کنید و سپس جستجو را بر اساس عنوان انجام دهید.
شرح تصاویر با هوش مصنوعی:
یادگیری عمیق در هوش مصنوعی از طریق شبکههای عصبی مصنوعی که شباهت زیادی به کارکرد مغز دارند، انجام میگیرد و تحلیل اطلاعات در این روش شباهات زیادی به روش مغز انسانها دارد. سیستمهای یادگیری عمیق نیازی به دستورات و راهنمایی برنامه نویسهای انسان ندارند. شرح تصاویر به فرآیند تولید توضیحات متنی از یک تصویر – مبتنی بر اشیاء و اعمال موجود در تصویر اشاره دارد. درست قبل از توسعه اخیر شبکه های عصبی عمیق ، این مشکل حتی توسط پیشرفته ترین محققان Computer Vision قابل تصور نبود. اما با ظهور Deep Learning در صورت داشتن مجموعه داده های مورد نیاز ، می توان این مشکل را به راحتی حل کرد. برای درک محتوای تصویر، نیاز به پردازش تصویر و پردازش زبان طبیعی داریم، هر دو روش از دید رایانه ای لازم است تا درک تصویر به کلمات به ترتیب درست تبدیل شود. تشریح تصویر به مدلهای یادگیری عمیق پیشرفته، مانند شبکههای عصبی کانولوشنی (CNN) و شبکههای عصبی تکرارشونده (RNN)، نیاز دارد. این شبکههای عصبی میتوانند یاد بگیرند که ویژگیهای معنادار را از دادههای بصری استخراج کنند و توصیفهای دقیق و منسجمی از زبان طبیعی ایجاد کنند. این مدل یک شبکه CNN است که روی ناحیه تصویر اعمال میشود و پس از آن یک RNN قرار میگیرد که از ورودی شبکه قبلی استفاده میکند. این شبکه RNN در نهایت میتواند توضیحات جدیدی از نواحی تصویر ایجاد کند. در نتیجه دو مدل با هم ترکیب میشوند که برای برچسب گذاری تصاویر با جملات استفاده میشود.
هدف از این دوره آموزشی:
هدف این دوره استفاده از معماری CNN-RNN برای ایجاد یک مدل خودکار شرح تصویر است که از یک تصویر به عنوان ورودی استفاده می کند و دنباله ای از متن را که توصیف تصویر است، تولید می کند. یک مدل توصیف به دو مؤلفه اصلی، CNN و RNN متکی است. CNN ها در حفظ اطلاعات و تصاویر فضایی، و RNN با هر نوع داده متوالی مانند تولید دنباله ای از کلمات به خوبی کار می کند. بنابراین با ادغام این دو، می توان مدلی را تهیه کرد که بتواند الگوها و تصاویر را پیدا کند، و سپس از آن اطلاعات برای تولید توضیحی در مورد آن تصاویر کمک بگیریم. ما برای ساختن و آموزش یک مدل شرح تصویر از ابتدا، کل چارچوب را پیاده سازی کرده ایم و در نهایت مدل را ارزیابی کرده ایم. ما از مجموعه داده Flilckr8K استفاده می کنیم. این داده شامل 8000 تصویر است که هر یک با پنج کپشن مختلف توصیف شده اند که توضیحات روشنی از تصویر را ارائه می دهند. مجموعه داده شامل توضیحات مختلفی برای هر تصویر است. هدف از این پروژه عملی توصیف تصاویر با یادگیری عمیق در پایتون می باشد. در این پروژه با فیلم آموزشی کامل روند شرح تصویر توضیح دادخ می شود و مجموعه های داده ای معرفی می شوند و عملیات آموزش و تست شبکه انجام می شود. خروجی های حاصل از شرح تصاویر روی هر یک از شبکه ها نشان داده می شود. پروژه قابلیت آموزش روی داده های دلخواه خودتان را دارد و می توانید عملیات شرح تصویر رابرای دیتاست خودتون با آن انجام دهید. ابتدا مرور کاملی روی پایتون و یادگیری ماشین و یادگیری عمیق انجام می شود. سپس تئوری شرح تصویر و چالش ها بحث و بررسی می شوند. در نهایت، پیاده سازی یک سیستم کامل شرح تصویر با یادگیری عمیق انجام می شود. بدون شک یکی از بهترین پروژه های عمیق برای توصیف تصاویر می باشد که با زبان فارسی و ساده و روان توضیح داده شده است. امیدواریم که این آموزش از “بیگ لرن” هم مثل سایر آموزش ها مورد تایید و رضایت شما مخاطبان گرامی قرار گیرد.
بخش اول: مرور کامل برنامه نویسی پایتون
بخش دوم: مرور یادگیری ماشین و یادگیری عمیق
بخش سوم: شرح تصویر با هوش مصنوعی
نظرات
1 دیدگاه برای آموزش شرح تصویر (تبدیل تصویر به متن) با هوش مصنوعی
برای فرستادن دیدگاه، باید وارد شده باشید.
سیما
یکی از بهترین و کامل ترین دوره هایی بود که دیدم.
مدرس این دوره به شدت تسلط داره روی بحث