
توصیف تصاویر ؟
تصاویر همواره بخش مهمی از اخبار و مطالب در دنیای مجازی به شمار می آیند. استخراج اطلاعات مفید از تصاویر همواره کاربردهای زیادی در زمینههای مختلف دارد. توصیف و تشریح یک تصویر اطلاعات زیادی در مورد تصاویر به ما میدهد و باعث میشود که بتوانیم تصمیمگیریهای مختلف و مفیدی را براساس این متون استخراج شده از تصاویر بدست آوریم. مهندسان فیس بوک به عنوان یکی از شناخته شده ترین شبکههای اجتماعی وارد عمل شده و با تکیه بر تازهترین دستاوردهای هوش مصنوعی این امکان چشمگیر را برای نابینایان فراهم آوردهاند تا با تبدیل تصویر به متن و بعد به صوت، مشکل نابینایان را حل کنند. سامانه ی گوگل پس از آنکه با استفاده از کپشن های نوشته شده توسط انسان آموزش دیده توانسته است به شرح تصاویری بپردازد که قبلاً ندیده بوده است. محققان در این خصوص اظهار داشته اند: «جالب اینجاست که مدل ما می تواند در مواجهه با تصاویر کاملاً جدید، توانایی تولید کپشنهایی دقیق و تازه برای آنها را در خود پدید بیاورد. این موضوع نشان دهنده ی درک عمیق تری از سوژه ها و بافتار تصاویر است. هوش مصنوعی این ابزار قادر است که به توصیف تصویر پرداخته و ارتباط آن با موضوعات مختلف را بیان کند. این ابزار نشان دهنده نحوه کار هوش مصنوعی و الگوریتم های یادگیری ماشینی گوگل در درک تصاویر است. این ابزار جزیی از محصولات Cloud Vision گوگل می باشد. این فناوری مبتنی بر شبکه ای شبیه یک شبکه عصبی گسترده است که در آن میلیاردها فاکتور مختلف و میلیونها مثال گوناگون لحاظ شده است. چنین شبکه عصبی با الگوبرداری از مغز انسان ارایه شده است. این سطح از شبکه گسترده و پیچیده نقش مهمی در توسعه فناوری محاسبات مدرن دارد. ا توجه به رشد تصاوير ديجيتال در دنياي امروز، نياز به روش هایي كارا براي بازیابی تصاوير احساس مي شود. به دليل اهميت بالاي اين روش در فهم تصاوير ديجيتال، امروزه روش هاي مختلفي براي توصیف تصاوير پيشنهاد داده شده اند. در شکل زیر یک تصویر توسط کلماتی مرتبط با مفهوم تصویر توصیف شده است.
کاربردهای توصیف تصاویر ؟
شرح تصاویر در انواع مختلف برنامه ها استفاده می شود. مثلا:
- می توان از آن برای توصیف تصاویر به افرادی که نابینا هستند یا بینایی کم دارند و برای توصیف صحنه به تکیه بر اصوات و متون استفاده می شود ، استفاده کرد.
- در توسعه وب، این کار صحیح است که توضیحی را برای هر تصویری که در صفحه ظاهر می شود ارائه دهید تا تصویر بر خلاف عکس دیده شده خوانده شود یا شنیده شود. این باعث می شود محتوای وب در دسترس باشد.
- می توان از آن برای توصیف فیلم در زمان واقعی استفاده کرد و دوبله.
- اتومبیل های خود رانندگی، رانندگی اتوماتیک یکی از بزرگترین چالش هاست و اگر بتوانیم صحنه را در اطراف خودرو به درستی شرح دهیم، می تواند به سیستم خود رانندگی دامن بزند.
- کمک به نابینایان، ما می توانیم محصولی برای نابینایان ایجاد کنیم که آنها را راهنمایی کند که بدون کمک هیچ کس دیگری در جاده ها سفر کنند. ما می توانیم با تبدیل صحنه به متن و سپس متن به صدا، این کار را انجام دهیم. هر دو برنامه کاربردی معروف Deep Learning هستند.
- دوربین های مداربسته امروزه در همه جا وجود دارند ، اما در کنار مشاهده جهان ، اگر ما همچنین بتوانیم زیرنویس های مربوطه را تولید کنیم، می توانیم به محض اینکه برخی فعالیت های مخرب در جایی انجام می شود ، آلارم را بالا ببریم. این احتمالاً می تواند به کاهش برخی از جرائم و / یا حوادث کمک کند.
-
شرح خودکار تصاویر می تواند به جستجوی تصویر Google به همان اندازه جستجوی Google کمک کند ، زیرا در این صورت ابتدا می توانید هر تصویر را به یک عنوان تبدیل کنید و سپس جستجو را بر اساس عنوان انجام دهید.
توصیف تصاویر با یادگیری عمیق ؟
یادگیری عمیق از طریق شبکههای عصبی مصنوعی که شباهت زیادی به کارکرد مغز دارند، انجام میگیرد و تحلیل اطلاعات در این روش شباهات زیادی به روش مغز انسانها دارد. سیستمهای یادگیری عمیق نیازی به دستورات و راهنمایی برنامه نویسهای انسان ندارند. در اینجا میتوانید با نمونههای بینظیری از بهکارگیری یادگیری عمیق آشنا شوید. برای درک محتوای تصویر و یک الگوی زبان از حوزه پردازش زبان طبیعی ، هر دو روش از دید رایانه ای لازم است تا درک تصویر به کلمات به ترتیب درست تبدیل شود. اخیراً ، روشهای یادگیری عمیق در نمونه هایی از این مشکل به نتایج پیشرفته ای رسیده است. روشهای یادگیری عمیق نتایج پیشرفته ترین مشکلات مربوط به تولید عنوان را نشان داده اند. آنچه که در مورد این روشها چشمگیر ترین است، این است که یک مدل می تواند به جای اینکه نیاز به تهیه داده های پیشرفته یا خط لوله ای از مدل های خاص طراحی شده باشد ، برای پیش بینی یک عنوان ، با توجه به عکس تعریف شود. در این آموزش ما ، چگونگی ایجاد یک مدل یادگیری عمیق برای شرح تصاویر را از ابتدا خواهید دید. ما به یک موضوع جالب توجه در مورد چند مودال نگاهی می اندازیم که در آن می خواهیم هر دو تصویر و پردازش متن را برای ساختن یک برنامه مفید Deep Learning مفید ، با عنوان تصویربرداری ترکیب کنیم. شرح تصاویر به فرآیند تولید توضیحات متنی از یک تصویر – مبتنی بر اشیاء و اعمال موجود در تصویر اشاره دارد. درست قبل از توسعه اخیر شبکه های عصبی عمیق ، این مشکل حتی توسط پیشرفته ترین محققان Computer Vision قابل تصور نبود. اما با ظهور Deep Learning در صورت داشتن مجموعه داده های مورد نیاز ، می توان این مشکل را به راحتی حل کرد.
هدف از این دوره آموزشی ؟
هدف اصلی در اینجا قرار دادن CNN-RNN برای ایجاد یک مدل خودکار نوشتن تصویر است که از یک تصویر به عنوان ورودی استفاده می کند و دنباله ای از متن را که توصیف تصویر است، تولید میکند. یک مدل توصیف به دو مؤلفه اصلی، CNN و RNN متکی است. زیرنویس همه چیز در مورد ادغام این دو است تا بتواند قدرتمندترین خصوصیات آنها یعنی ترکیب شود. CNN ها در حفظ اطلاعات و تصاویر فضایی، و RNN با هر نوع داده متوالی مانند تولید دنباله ای از کلمات به خوبی کار می کند. بنابراین با ادغام این دو، می توان مدلی را تهیه کرد که بتواند الگوهای و تصاویر را پیدا کند، و سپس از آن اطلاعات برای تولید توضیحی در مورد آن تصاویر کمک بگیرید. بنابراین اکنون CNN به عنوان یک استخراج کننده از ویژگی ها عمل می کند که اطلاعات موجود در تصویر اصلی را در یک نمایش کوچکتر فشرده می کند. ما قصد داریم RNN را برای پیش بینی کلمه بعدی یک جمله بر اساس کلمات قبلی آموزش دهیم. برای این ما زیرنویس های مرتبط با تصویر را به لیستی از کلمات نشانه گذاری تبدیل می کنیم. این رمزگذاری هر رشته را به لیستی از اعداد صحیح تبدیل می کند. معماری مدل ما در اینجا شبیه به Google Model است، اما من جزئیات زیادی را ساده کردم تا اجرای و همچنین آموزش آسان تر شود. ما ابتدا ویژگی هایی را استخراج می کنیم و آنها را بصورت آفلاین به عنوان آرایه های شماره گیر داخل محلی خود ذخیره می کنیم. تا آنجا که من می بینم ، این باعث افزایش قابل ملاحظه بهره وری محاسباتی ما شده است ، زیرا ما اطمینان حاصل کردیم که فقط یک بار استخراج ویژگی ها را انجام می دهیم. ما برای ساختن و آموزش یک مدل نوشتن تصویر از ابتدا، کل چارچوب را پیاده سازی کرده ایم و در نهایت مدل را ارزیابی کرده ایم. ما از مجموعه داده Flilckr8K استفاده می کنیم. این شامل 8000 تصویر است که هر یک با پنج زیرنویس مختلف جفت شده اند که توضیحات روشنی از تصویر را ارائه می دهند. مجموعه داده شامل توضیحات مختلفی برای هر تصویر است. هدف از این پروژه عملی توصیف تصاویر با یادگیری عمیق در پایتون می باشد. در این پروژه با فیلم آموزشی کامل روند توصیف تصویر انجام می شود و مجموعه های داده ای معرفی می شوند و عملیات آموزش و تست شبکه انجام می شود. خروجی های حاصل از توصیف تصاویر روی هر یک از شبکه ها نشان داده می شود. پروژه قابلیت آموزش روی داده های دلخواه خودتان را دارد و می توانید عملیات توصیف تصویر مورد نظر خود را با آن انجام دهید. بدون شک یکی از بهترین پروژه های عمیق برای توصیف تصاویر می باشد که با زبان فارسی و ساده و روان توضیح داده شده است. امیدواریم که این آموزش از “بیگ لرن” هم مثل سایر آموزش ها مورد تایید و رضایت شما مخاطبان گرامی قرار گیرد.
موارد موجود در این دوره آموزشی ؟
نظرات
1 دیدگاه برای توصیف تصاویر با یادگیری عمیق
برای ثبت نقد و بررسی وارد حساب کاربری خود شوید.
سیما
یکی از بهترین و کامل ترین دوره هایی بود که دیدم.
مدرس این دوره به شدت تسلط داره روی بحث