
تشخیص و شناسایی متن در تصویر ؟
با همگانی تر شدن وسائل دیجیتال و چند رسانه ای ، سیستم های بازیابی فیلم و تصویر بسیار ارزشمند شده اند. در سیستم های بازیابی تصویر، متن ، نقش بسزایی را ایفا می کند، زیرا شامل اطلاعات مهم و فراوانی می باشد.نخستین گام در تشخیص متن از تصاویر گوناگون ، تشخیص محل استقرار و سپس استخراج چهارچوبی از تصویر است که شامل متن باشد. امروزه به دلیل گسترش چشمگیر تکنولوژی و در نتیجه دوربین های عکاسی، عکسهایی با کیفیتهای متنوع موجودند که حجم زیادی از دادههای تصویری را به وجود آوردهاند.موفقیت بزرگ تلفنهای هوشمند و خواستههای بزرگ در جستجو و درک تصویر مبتنی بر محتوا، تشخیص متن را یک وظیفه حیاتی در تعامل کامپیوتری انسان ساختهاست. بنابراین استفاده از این تصاویر و پردازش آنها می تواند به ما اطلاعات مفیدی در موارد مختلف بدهد. به همین دلیل پردازش تصاویر در حال حاضر بسیار مفید بوده و توجه بسیاری را به خود جلب کردهاست. یک نوع از این پردازشها، استخراج متن از تصویر است که برای آن لازم است ابتدا متن موجود در تصاویر تشخیص دادهشده و سپس تبدیل به نوشتار صورت بگیرد. در شناسایی و تشخیص متن در تصاویر طبیعی درصورتیکه متنها وضوح خوبی داشته باشند و یا دارای پسزمینههای ساده باشند میتوانند با نرخ تشخیص بالایی از تصاویر طبیعی شناسایی و استخراج شود و در نرمافزارهایOCR بهآسانی مورداستفاده قرار گیرند. اما مشکل اصلی اینجاست که تصاویر گرفتهشده از متن درصحنه طبیعی میتواند معایب و مشکلاتی همچون کاهش وضوح تصویر، مناسب نبودن میدان دید، تخریب در اثر سایه و روشنها، تخریب در اثر خرابی لنز، مناسب نبودن زاویه دید دوربین و غیره را داشته باشد که در این صورت شناسایی و استخراج متن از تصاویر طبیعی برای در اختیار قرار دادن به یک OCR مشکل میشود و بهآسانی برای آن قابلاستفاده نیست.
از جمله مشکلات و پیچیدگی های استخراج متن از این تصاویر، عبارت است از :
- پیچیدگی پس زمینه تصویر
- سطوح غیر همسطح
- جهات متن
- روشنایی غیریکنواخت
- کیفیت کم
- مشخص نبودن مرز متن و پسزمینه
- تنوع در رسمالخط
نرم افزارهای پردازش متن برای تشخیص و بازیابی الفبا توسط کامپیوتر طراحی می شوند. برای ساخت و توسعه چنین نرم افزارهایی نیازمند تحقیقات در زمینه های سیستم های بیومتریک، پردازش تصویر، سامانه های هوشمند که بر گرفته از (سیستمهای خبره، الگوریتم ژنتیک و منطق فازی) می باشیم. OCR به تكنيكي اطلاق مي شود كه طي آن يك برنامه كامپيوتري متون موجود درتصاوير ديجيتالي را شناسايي كرده و آنها را به صورت خودكار به فايلهاي متني قابل ويرايش و جستوجو تبديل مي كند. OCR زبانهای فارسی و عربی نسبت به زبان انگلیسی پیچیدگی بیشتری دارد. تعداد حروف الفبای بیشتر، پیوسته بودن حروف هنگام نوشتن، نقطه دار بودن حروف و تغییر فرم نوشتاری حروف در ابتدا، وسط یا انتهای کلمات از جمله مهمترین این موارد است. از دیگر چالشهای OCR فارسی، در دسترس نبودن مجموعهی دادهی استاندارد برای حل مساله است. در میان اطلاعات مختلفی که در تصویر موجود است، اطلاعات متنی از اهمیت ویژ ه ای برخوردار است، چراکه به آسانی از سوی انسان یا حتی رایانه قابل فهم بوده و امکان توصیف محتوای یک تصویر را فراهم می کند. علاوه بر این، از داده های استخراج شده براساس تحلیل اطلاعات متنی موجود در تصاویر می توان کاربردهای متنوعی نام برد که به انسان در تعامل با طبیعت و صنعت کمک می کند.یک سیستم OCR از بخشهای متعددی تشکیل شده است. ابتدا باید تصویر ورودی آنالیز شده و اگر متن آن دارای چرخش است، اصلاح شود. پس از اصلاح چرخش باید موقعیت بلوکهای متنی، شکل و جدول در تصویر سند مشخص شود. پس از تعیین موقعیت بلوکهای مختلف (ناحیه بندی یا آنالیز ساختار سند)،باید بلوکهای متنی بازشناسی شوند؛ یعنی خطوط متنی یافت شده و سپس موقعیت کلمات مشخص شود و در مرحله بعد، موقعیت حروف در کلمه مشخص شود، در نهایت تک تک حروف باید شناخته شده و با یکدیگر ترکیب شوند تا کلمهی معادل آنها مشخص شود. این کل فرایند تشخیص خودکار متن بود که به صورت بسیار ساده بیان شد.
تشخیص و شناسایی متن با یادگیری عمیق ؟
تشخیص متن در تصاویر یکی از زمینههای تحقیقاتی مهم در حوزهی بینایی کامپیوتر است. منظور از تشخیص متن، تشخیص متون متعلق به یک ردهی خاص (مانند بطری، انسان یا هواپیما) در تصویر می باشد. هدف طراحی سیستمی است که قادر باشد با دریافت نمونههای آموزشی (ویا مدلی) متون را در تصاویر جدید تشخیص دهد. از مهمترین مزایایی که الگوریتمهای یادگیری عمیق به ارمغان میآورند میتوان به دقت تشخیص قابلقیاس و حتی بهتر از انسان، قابلیت ضد مداخله و قابلیت تشخیص، استخراج و کلاسبندی هزاران مشخصه از متون اشاره کرد. با بهرهگیری از تکنولوژی یادگیری عمیق (Deep Learning)، میانگین دقت تشخیص متن در دوربین های مدار بسته بهطور چشمگیری تا 38% افزایش پیدا میکند. الگوریتم Deep Learning یا یادگیری عمیق میتواند دقت تشخیص متن را بهبود دهد. این موضوع باعث کارایی بیشتر سیستم امنیتی و نظارت تصویری محیط از جمله کیفیت تصویر واضح و عریض میشود. یادگیری عمیق به شما کمک میکند تا عمل استخراج ویژگی ها را با کمترین/بدون تداخل دست، خود کامپیوتر انجام دهد. حال استخراج ویژگی ها به چه معناست؟ استخراج ویژگی فرایندی است که در آن با انجام عملیاتی بر روی دادهها، ویژگیهای بارز و تعیینکنندهٔ آن مشخص میشود. هدف استخراج ویژگی این است که دادههای خام به شکل قابل استفادهتری برای پردازشهای آماری بعدی درآیند. هر چه تعداد ویژگی های استخراج شده که شامل ویژگی های دشوار برای توصیف اند بیشتر باشد، فرآیند تشخیص دقیقتر میشود. به همین دلیل است که موتورهای تشخیص چهره بیشتر از قبل در حال بکارگیری یادگیری عمیق برای بهبود دقت سیستم ها هستند.
هدف از این دوره آموزشی:
هدف از این دوره آموزشی، تشخیص و شناسایی متن در تصویر و ویدئو با یادگیری عمیق است. سیستم تشخیص متن، سیستمی است که بر اساس تکنولوژی هوش مصنوعی و الگوریتمهای یادگیری عمیق قادر به تشخیص و شناسایی متن با دقت بالا میباشد. در بازشناخت تصویر یک متن، تصویر ورودی با توجه به اطلاعات موجود در بانک اطلاعات، مورد شناسایی قرار میگیرد. ابتدا مروی کامل روی پایتون انجام می شود و بعد از آن تئوری لازم برای تشخیص متن به صورت کامل آموزش داده می شود. در نهایت پیاده سازی های مختلفی از تشخیص و شناسایی متن برای کاربردهای مختلف انجام می شود. لذا سیستم تشخیص و شناسایی متن کامل معرفی می شود و نحوه آموزش تصاویر حاوی متن به شبکه بحث می شود تا بتوان با یک راهکار مناسب عملیات مدل سازی برای تشخیص و شناسایی متن انجام شود. در مرحله بعد یک سیستم تشخیص و شناسایی متن در تصویر با یادگیری عمیق پیاده سازی می شود و خروجی ها و ارزیابی شبکه بخوبی انجام می شود. همچنین خروجی تشخیص و شناسایی متن روی یک ویدئو خاص انجام می شود. مدرس این دوره سال هاست در این حوزه کار می کند و نکات آموزشی و تدریس خوب ایشان می تواند به شما در متخصص شدن و درک مسئله کمک زیادی کند. امیدواریم که این آموزش از “بیگ لرن” هم مثل سایر آموزش ها مورد تایید و رضایت شما مخاطبان گرامی قرار گیرد.
بخش اول: مرور کامل روی پایتون
بخش دوم: مرور یادگیری ماشین/عمیق
بخش سوم: معرفی کامل سیستم تشخیص وشناسایی متن و پیاده سازی آن
بخش چهارم: پیاده سازی سیستم تشخیص و شناسایی متن با یادگیری عمیق
نظرات
6 دیدگاه برای تشخیص و شناسایی متن در تصویر و ویدئو با یادگیری عمیق
برای ثبت نقد و بررسی وارد حساب کاربری خود شوید.
پویا
دوره خیلی خوبی بود. هم با کتابخانه کراس و هم با پایتورچ پیاده سازی کردند. عالی
سهراب
یکی از بهترین و کامل ترین دوره هایی بود که دیدم.
مدرس این دوره به شدت تسلط داره روی بحث
سامان(مالک تایید شده)
توضیح های مدرس خوب بود ولی بعضی جاها توضیحات اگه بیشتر بود بهتر بود
تهران هوشدارپور
آیا متن فارسی هم اموزش داده می شه؟
biglearn
با سلام. خیر آموزش روی متون انگلیسی است ولی می توانید داده های فارسی هم آموزش دهید
علیرضا
آیا این دوره برای تشخیص متون فارسی از عکس مفیده ؟ لطفا جواب بدین
biglearn
بله می توان هر نوع تصویر رو بهش آموزش داد
پوریا
سلام من میخوام کدی پیاده سازی کنم که با اون متن های فارسی یک عکس رو استخراج بکنم. میشه راهنمایی کنید که آیا این آموزش به درد من میخوره یا نه؟
biglearn
سلام. بله این آموزش می تونه به شما کمک کند