تشخیص و شناسایی متن در تصویر ؟

با همگانی تر شدن وسائل دیجیتال و چند رسانه ای ، سیستم های بازیابی فیلم و تصویر بسیار ارزشمند شده اند. در سیستم های بازیابی تصویر، متن ، نقش بسزایی را ایفا می کند، زیرا شامل اطلاعات مهم و فراوانی می باشد.نخستین گام در تشخیص متن از تصاویر گوناگون ، تشخیص محل استقرار و سپس استخراج چهارچوبی از تصویر است که شامل متن باشد. امروزه به دلیل گسترش چشم‌گیر تکنولوژی و در نتیجه دوربین های عکاسی، عکس‌هایی با کیفیت‌های متنوع موجودند که حجم زیادی از داده‌های تصویری را به وجود آورده‌اند.موفقیت بزرگ تلفن‌های هوشمند و خواسته‌های بزرگ در جستجو و درک تصویر مبتنی بر محتوا، تشخیص متن را یک وظیفه حیاتی در تعامل کامپیوتری انسان ساخته‌است. بنابراین استفاده از این تصاویر و پردازش آن‌ها می تواند به ما اطلاعات مفیدی در موارد مختلف بدهد. به همین دلیل پردازش تصاویر در حال حاضر بسیار مفید بوده و توجه بسیاری را به خود جلب کرده‌است. یک نوع از این پردازش‌ها، استخراج متن از تصویر است که برای آن لازم است ابتدا متن موجود در تصاویر تشخیص داده‌شده و سپس تبدیل به نوشتار صورت بگیرد. در شناسایی و تشخیص متن در تصاویر طبیعی درصورتی‌که متن‌ها وضوح خوبی داشته باشند و یا دارای پس‌زمینه‌های ساده باشند می‌توانند با نرخ تشخیص بالایی از تصاویر طبیعی شناسایی و استخراج شود و در نرم‌افزارهایOCR به‌آسانی مورداستفاده قرار گیرند. اما مشکل اصلی اینجاست که تصاویر گرفته‌شده از متن درصحنه طبیعی می‌تواند معایب و مشکلاتی همچون کاهش وضوح تصویر، مناسب نبودن میدان دید، تخریب در اثر سایه و روشن‌ها، تخریب در اثر خرابی لنز، مناسب نبودن زاویه دید دوربین و غیره را داشته باشد که در این صورت شناسایی و استخراج متن از تصاویر طبیعی برای در اختیار قرار دادن به یک OCR مشکل می‌شود و به‌آسانی برای آن قابل‌استفاده نیست.

از جمله مشکلات و پیچیدگی های استخراج متن از این تصاویر، عبارت است از :

  • پیچیدگی پس زمینه تصویر
  • سطوح غیر هم‌سطح
  • جهات متن
  • روشنایی غیریکنواخت
  • کیفیت کم
  • مشخص نبودن مرز متن و پس‌زمینه
  • تنوع در رسم‌الخط‌

نرم افزارهای پردازش متن برای تشخیص و بازیابی الفبا توسط کامپیوتر طراحی می شوند. برای ساخت و توسعه چنین نرم افزارهایی نیازمند تحقیقات در زمینه های سیستم های بیومتریک، پردازش تصویر، سامانه های هوشمند که بر گرفته از (سیستمهای خبره، الگوریتم ژنتیک و منطق فازی) می باشیم. OCR به تكنيكي اطلاق مي شود كه طي آن يك برنامه كامپيوتري متون موجود درتصاوير ديجيتالي را شناسايي كرده و آن‌ها را به صورت خودكار به فايل‌هاي متني قابل ويرايش و جست‌وجو تبديل مي كند. OCR زبان‎های فارسی و عربی نسبت به زبان انگلیسی پیچیدگی بیشتری دارد. تعداد حروف الفبای بیشتر، پیوسته بودن حروف هنگام نوشتن، نقطه دار بودن حروف و تغییر فرم نوشتاری حروف در ابتدا، وسط یا انتهای کلمات از جمله مهم‏ترین این موارد است. از دیگر چالش‌های OCR فارسی، در دسترس نبودن مجموعه‌ی داده‌ی استاندارد برای حل مساله است. در میان اطلاعات مختلفی که در تصویر موجود است، اطلاعات متنی از اهمیت ویژ ه ای برخوردار است، چراکه به آسانی از سوی انسان یا حتی رایانه قابل فهم بوده و امکان توصیف محتوای یک تصویر را فراهم می کند. علاوه بر این، از داده های استخراج شده براساس تحلیل اطلاعات متنی موجود در تصاویر می توان کاربردهای متنوعی نام برد که به انسان در تعامل با طبیعت و صنعت کمک می کند.یک سیستم OCR از بخشهای متعددی تشکیل شده است. ابتدا باید تصویر ورودی آنالیز شده و اگر متن آن دارای چرخش است، اصلاح شود. پس از اصلاح چرخش باید موقعیت بلوکهای متنی، شکل و جدول در تصویر سند مشخص شود. پس از تعیین موقعیت بلوکهای مختلف (ناحیه بندی یا آنالیز ساختار سند)،باید بلوکهای متنی بازشناسی شوند؛ یعنی خطوط متنی یافت شده و سپس موقعیت کلمات مشخص شود و در مرحله بعد، موقعیت حروف در کلمه مشخص شود، در نهایت تک تک حروف باید شناخته شده و با یکدیگر ترکیب شوند تا کلمه‌ی معادل آنها مشخص شود. این کل فرایند تشخیص خودکار متن بود که به صورت بسیار ساده بیان شد.

تشخیص و شناسایی متن با یادگیری عمیق ؟

تشخیص متن در تصاویر یکی از زمینه‌های تحقیقاتی مهم در حوزه‌ی بینایی کامپیوتر است. منظور از تشخیص متن، تشخیص متون متعلق به یک رده‌ی خاص (مانند بطری، انسان یا هواپیما) در تصویر می باشد. هدف طراحی سیستمی است که قادر باشد با دریافت نمونه‌های آموزشی (ویا مدلی) متون را در تصاویر جدید تشخیص دهد. از مهمترین مزایایی که الگوریتم‌های یادگیری عمیق به ارمغان می‌آورند می‌توان به دقت تشخیص قابل‌قیاس و حتی بهتر از انسان، قابلیت ضد مداخله و قابلیت تشخیص، استخراج و کلاس‌بندی هزاران مشخصه از متون اشاره کرد. با بهره‌گیری از تکنولوژی یادگیری عمیق (Deep Learning)، میانگین دقت تشخیص متن در دوربین های مدار بسته به‌طور چشم‌گیری تا 38% افزایش پیدا می‌کند. الگوریتم Deep Learning یا یادگیری عمیق می‌تواند دقت تشخیص متن را بهبود دهد. این موضوع باعث کارایی بیشتر سیستم امنیتی و نظارت تصویری محیط از جمله کیفیت تصویر واضح و عریض می‌شود. یادگیری عمیق به شما کمک میکند تا عمل استخراج ویژگی ها را با کمترین/بدون تداخل دست، خود کامپیوتر انجام دهد. حال استخراج ویژگی ها به چه معناست؟ استخراج ویژگی فرایندی است که در آن با انجام عملیاتی بر روی داده‌ها، ویژگی‌های بارز و تعیین‌کنندهٔ آن مشخص می‌شود. هدف استخراج ویژگی این است که داده‌های خام به شکل قابل استفاده‌تری برای پردازش‌های آماری بعدی درآیند. هر چه تعداد ویژگی های استخراج شده که شامل ویژگی های دشوار برای توصیف اند بیشتر باشد، فرآیند تشخیص دقیقتر میشود. به همین دلیل است که موتورهای تشخیص چهره بیشتر از قبل در حال بکارگیری یادگیری عمیق برای بهبود دقت سیستم ها هستند.

هدف از این دوره آموزشی:

هدف از این دوره آموزشی، تشخیص و شناسایی متن در تصویر و ویدئو با یادگیری عمیق است. سیستم تشخیص متن، سیستمی است که بر اساس تکنولوژی هوش مصنوعی و الگوریتم‌های یادگیری عمیق  قادر به تشخیص و شناسایی متن با دقت بالا می‌باشد. در بازشناخت تصویر یک متن، تصویر ورودی با توجه به اطلاعات موجود در بانک اطلاعات، مورد شناسایی قرار می‌گیرد. ابتدا مروی کامل روی پایتون انجام می شود و بعد از آن تئوری لازم برای تشخیص متن به صورت کامل آموزش داده می شود. در نهایت پیاده سازی های مختلفی از تشخیص و شناسایی متن برای کاربردهای مختلف انجام می شود. لذا سیستم تشخیص و شناسایی متن کامل معرفی می شود و نحوه آموزش تصاویر حاوی متن به شبکه بحث می شود تا بتوان با یک راهکار مناسب عملیات مدل سازی برای تشخیص و شناسایی متن انجام شود. در مرحله بعد یک سیستم تشخیص و شناسایی متن در تصویر با یادگیری عمیق پیاده سازی می شود و خروجی ها و ارزیابی شبکه بخوبی انجام می شود. همچنین خروجی تشخیص و شناسایی متن روی یک ویدئو خاص انجام می شود. مدرس این دوره سال هاست در این حوزه کار می کند و نکات آموزشی و تدریس خوب ایشان می تواند به شما در متخصص شدن و درک مسئله کمک زیادی کند. امیدواریم که این آموزش از “بیگ لرن” هم مثل سایر آموزش ها مورد تایید و رضایت شما مخاطبان گرامی قرار گیرد.

کاربر گرامی می توانید پیش نمایش این دوره آموزشی را در آپارات از طریق لینک زیر مشاهده کنید
بخش اول: مرور کامل روی پایتون
بخش دوم: مرور یادگیری ماشین/عمیق
بخش سوم: معرفی کامل سیستم تشخیص وشناسایی متن و پیاده سازی آن
بخش چهارم: پیاده سازی سیستم تشخیص و شناسایی متن با یادگیری عمیق
مشاهده بیشتر

نظرات

متوسط امتیازات

4.5
4.50 6 رای
150,000 تومان
6 نقد و بررسی

جزئیات امتیازات

5 ستاره
4
4 ستاره
1
3 ستاره
1
2 ستاره
0
1 ستاره
0

6 دیدگاه برای تشخیص و شناسایی متن در تصویر و ویدئو با یادگیری عمیق

  1. پویا

    دوره خیلی خوبی بود. هم با کتابخانه کراس و هم با پایتورچ پیاده سازی کردند. عالی

  2. سهراب

    یکی از بهترین و کامل ترین دوره هایی بود که دیدم.
    مدرس این دوره به شدت تسلط داره روی بحث

  3. سامان(مالک تایید شده)

    توضیح های مدرس خوب بود ولی بعضی جاها توضیحات اگه بیشتر بود بهتر بود

  4. تهران هوشدارپور

    آیا متن فارسی هم اموزش داده می شه؟

  5. علیرضا

    آیا این دوره برای تشخیص متون فارسی از عکس مفیده ؟ لطفا جواب بدین

  6. پوریا

    سلام من میخوام کدی پیاده سازی کنم که با اون متن های فارسی یک عکس رو استخراج بکنم. میشه راهنمایی کنید که آیا این آموزش به درد من میخوره یا نه؟

دیدگاه خود را بنویسید