اساسا از چه تکنیکهایی برای تحلیل محتوای تصویر استفاده میشود؟
به طور کلی، برای تحلیل محتوای تصویر از دو تکنیک مختلف استفاده میشود که شامل روشهای مبتنی بر ناحیه و روشهای مبتنی بر مولفههای موجود در تصویر است. در روشهای مبتنی بر ناحیه، تشخیص و مکانیابی متن با استفاده از آنالیز بافتی تصویر انجام میشود. از آنجا که نواحی متن نسبت به غیر متن خصوصیات بافتی مجزایی دارد، این روشها حتی در پیچیدهترین تصاویر هم از عهده تشخیص و مکانیابی دقیق متون برمیآید. روشهای مبتنی بر مولفههای موجود در تصویر هزینه محاسباتی کمی دارند و مؤلفههای متن میتوانند به طور مستقیم برای شناسایی مورد استفاده قرار گیرند.
چرا در بین اطلاعات موجود در تصویر، اطلاعات متنی از اهمیت بیشتری برخوردار است؟
در میان اطلاعات مختلفی که در تصویر موجود است، اطلاعات متنی از اهمیت ویژهای برخوردار است، چراکه به آسانی از سوی انسان یا حتی رایانه قابل فهم بوده و امکان توصیف محتوای یک تصویر را فراهم میکند. علاوه بر این، از دادههای استخراج شده براساس تحلیل اطلاعات متنی موجود در تصاویر میتوان کاربردهای متنوعی نام برد که به انسان در تعامل با طبیعت و صنعت کمک میکند.
تحلیل اطلاعات متنی در چه زمینههایی کاربرد دارد؟
این سیستمها در زمینههای مختلف کاربرد دارد. با استفاده از تحلیل اطلاعات متنی انجام فعالیتهایی نظیر شناسایی پلاک خودروها، تشخیص و ترجمه علائم، جستجوی محتوای تصاویر، واقعهنگاری در دنبالههای ویدئویی و شاخصگذاری مبتنی بر متن تصاویر به صورت خودکار امکانپذیر است.
سیستمی که شما برای تشخیص متن فارسی در تصاویر مناظر طبیعی طراحی کردهاید در مقایسه با سیستم OCR یا نویسهخوان نوری چه تفاوتی دارد؟
سیستم OCR، به استخراج و پردازش متون در اسناد میپردازد، در حالی که هدف این سیستم، استخراج متون از تصاویر مناظر طبیعی است که با توجه به تنوع فونت، سبک، اندازه، جهت و رنگ متون، پیچیدگی زمینه در تصاویر مناظر طبیعی و همچنین نورپردازیهای مختلف محیط و تاثیر آن روی متون، استخراج متن در این دسته از تصاویر، یکی از مسائل چالشبرانگیز در پردازش تصویر است.
تشخیص متن فارسی در تصاویر مناظر طبیعی در چه زمینههایی کاربرد دارد؟
با پیشرفت تجهیزات تصویربرداری، مانند دوربینهای دیجیتال و دوربینهای تعبیه شده در تلفنهای همراه، کاربردهای سیستم استخراج خودکار متن از تصاویر مناظر طبیعی، روزبهروز بیشتر میشود. سیستم ادراک متن، میتواند بهعنوان بخشی از یک سیستم بزرگ، برای ارتباط بهتر بین محیط و انسان مورد استفاده قرار گیرد. که این ارتباط را یک واسط کامپیوتری برقرار میکند. از این سیستم میتوان برای کمک به افراد کمبینا و نابینا در درک بهتر محیط اطراف خود و کمک به گردشگران برای تعامل با محیط در یک کشور بیگانه استفاده کرد. علاوه بر این، سیستم تشخیص متن فارسی در تصاویر مناظر طبیعی میتواند در سیستمهای کمک راننده و همچنین به منظور بازیابی و شاخصگذاری تصاویر مبتنی بر محتوا یا جستجوی تصاویر مبتنی بر کلمات کلیدی کاربرد داشته باشد. این سیستم در درک بهتر محیط اطراف به رباتها کمک میکند. پردازش و خواندن اتوماتیک اسناد، تشخیص پلاک خودروها، نظارت و جستجوی خودکار، سیستمهای انتقال هوشمند، آنالیز اسناد حاصل از دوربین و اتوماسیون کارخانهها از دیگر قابلیتهای این سیستم است. به این ترتیب میتوان گفت این سیستم میتواند در زمینههای متعددی کاربرد داشته باشد.
چگونه میتوان از این سیستم در خودروهای بدون سرنشین استفاده کرد؟
همانطورکه گفتیم، این سیستم امکان ادراک خودکار متون موجود در محیط اطراف، مانند علائم هشدار و تابلوهای راهنما را فراهم میکند. برای مثال، یک علامت ایست در یک چهارراه بدون وجود علائم صوتی، یک موضوع مهم است که این سیستم میتواند این علامت را شناسایی و خودرو را متوقف کند.
و گردشگران از این سیستم چه استفادهای میکنند؟
این سیستم همچنین، میتواند در کمک به گردشگران بسیار موثر باشد، چراکه به دلیل استفاده نکردن از یک زبان بینالمللی در بسیاری از کشورها، از جمله ایران، گردشگران معمولا در تعامل با محیط، با مشکلات جدی زبانی روبهرو میشوند. این سیستم میتواند بخشی از سیستم بزرگتری مانند یک گوشی تلفن همراه باشد و با تصویربرداری از محیط و تشخیص وجود متن در تصاویر و تعیین دقیق محل متن و سپس تقطیع متن از زمینه و شناسایی آن، درک متن موجود در تصاویر را ممکن سازد. سپس متن شناسایی شده به زبان مقصد ترجمه شده و آن را روی یک مانیتور نشان داده یا به صورت یک پیغام صوتی پخش کند.
فکر میکنید این سیستم تا چه اندازه میتواند مورد توجه کاربران ایرانی قرار گیرد؟
هدف از طراحی این سیستم، تشخیص متون فارسی در تصاویر مناظر طبیعی است. در کارهای قبلی، تشخیص متون به زبانهای انگلیسی، چینی و بسیاری از زبانهای زنده دنیا انجام شده است، اما تا به حال سیستمی برای درک متن فارسی موجود در تصاویر طبیعی ایجاد نشده بود. زبان متن در این سیستم، فارسی انتخاب شده است که میتوان از آن به نحو مطلوبی استفاده کرد. ما به چند دلیل، زبان فارسی را انتخاب کردهایم؛ زبان فارسی یکی از زبانهای زنده و مطرح است و با بسیاری از زبانهای دیگر کاملا متفاوت است. همچنین وجود 550 هزار نفر در ایران که دچار اختلال در بینایی هستند، میتواند دلیل خوبی برای انتخاب زبان فارسی باشد و طراحی چنین سیستمی میتواند کمک قابل توجهی به آنها کند.
گردشگران معمولا در کشورهای فارسی زبان از جمله ایران، با مشکلات زبانی جدی روبهرو هستند، چراکه زبان انگلیسی در این کشورها مرسوم نیست. علاوه بر این به دلیل نزدیکی زبان فارسی به زبانهای عربی، اردو و پشتو امکان استفاده از روشهای تشخیص متن فارسی برای متنهایی به این زبانها وجود دارد. زبان رسمی کشور ما فارسی است و این طرح پژوهشی میتواند خدمتی برای کشورمان محسوب شود.
متنخوان دیجیتال
اگر بخواهید اطلاعات یک متن کاغذی را وارد کامپیوتر کرده و در تهیه گزارش از اطلاعات آن استفاده کنید، نخستین راهی که پیش روی شما قرار دارد این است که متن موجود را دوباره تایپ کنید که این کار بویژه وقتی بخواهید حجم انبوهی از اسناد مکتوب را به فرمت دیجیتال تبدیل کنید، بسیار وقتگیر است، اما با گسترش فناوری و استفاده از اسکنرها برای تصویربرداری از روی اسناد اغذی و تبدیل آن به تصاویر دیجیتال میتوان این کار را به فناوری سپرد. یکی از معایب این روش، نبود امکان جستجو در داخل متن این اسناد و بهرهبرداری از آنهاست. اینجاست که با بهرهگرفتن از نرمافزار OCR یا نویسهخوان نوری این مشکل هم برطرف میشود. اساس عملکرد این سیستم بر شناسایی محتوای متنی ثبتشده در تصویر دیجیتال اسناد است. فرآیندی که به طور خودکار تصویر تهیهشده از یک صفحه کتاب را به متن تبدیل میکند.تا امروز الگوریتمهای مختلفی برای OCR نوشته شده است، اما اصلیترین مشکل این قبیل نرمافزارها وجود الفباهای مختلف در سراسر دنیا میباشد. نرمافزاری که بتواند الفبای لاتین را از تصویر استخراج کند، سالهاست تولید و توسعه داده شده، اما زبان فارسی در تمام این سالها حسرت یک OCR قوی و دقیق را میخورده است؛ حسرتی که با چینیها، کرهایها، هندیها و عربها به اشتراک گذاشته شده بود.
فرانک فراهانیجم / گروه دانش
مرور بزرگ ترین جنجال های تاریخ جام جهانی (8)