لب های خاموش سخن می گویند

بازشناسی تصویری گفتار فرآیندی است که در سالهای اخیر برای کمک به افرادی که دچار آسیب در سیستم صوتی هستند، مورد توجه محققان دنیا قرار گرفته است.

کد خبر: ۱۱۳۳۲۷

محققان دانشکده مهندسی پزشکی دانشگاه صنعتی امیرکبیر هم به منظور دستیابی به راهکاری برای کمک به افراد ناتوان گفتاری موفق شده اند نرم افزار تشخیص گفتار از روی حرکات لب را طراحی کنند. به این ترتیب و با کاربرد سامانه های لب خوانی رایانه ای علاوه بر تشخیص فرامین و کلمات این افراد می توان از آن به عنوان مکمل بازشناسی گفتار صوتی و همچنین کاربردهای نظامی ، اطلاعاتی و حفاظتی کمک گرفت. افراد زیادی دچار آسیب در سیستم صوتی هستند و به دلیل عدم برخورداری از صدای مناسب ، قادر به برقراری ارتباط با دیگران نیستند. این در حالی است که این افراد معمولا توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را دارند و در حالت ایده آل می توان با انجام لب خوانی به مقصود آنها پی برد. البته یافتن راهکاری برای حل این مشکل می تواند از جوانب دیگر هم مفید باشد. در واقع حرکات لب یا سیگنال تصویری گفتار می تواند به صورت قابل ملاحظه ای دقت سیستم های تشخیص گفتار را بخصوص در محیطهای پر سروصدا بهبود دهد.
همزمان کردن حرکات لب و صدای گفتار و انیمیشن گرافیکی هم از دیگر کاربردهای این مقوله هستند. در واقع بهره گیری اطلاعات تصویری از شکلهای لب و حرکات آن ، دقت و اطمینان سیستم های تشخیص اتوماتیک گفتار صوتی را بویژه در محیطهای نویزی به صورت قابل توجهی بهبود می دهد. در کاربرد حفاظتی هم این سامانه می تواند با بهره گیری از حرکات لب و بدون ثبت سیگنال صوتی ، کلمات خاصی را شناسایی و تصویر گوینده آن را در مراکز عمومی و محلهای تردد ثبت کند. بنابراین طی چند سال اخیر یافتن روشی برای تشخیص کلمات از روی حرکات لب مورد توجه محققان بوده است.

لب ها چه می گویند؛

فرآیند بازشناسی تصویری گفتار شامل 2 مرحله استخراج ویژگی از دنباله تصاویر لب و طبقه بندی ویژگی های به دست آمده است که توسعه یک الگوریتم دقیق و قابل اطمینان برای استخراج کانتور لب و ویژگی های تصویری مربوط به گفتار حیاتی است. اما وجود تغییرات زیاد در تصاویر، ناشی از گویندگان مختلف ، لحن ادای مختلف کلمات از سوی آنها و شرایط نوری ، این امر را مشکل کرده است. بعلاوه کنتراست کم شدت روشنایی و رنگ بین لب و پوست صورت ، مشکل بزرگ دیگر برای آشکار کردن کانتور لب است. به گفته مهندس رضا شالباف ، کارشناس ارشد مهندسی پزشکی از دانشگاه صنعتی امیرکبیر برای بررسی روشهای استخراج ویژگی های تصویری مربوط به گفتار می توان آنها را به 2 دسته روشهای مبتنی بر تصویر و روشهای مبتنی بر مدل تقسیم بندی کرد. در روشهای مبتنی بر تصویر، ویژگی ها به صورت مستقیم با اعمال تبدیلات ریاضی روی تصاویر داده شده استخراج می شوند که البته مشکل این روشها، ابعاد بزرگ و تکراری بودن اطلاعات در بردار ویژگی و حساس بودن به چرخش و جابه جایی لب است. در روشهای مبتنی بر مدل ، مدلی از لب ساخته شده است و به وسیله مجموعه کوچکی از پارامترها توصیف می شود. مزیت این روشها، بیان ویژگی های مهم در یک فضای برداری با ابعاد کوچک ، غیرمتاثر بودن مدل از روشنایی کلی تصویر، چرخش ، اندازه و جابه جایی لب است.
شالباف می افزاید: تعدادی از روشهای مبتنی بر مدل شامل مدلهای مرزفعال ، الگوهای انعطاف پذیر و شکل فعال هستند. مدلهای مرزفعال ، با یک مجموعه منحنی های به هم متصل ساخته می شوند که این منحنی ها تحت نیروهای خارجی و داخلی با مرز شکل مطابقت می یابند. مشکل این روش ، مقداردهی اولیه مدل و سرعت پردازش پایین آن است. در روش الگوهای انعطاف پذیر، از مدلهای پارامتری برای توصیف شکل فیزیکی تصویر استفاده و با محدودیت های ابتکاری اعمال شده ، تغییرات شکل محدود می شود. موضوع مهم در این روش ، فرمول سازی درست تابع انرژی است که مدل لب را روی لب واقعی در تصویر منطبق کنند. در بعضی تابعهای انرژی به عنوان ویژگی اولیه از اطلاعات لب استفاده می شود ؛ اما اگر تفاوت قابل ملاحظه ای میان ناحیه لب و غیرلب نباشد، این رویکرد در پیدا کردن کانتور لب با مشکل مواجه می شود. در نهایت هر مدل شکل فعال از نقاط برای توصیف جزییات شکل لب استفاده می شوند و این نقاط با تغییرات شکل به دست آمده از مجموعه داده آموزشی کنترل می شود.
مهمترین برتری استفاده از این مدل این است که هیچ فرض جدیدی درباره شکلهای واقعی صورت نمی گیرد ؛ اما ساختن چنین مدلی نیاز به مجموعه داده آموزشی وسیعی دارد و فرآیند آموزش ، نسبتا وقت گیر است و اگر تعداد نقاط مدل تغییر پیدا کند، فرآیند آموزشی یک بار دیگر باید انجام شود. پس از مرحله استخراج ویژگی از تکنیک های مختلفی برای شناسایی و طبقه بندی کلمات استفاده می شود.

لبخوان رایانه ای

در طرحی که در دانشگاه صنعتی امیرکبیر انجام شد، یک الگوریتم جدید برای استخراج کانتور لب مبتنی بر مدل براساس ناحیه بندی تصاویر با استفاده از تصاویر رنگی برای غلبه بر کاستی های موجود پیشنهاد شده است.
به گفته شالباف ، در این الگوریتم ابتدا یک مدل لب تعریف می شود. سپس اطلاعات تصاویر از فضای رنگی RGB به فضای رنگی CLELAB تبدیل شده است و از الگوریتم K-Meoss و عملکردهای مورفولوژیک برای جداسازی لب بهره گرفته و با انطباق مدل پیشنهادی روی کانتور این ناحیه از پارامترهای این مدل به عنوان ویژگی استفاده می شود.
در نهایت برای یکسان سازی بعد بردار ویژگی ، از روش درون یابی و برای کاهش بعد بردار ویژگی ، از روشهای آنالیز مولفه های اصلی و جداسازی خطی فیشر استفاده می شود. برای طبقه بندی 6 واژه نیز، از الگوریتم HMMاستفاده شده است و بازشناسی گفتار برای این واژگان با 91 درصد موفقیت همراه بود. ارزیابی روی مجموعه واژگان جمع آوری شده از تصاویر لب 20 گوینده مختلف صورت گرفته است.
شالباف می افزاید: در بخش دوم مجموعه واژگان جمع آوری شده توصیف شد. بخش سوم ، فرآیند کامل الگوریتم استخراج کانتور لب را ارائه کرده است. بخش چهارم ، استخراج ویژگی های تصویری گفتار را بیان کرده است. در بخش پنجم نحوه طبقه بندی 6 واژه با استفاده از الگوریتم HMM بیان شده است. در بخش ششم هم ، نتایج اعلام و ارزیابی شد و در انتها جمع بندی نهایی ارائه شد.

نرم افزاری که سخن می گوید

ارزیابی روی مجموعه دادگان جمع آوری شده از تصاویر لب 20 گوینده با استفاده از روش غیروابسته به گوینده در نرم افزار لب خوان صورت گرفته است. بنابراین در هر مرحله ، دنباله تصاویر مربوط به 19 گوینده ، برای آموزش و کلمات بیان شده از سوی نفر بیستم به عنوان تست در نظر گرفته می شود و هر بار با کنار گذاشتن یک نفر به عنوان تست ، فرآیند 20 بار تکرار می شود. در ضمن برای فراهم کردن امکان مقایسه میان روش پیشنهاد شده در این تحقیق با موارد دیگر، 2روش که دارای نتایج بهتری نسبت به روشهای دیگر هستند انتخاب شدند و روی مجموعه دادگان جمع آوری شده ، پیاده سازی شده است. در روش اول به نام مدلهای انعطاف پذیر، مرزهای لب با چهار معادله مدل شدند و با تعریف یک تابع انرژی براساس معیار لب ، پارامترهای مدل به مرزهای لب مرتبط شد و پارامترهای این مدل به عنوان ویژگی در هر فریم درنظر گرفته و برای طبقه بندی از شبکه عصبی بازگشتی استفاده شده است. در روش دوم به نام مدلهای شکل فعال ، از نقاط برای توصیف جزییات شکل لب استفاده و این نقاط با تغییرات شکل به دست آمده از مجموعه داده آموزشی کنترل شدند و مختصات این نقاط به عنوان ویژگی در هر فریم استخراج و برای طبقه بندی از HMMاستفاده شده است. در نهایت مشخص شد مدلهایی که مرز لب را با منحنی نمایش می دهند نسبت به مدلهای نقطه ای که جزییات مرز لب را نشان می دهند ترجیح داده می شوند. چرا که همه جزییات مرز لب مربوط به اطلاعات گفتاری نیست ، بلکه بسیاری از آنها جزییاتی مربوط به شکل لب است که از فردی به فرد دیگر تغییر می کنند و در مدلسازی مرز لب با یک منحنی ، توصیف کلی تری با مقدار پارامتر کمتر برای مرز انجام می شود.