تشخیص گفتار با کمترین خطا

سیستم های بازشناسی گفتار، به منظور درک گفتار انسان به وسیله ماشین (رایانه) طراحی و پیاده سازی می شود. هر دستگاهی که می تواند تا حدی گفتار انسان را تشخیص دهد و آن را به صورت متن ، بازنویسی کند

کد خبر: ۱۳۲۷۳۶

، از یک سیستم بازشناسی گفتار استفاده می کند.
ساده ترین این سیستم ها را می توان در گوشی های تلفن همراه که با گفتن نام شخص ، شماره او به صورت خودکار گرفته می شود، مشاهده کرد. البته در این نوع کاربرد، به دلیل سادگی الگوریتم به کار رفته ، بازشناسی وابسته به گوینده است و در ابتدای کار، یک نمونه از صدای شخص ضبط می شود. باخبر شدیم که یکی از دانش آموختگان دانشگاه صنعتی امیرکبیر موفق به طراحی نوعی سیستم بازشناسی گفتار با قابلیت های برتر شده است. ما نیز به این بهانه با مهندس سهیل شفیعی به گفتگو نشسته ایم.

در این سیستم ، سیگنال های گفتاری چگونه و تحت چه مکانیسمی شناسایی می شوند؛
الگوریتم های متنوعی برای بازشناسی گفتار وجود دارد که به طور معمول از مدلهای ریاضی ، مانند مدل مارکوف پنهان (HMM) استفاده می کنند. این مدلها می توانند برای تشخیص آواها یا کلمات طراحی یا به اصطلاح تعلیم داده شوند. در این الگوریتم ها، ابتدا مدل با تعداد مشخصی کلمه یا آوا تعلیم داده می شود. بنابراین ، دامنه تشخیص مدل محدود به همان تعداد نمونه های تعلیم است. پس از تعلیم ، مدل می تواند سیگنال های گفتاری ورودی را در صورتی که در دامنه نمونه های تعلیمی بوده باشند تشخیص دهد.

این سیستم ها در چه مواردی دچار خطا می شوند؛ ضریب دقتشان چه میزان است و بر اساس چه فاکتورهایی این ضریب افزایش می یابد؛
بزرگترین عامل خطا در این سیستم ها، وجود اغتشاش یا نویز در سیگنال گفتاری است. نویز به دو صورت می تواند تلقی شود، نخست ، سیگنال های غیرگفتاری مانند سرفه ، عطسه ، خنده ، صدای نفس و... که با ورود این سیگنال های به الگوریتم بازشناسی ، الگوریتم ، با توجه به روش تعلیم ، ممکن است این سیگنال ها را به صورت یک کلمه بازشناسی کند.
یکی از روشهای مقابله با این گونه نویزها، تشخیص و حذف آنها پیش از ورود به مرحله بازشناسی است که در کار ارائه شده در این پایان نامه ، به طراحی نمونه ای از این سیستم ها پرداخته شده است. در حالت دوم ، نویز پیش زمینه محیطی عامل بزرگ خطاست. در محیطهایی که صداهای دیگری غیر از گفتار به صورت همزمان تولید می شوند، به عنوان مثال ، کارخانه ، ترافیک ، صدای همهمه ، صدای موتور اتومبیل و... همان طور که گوش انسان نیز در تشخیص کلمات ادا شده با مشکل مواجه می شود، الگوریتم بازشناسی گفتار نیز ممکن است در تشخیص اشتباه کند. با پیچیده کردن الگوریتم های مورد استفاده و افزایش عملیات ریاضی روی سیگنال گفتار، تا حدودی می توان کارآیی سیستم را به این گونه نویزها مقاوم ساخت.

سیستم طراحی شده از سوی شما برای بازشناسی سیگنال های گفتاری از چه الگوریتم هایی بهره می گیرد؛
در این کار، سیستم بازشناسی طراحی نشده است ، بلکه یک سیستم آشکارسازی گفتار طراحی شده است و همان طور که بیان شد، بخشهای غیرگفتاری را حذف می کند تا این بخشها با ورود به سیستم بازشناسی ، کارآیی این سیستم را مختل نکنند. در این کار، برای تشخیص بخشهای گفتاری ، ویژگی های متنوعی به کار رفته است که مهمترین آنها که برای اولین بار ارائه شده است ، از تغییرات فرکانس پایه در سیگنال استفاده شده است. فرکانس پایه ، تنها در گفتار انسان وجود دارد و دلیل آن نیز لرزش تارهای صوتی حنجره در تولید گفتار است . این مقدار در انسان ها، محدوده مشخصی دارد و تغییرات آن کم است. اما در دیگر سیگنال های غیرگفتاری ، تغییرات زیادی دارند.

ساده سازی ارتباط با سیستم گفتار تلفنی

امروزه تلفن و سیستم های تلفنی جزیی جدا نشدنی از زندگی همه افراد است. علاوه بر ایجاد ارتباطات مختلف گفتاری ، در مرورگرهای صوتی ، سیستم های ارتباط با مشتری و IVR ها به شکل گسترده ای در شرکتها و ادارات به کار گرفته می شوند. با وجود کاربردهای فراوان این سیستم ها، محدودیت های مختلفی مانند نیاز به پخش پیغام راهنماهای زیاد، سختی کار با تعداد بالای انتخاب ها و مبتنی بر تن بودن آنها در برخی کاربردها محدودتر کرده است . اضافه کردن تشخیص خودکار گفتار، یکی از طبیعی ترین راه حل های رفع این محدودیت هاست.
تشخیص گفتارتلفنی علاوه بر آسان تر کردن ارتباط مشتری با موسسات و مراکز مربوطه ، کاهش هزینه و ارائه بهتر سرویس ها را به مشتریان به دنبال دارد.

این قابلیت به سادگی محاوره با این سیستم ها و حل بیشتر مشکلات و محدودیت های آنها منجر می شود. تعدادی از نسخه های مختلف توسعه داده شده برای تشخیص گفتار تلفنی به صورت زیر است:
- منشی خودکار تلفنی مبتنی بر گفتار
- تشخیص اعداد و فرامین صوتی از پشت تلفن
- سیستم IVR تلفنی مبتنی بر گفتار برای بانکها
- تلفن گویای اطلاع رسانی سازمان ها، بهداشت و قرآن با قابلیت تشخیص گفتار
دقت تشخیص بالای 96 درصد، سرعت تشخیص بالا، پشتیبانی از زبانهای انگلیسی و فارسی و کار با رابطهای تلفنی موجود مانند مودم و برد Dialogic از ویژگی های منحصربه فرد این سیستم ها هستند

به این ترتیب ، تغییرات فرکانس پایه ، می تواند به عنوان یک ویژگی قدرتمند برای تشخیص گفتار از غیرگفتار به کار رود. ضرایب MFCC نیز به عنوان ویژگی های دیگر به کار رفتند. برای محاسبه این ضرایب ، از روند تشخیص گفتار در گوش انسان الهام گرفته شده است.
به عبارتی ، حلزونی گوش در انسان ، برای تشخیص نوع صدا، محاسباتی مشابه را روی سیگنال انجام می دهد. در نهایت ، با استفاده از الگوریتم های مختلف دیگر، شامل الگوریتم ژنتیک ، شبکه عصبی ، درخت تصمیم و الگوریتم SVM ، به طبقه بندی سیگنال ها به 2 دسته گفتاری و غیرگفتاری اقدام شده است.

این سیستم چه مزیتهایی نسبت به نمونه های قبلی دارد؛
نتایج این الگوریتم با دیگر الگوریتم های پیشین ، در محیطهای مختلف ، مقایسه شده است. این الگوریتم بخشهای غیرگفتاری بیشتری را تشخیص داده و حذف می کند و در عین حال ، حذف نادرست بخشهای گفتاری نسبت به دیگر روشهای طراحی شده بسیار کمتر است. به این ترتیب که در بهترین حالت و در محیطهای بدون نویز، صددرصد از سیگنال های غیرگفتاری مورد آزمون را تشخیص داده است ، در حالی که کمتر از یک درصد از بخشهای گفتاری را به اشتباه ، حذف کرده است.

سیگنال های غیرگفتاری چگونه در این سیستم تشخیص داده می شوند و این قابلیت چه مزیتی ایجاد می کند؛
این طرح ، در رایانه و با کمک نرم افزار MATLAB شبیه سازی شده است . به این ترتیب ، رایانه کاملا می تواند این الگوریتم را اجرا کند و بخشهای گفتاری و غیرگفتاری را از هم جداسازی کند؛ در صورتی که نیاز باشد، می توان این الگوریتم را با استفاده از مدارهای مجتمع پیاده سازی کرد. این مدارها، بدون حضور رایانه می توانند الگوریتم طراحی شده را پیاده سازی کنند.

در صورت اجرایی شدن چه کاربردهایی می توان برای آن تعریف کرد؛
همان طور که ذکر شد، بزرگترین کاربرد این الگوریتم ، در سیستم های بازشناسی گفتار و کاهش خطا در این سیستم هاست. برای ساخت پایگاه داده گفتار نیز می تواند بسیار مفید باشد. همچنین در سیستم های مخابراتی که هدف تنها مخابره سیگنال گفتار است ، می توان با کمک این الگوریتم ، هزینه ارسال سیگنال را از لحاظ زمانی و انرژی تا حد زیادی کاهش داد.