کامپیوترها حرف ما را خواهند فهمید

اگر کامپیوترها قادر به تشخیص زبان گفتاری انسان باشند، شاید روزی بتوانیم برای وارد کردن دستورات و فرمان‌ها از صدا و دستورات گفتاری به جای صفحه کلید استفاده کنیم. اما این‌که کامپیوتر بتواند گفتار انسان را بخوبی تشخیص دهد، امری بسیار سخت به نظر می‌رسد، چراکه زبان محاوره‌ای تفاوت بسیار زیادی با زبان نوشتاری داشته و تنوع زبان گفتاری و این‌که هر زبانی هم دارای لهجه‌های متفاوتی است، خود معضل دیگری است.

کد خبر: ۵۱۴۰۷۷

هم‌اکنون با سرمایه‌گذاری موسسه VERDIKT تحت نظارت شورای تحقیقاتی نروژ، پروفسور اسوندسن از دانشگاه NTNU نروژ و همکارانش در حال تست رویکرد ابداعی ـ ابتکاری برای خلق نسل بعدی تکنولوژی تشخیص گفتار هستند. محققان نروژی نشان داده‌اند که اساس تولید گفتار در همه زبان‌ها یکسان است. به این ترتیب این تکنولوژی بدون اتکا به داده‌های گفتاری هر زبان قابل توسعه و به کار بردن برای تمرین ماشین‌هاست. محققان تحقیقاتشان را براساس مطالعه فونتیک یا مطالعه اصوات گفتار انسان انجام می‌دهند. همچنین اطلاعات اضافی دیگری همچون دانش زبان و گویش‌های مختلفی را در بانک اطلاعاتی سیستم گنجاندند.

تاکنون به‌ منظور تشخیص گفتار دو رویکرد متفاوت شایع‌تر از بقیه بوده است؛ هر دو براساس استفاده از داده‌های گفتاری و متون منبع، جهت آموزش به کامپیوتر برای تشخیص زبان‌های مختلف بنا شده است. یک رویکرد انتقال قوانین استنتاجی در مورد کلمات و صداها به کامپیوتر است. محققان معتقدند که با آنالیز بخش کوچکی از یک سخنرانی می‌توان تعیین کرد، صدای خاصی که با تشدید بین 750 تا 1200 هرتز تلفظ شده مربوط به حرف A است و اگر میزان تشدید بین 350 تا 800 مگاهرتز باشد این صدا مربوط به حرف U است. رویکرد دوم این است که آموزش به ماشین را فراموش کرده و با خوراندن نمونه‌های مختلف آوایی و گفتاری بتوان از طریق مقایسه و نمونه‌برداری کامپیوتر را قادر به تشخیص گفتار کرد. در ابتدا ماشین تمام پیشامدهای صوتی محتمل را دریافت می‌کند، در این میان احتمال تفسیر رخدادهایی با فرکانس بالاتر توسط ماشین و تفسیر آن به صوت نمونه بیشتر است.

گروه تحقیقاتی رویکردی را انتخاب کرد که بین این دو رویکرد سنتی قرار می‌گیرد، آنها اطمینان زیادی به رویکرد آماری دارند، از طرفی نیاز به توجه به الگوهای قابل پیش‌بینی در گفتار در دنیای واقعی نیز وجود دارد. در سیستم جدید شاهد ترکیبی از یادگیری داده‌محور و رویکرد مبتنی بر قواعد هستیم. الگوهای گفتار با توجه به فیزیولوژی، گویش، فرهنگ و سلامت افراد متفاوت بوده و همه اینها بر اصوات و تولید جملات تاثیر می‌گذارد. برای این‌که یک ماشین چگونگی درک این گفتار را بیاموزد باید قادر به تشخیص شایع‌ترین تغییرات و اختلافات بین گفتار و زبان باشد.