بررسی نرم‌افزار تشخیص هویت

من شما را می‌شناسم

امروزه کمتر کسی است که با تلفن‌های گویا آشنا نباشد. اگر شما با یک شرکت تماس بگیرید، معمولا باید اول به راهنمایی‌های یک صدای ضبط شده توجه کنید و با فشار دادن دکمه‌های شماره‌گیر به هدف خود برسید. بسیاری از این شرکت‌ها یک گام بیشتر نیز برداشته‌اند و به جای فشار دادن دکمه می‌توانید کلمات خاصی را بگویید تا همان فرمان‌ها اجرا شود. این کار به وسیله یک سیستم تشخیص صوت انجام می‌شود و می‌تواند کلمات و صدا‌ها را به صورت نوشته تبدیل کند.

کد خبر: ۴۳۹۳۱۹

شما حتی می‌توانید از نرم‌افزار‌های تشخیص صوت برای کار‌های خانگی و تجاری نیز استفاده کنید. شما با بعضی از نرم‌افزارها می‌توانید فرمان‌های خود را به صورت صوتی به رایانه بگویید یا به جای تایپ کردن در نرم‌افزار word، کلمات را با صدا به آن منتقل کنید و این نرم‌افزارها خود به خود حرف‌های شما را به صورت نوشته تبدیل می‌کند. شما حتی می‌توانید با استفاده از آنها کارهای عادی مانند باز کردن و بستن فایل‌ها را انجام دهید. نرم‌افزار‌هایی در این زمینه نیز وجود دارند که برای یک هدف خاص مانند پزشکی یا مباحث حقوقی ساخته شده‌اند.

این سیستم‌های تشخیص صوت به افرادی معلول و ناتوان نیز کمک زیادی می‌کند. برای مثال افرادی که به هر دلیل نمی‌توانند تایپ کنند، با استفاده از این نرم‌افزارها می‌توانند نیازهای خود را برطرف کنند. این برنامه‌ها 2 دسته می‌شوند:

1ـ برنامه‌هایی با لغت‌نامه کوچک اما کاربران زیاد. این سیستم‌ها برای استفاده در تلفن‌های گویا مناسب است. کاربران آن می‌توانند با لهجه‌ها و گویش‌های مختلف با آن صحبت کنند و این سیستم در بیشتر موارد کلمات را به صورت صحیح دریافت می‌کند؛ اما از طرفی دیگر ورودی‌ها و فرامینی را که دریافت می‌کند محدود است.

2ـ‌ برنامه‌هایی با لغتنامه بزرگ اما کاربران محدود. این سیستم‌ها برای محیط‌های تجاری که کاربران کمی با آن سر و کار دارند، مناسب است. این سیستم‌ها ضریب دقت بالایی دارند (برای کاربران حرفه‌ای در حدود 85 درصد) و لغت نامه آنها از ده‌ها هزار کلمه تشکیل شده است و باید آنها را به‌گونه‌ای تنظیم کنید که با تعداد محدودی از کاربران به بهترین صورت کار کند. دقت این سیستم برای کاربران دیگر بشدت پایین می‌آید.

برنــــامـــه‌های تشخیص صدایی که در گذشته وجود داشت، در تشخیص جملات و کلمات پشت سر هم مشکــل داشتند و باید هر کـــلمه را جداگانه و بعد از یک وقفه، کلمه بعدی را می‌گفتید. اما اکثر کاربران ترجیح می‌دهند به صورت پیوسته و عادی حرف بزنند و امروزه تعداد قابل توجهی از سیستم‌های تشخیص صوت از این مورد پشتیبانی می‌کنند.

برای تبدیل گفته‌های یک کاربر به نوشته یا فرمان‌های رایانه‌ای، یک کامپیوتر باید مراحل پیچیده‌ای را طی کند. وقتی صحبت می‌کنید در هوا ارتعاش به وجود می‌آید. تبدیل‌کننده آنالوگ به دیجیتال (ADC) این موج آنالوگ را به دیجیتال تبدیل می‌کند تا برای رایانه قابل پردازش باشد. برای این کار، از صوت تولید شده نمونه‌برداری می‌کند و در بازه‌های متوالی موج را بدقت اندازه‌گیری می‌کند. پس از آن، سیستم صوت دیجیتال شده را فیلتر می‌کند تا اختلالات و نویزها را از بین ببرد. بعضی اوقات برای جدا کردن فرکانس‌های مختلف این کار را انجام می‌دهد و بعد صدای تولید شده را به صورت استاندارد در می‌آورد و درجه صدا را کم یا زیاد و آن را تنظیم می‌کند. از آنجا که سرعت حرف زدن انسان همیشه یکسان نیست، صدای دیجیتال تولید شده در رایانه باید با توجه به سرعت حرف زدن و نمونه گرفته شده از آن تنظیم شود.

در مرحله بعد، سیگنال تولید شده به بخش‌های کوچک (در حدود چند صدم یا هزارم ثانیه) تقسیم می‌شود. سپس این بخش‌های کوچک تولید شده با واج‌های صوتی موجود در زبان تعیین شده مقایسه می‌شوند. واج، کوچک‌ترین واحد یک زبان است که از به هم پیوستن آنها یک عبارت با معنی به وجود می‌آید. در زبان انگلیسی تقریبا 40 واج وجود دارد. (زبان‌شناسان مختلف نظرات متفاوتی درباره تعداد واج‌ها دارند)

مرحله بعد ساده به نظر می‌آید، اما در واقع بسیار سخت است و هدف اکثر نرم‌افزارهای تشخیص صوت محسوب می‌شود. این نرم‌افزار واج‌ها را در کنار واج‌های دیگر بررسی می‌کند و با یک نمودار پیچیده آماری، کلمات، عبارات و جملات از پیش تعیین شده را مقایسه می‌کند و بعد از به دست آوردن کلمات گفته شده، آنها را یا به صورت نوشته نمایش می‌دهد یا به صورت فرمان رایانه‌ای اجرا می‌کند.

سیستم‌های تشخیص صوت اولیه، برای کلمات قوانین و معیارهایی مشخص می‌کردند که اگر کاربر این قوانین را رعایت می‌کرد، برنامه به‌درستی کار می‌کرد. اما زبان انسان‌ها همواره در حال تغییر بوده و لهجه‌ها و گویش‌ها نیز متفاوت است. حتی اگر لهجه‌ها و گویش‌های آنها از نظر برنامه استاندارد باشد، سرعت و پیوستگی کلمات ممکن است با قوانین برنامه سازگار نباشد. به این خاطر برنامه‌هایی که بر اساس این قوانین نوشته شده‌اند کاربرد خود را از دست دادند و به این خاطر برنامه‌های قدیمی نمی‌توانستند کلمات متوالی را تشخیص دهند.

سیستم‌های تشخیص صوت جدید از مدل‌سازی آماری قدرتمند و پیچیده استفاده می‌کنند. این سیستم‌ها با استفاده از محاسبات ریاضی و آماری محتمل‌ترین نتیجه را به دست می‌آورند. به گفته جان گروفولو، مدیر گروه سخنرانی در آزمایشگاه فناوری اطلاعات موسسه ملی استانداردها و تکنولوژی، 2 مدل پر کاربر که در نرم‌افزار‌های امروزی استفاده می‌شوند، مدل Hidden Markov و مدل شبکه‌های عصبی است.

این روش‌ها از توابع پیچیده ریاضی استفاده می‌کنند، اما به صورت خلاصه آنها از اطلاعات معلوم برای سیستم استفاده می‌کنند تا اطلاعات مجهول را به دست آورند.

Hidden Markov پرکاربردترین مدل است. در این مدل هر واج مانند یک واحد زنجیر است و از به هم پیوستن آنها یک کلمه به وجود می‌آید. اما این زنجیر هنگام به هم پیوستن ممکن است در نقاط مختلف دچار مشکل شود و برنامه نتواند واج‌ها را بدرستی با صدای تولید شده تطبیق دهد. در این مرحله است که باید احتمال واجی را که بزرگ‌تر است، پیدا کنیم تا برای کامل کردن زنجیرمان استفاده شود. در این فرآیند برنامه به هر واج محتمل، مقداری اختصاص می‌دهد که به داده‌های آماری بستگی دارد.

این فرآیند برای عبارات و جملات پیچیده‌تر می‌شود. سیستم باید تشخیص دهد که شروع و پایان هر کلمه کجاست. لغت‌نامه برنامه‌ها معمولا از 60 هزار کلمه تشکیل شده است و این کلمه‌ها 216 تریلیون جمله احتمالی می‌توانند تشکیل دهند. طبیعی است که حتی قدرتمندترین رایانه‌ها نیز نمی‌توانند این تعداد جمله را پردازش کنند.

برای دهه‌ها، دانشمندان روش‌های آزمایشی تولید کردند تا بتوانند نرم‌افزارهای بهتری تولید کنند ؛ اما محدودیت‌های سخت‌افزاری جلوی پیشرفت آنها را می‌گرفت. امروزه با پیشرفت در صنعت رایانه، کار برای آنها آسان‌تر است. در آینده ممکن است تشخیص صوت به فهم صوت تبدیل شود. اطلاعات آماری که امروزه برای تشخیص کلمات به کار می‌روند ممکن است در آینده، معنای پنهانی یک کلمه را تشخیص دهد. با این که این اهداف به آرزوهایی دست نیافتنی شباهت دارد، اما با پیشرفت‌های به دست آمده در زمینه هوش مصنوعی، ممکن است در 25 سال آینده روزی را ببینیم که رایانه‌ها با انسان براحتی گفت‌وگو کنند.