
شما حتی میتوانید از نرمافزارهای تشخیص صوت برای کارهای خانگی و تجاری نیز استفاده کنید. شما با بعضی از نرمافزارها میتوانید فرمانهای خود را به صورت صوتی به رایانه بگویید یا به جای تایپ کردن در نرمافزار word، کلمات را با صدا به آن منتقل کنید و این نرمافزارها خود به خود حرفهای شما را به صورت نوشته تبدیل میکند. شما حتی میتوانید با استفاده از آنها کارهای عادی مانند باز کردن و بستن فایلها را انجام دهید. نرمافزارهایی در این زمینه نیز وجود دارند که برای یک هدف خاص مانند پزشکی یا مباحث حقوقی ساخته شدهاند.
این سیستمهای تشخیص صوت به افرادی معلول و ناتوان نیز کمک زیادی میکند. برای مثال افرادی که به هر دلیل نمیتوانند تایپ کنند، با استفاده از این نرمافزارها میتوانند نیازهای خود را برطرف کنند. این برنامهها 2 دسته میشوند:
1ـ برنامههایی با لغتنامه کوچک اما کاربران زیاد. این سیستمها برای استفاده در تلفنهای گویا مناسب است. کاربران آن میتوانند با لهجهها و گویشهای مختلف با آن صحبت کنند و این سیستم در بیشتر موارد کلمات را به صورت صحیح دریافت میکند؛ اما از طرفی دیگر ورودیها و فرامینی را که دریافت میکند محدود است.
2ـ برنامههایی با لغتنامه بزرگ اما کاربران محدود. این سیستمها برای محیطهای تجاری که کاربران کمی با آن سر و کار دارند، مناسب است. این سیستمها ضریب دقت بالایی دارند (برای کاربران حرفهای در حدود 85 درصد) و لغت نامه آنها از دهها هزار کلمه تشکیل شده است و باید آنها را بهگونهای تنظیم کنید که با تعداد محدودی از کاربران به بهترین صورت کار کند. دقت این سیستم برای کاربران دیگر بشدت پایین میآید.
برنــــامـــههای تشخیص صدایی که در گذشته وجود داشت، در تشخیص جملات و کلمات پشت سر هم مشکــل داشتند و باید هر کـــلمه را جداگانه و بعد از یک وقفه، کلمه بعدی را میگفتید. اما اکثر کاربران ترجیح میدهند به صورت پیوسته و عادی حرف بزنند و امروزه تعداد قابل توجهی از سیستمهای تشخیص صوت از این مورد پشتیبانی میکنند.
برای تبدیل گفتههای یک کاربر به نوشته یا فرمانهای رایانهای، یک کامپیوتر باید مراحل پیچیدهای را طی کند. وقتی صحبت میکنید در هوا ارتعاش به وجود میآید. تبدیلکننده آنالوگ به دیجیتال (ADC) این موج آنالوگ را به دیجیتال تبدیل میکند تا برای رایانه قابل پردازش باشد. برای این کار، از صوت تولید شده نمونهبرداری میکند و در بازههای متوالی موج را بدقت اندازهگیری میکند. پس از آن، سیستم صوت دیجیتال شده را فیلتر میکند تا اختلالات و نویزها را از بین ببرد. بعضی اوقات برای جدا کردن فرکانسهای مختلف این کار را انجام میدهد و بعد صدای تولید شده را به صورت استاندارد در میآورد و درجه صدا را کم یا زیاد و آن را تنظیم میکند. از آنجا که سرعت حرف زدن انسان همیشه یکسان نیست، صدای دیجیتال تولید شده در رایانه باید با توجه به سرعت حرف زدن و نمونه گرفته شده از آن تنظیم شود.
در مرحله بعد، سیگنال تولید شده به بخشهای کوچک (در حدود چند صدم یا هزارم ثانیه) تقسیم میشود. سپس این بخشهای کوچک تولید شده با واجهای صوتی موجود در زبان تعیین شده مقایسه میشوند. واج، کوچکترین واحد یک زبان است که از به هم پیوستن آنها یک عبارت با معنی به وجود میآید. در زبان انگلیسی تقریبا 40 واج وجود دارد. (زبانشناسان مختلف نظرات متفاوتی درباره تعداد واجها دارند)
مرحله بعد ساده به نظر میآید، اما در واقع بسیار سخت است و هدف اکثر نرمافزارهای تشخیص صوت محسوب میشود. این نرمافزار واجها را در کنار واجهای دیگر بررسی میکند و با یک نمودار پیچیده آماری، کلمات، عبارات و جملات از پیش تعیین شده را مقایسه میکند و بعد از به دست آوردن کلمات گفته شده، آنها را یا به صورت نوشته نمایش میدهد یا به صورت فرمان رایانهای اجرا میکند.
سیستمهای تشخیص صوت اولیه، برای کلمات قوانین و معیارهایی مشخص میکردند که اگر کاربر این قوانین را رعایت میکرد، برنامه بهدرستی کار میکرد. اما زبان انسانها همواره در حال تغییر بوده و لهجهها و گویشها نیز متفاوت است. حتی اگر لهجهها و گویشهای آنها از نظر برنامه استاندارد باشد، سرعت و پیوستگی کلمات ممکن است با قوانین برنامه سازگار نباشد. به این خاطر برنامههایی که بر اساس این قوانین نوشته شدهاند کاربرد خود را از دست دادند و به این خاطر برنامههای قدیمی نمیتوانستند کلمات متوالی را تشخیص دهند.
سیستمهای تشخیص صوت جدید از مدلسازی آماری قدرتمند و پیچیده استفاده میکنند. این سیستمها با استفاده از محاسبات ریاضی و آماری محتملترین نتیجه را به دست میآورند. به گفته جان گروفولو، مدیر گروه سخنرانی در آزمایشگاه فناوری اطلاعات موسسه ملی استانداردها و تکنولوژی، 2 مدل پر کاربر که در نرمافزارهای امروزی استفاده میشوند، مدل Hidden Markov و مدل شبکههای عصبی است.
این روشها از توابع پیچیده ریاضی استفاده میکنند، اما به صورت خلاصه آنها از اطلاعات معلوم برای سیستم استفاده میکنند تا اطلاعات مجهول را به دست آورند.
Hidden Markov پرکاربردترین مدل است. در این مدل هر واج مانند یک واحد زنجیر است و از به هم پیوستن آنها یک کلمه به وجود میآید. اما این زنجیر هنگام به هم پیوستن ممکن است در نقاط مختلف دچار مشکل شود و برنامه نتواند واجها را بدرستی با صدای تولید شده تطبیق دهد. در این مرحله است که باید احتمال واجی را که بزرگتر است، پیدا کنیم تا برای کامل کردن زنجیرمان استفاده شود. در این فرآیند برنامه به هر واج محتمل، مقداری اختصاص میدهد که به دادههای آماری بستگی دارد.
این فرآیند برای عبارات و جملات پیچیدهتر میشود. سیستم باید تشخیص دهد که شروع و پایان هر کلمه کجاست. لغتنامه برنامهها معمولا از 60 هزار کلمه تشکیل شده است و این کلمهها 216 تریلیون جمله احتمالی میتوانند تشکیل دهند. طبیعی است که حتی قدرتمندترین رایانهها نیز نمیتوانند این تعداد جمله را پردازش کنند.
برای دههها، دانشمندان روشهای آزمایشی تولید کردند تا بتوانند نرمافزارهای بهتری تولید کنند ؛ اما محدودیتهای سختافزاری جلوی پیشرفت آنها را میگرفت. امروزه با پیشرفت در صنعت رایانه، کار برای آنها آسانتر است. در آینده ممکن است تشخیص صوت به فهم صوت تبدیل شود. اطلاعات آماری که امروزه برای تشخیص کلمات به کار میروند ممکن است در آینده، معنای پنهانی یک کلمه را تشخیص دهد. با این که این اهداف به آرزوهایی دست نیافتنی شباهت دارد، اما با پیشرفتهای به دست آمده در زمینه هوش مصنوعی، ممکن است در 25 سال آینده روزی را ببینیم که رایانهها با انسان براحتی گفتوگو کنند.
محمدعلی زارعیفر
منبع: howstuffworks.vom
در یادداشتی اختصاصی برای جام جم آنلاین مطرح شد
در یادداشتی اختصاصی برای جام جم آنلاین مطرح شد
عضو دفتر حفظ و نشر آثار رهبر انقلاب در گفتگو با جام جم آنلاین مطرح کرد
محمود قماطی، نائبرئیس شورای سیاسی حزبالله در گفتوگوی اختصاصی با «جامجم»:
صریح و بیپرده با علیرضا خانی عضو سابق هیأت مدیره استقلال
داود فتحعلیبیگی معتقد است اقتباس از یک متن باید بهگونهای باشد که با فرهنگ بومی ما سازگاری پیدا کند