حرف‌شنوی نرم‌افزارها

AT&T هم به جمع شرکت‌های عرضه‌کننده سرویس‌های نرم‌افزاری اضافه شد. این شرکت، API جدیدی معرفی کرده است که نرم‌افزارها می‌توانند با استفاده از آن به قابلیت‌های تشخیص و تبدیل گفتار به متن مجهز شوند. پیش از این، نرم‌افزارهای جستجوی گوگل، اپل سیری و اندروید ایریس تنها نرم‌افزارهایی بودند که در این زمینه فعالیت می‌کردند اما API جدید AT&T، هر چند فعلا در آمریکا کار می‌کند، اما امکان استفاده از این قابلیت را برای تعداد بیشتری از نرم‌افزارها فراهم می‌کند.
کد خبر: ۵۲۵۴۷۵

این سیستم به این صورت کار می‌کند که صدای ضبط‌شده از طریق API به AT&T فرستاده می‌شود و نتیجه در قالب یک متن برگردانده می‌شود. این‌که چه کارهایی با متن بازگشتی انجام شود، به دلخواه برنامه‌نویس است و می‌تواند استفاده‌های مختلفی از آن ببرد. از جمله:

- جستجوی وب

- جستجوی متنی در نرم‌افزار

- تبدیل Voicemail به متن

- ارسال پیامک

- پرسیدن سوال و دریافت جواب

- کنترل تلویزیون

- و...

API تولیدی در محیط‌های مختلفی از جمله HTML5، مایکروسافت، اندروید و iOS قابل استفاده و پیاده‌سازی است. از قابلیت‌های کلیدی این API‌ می‌توان به SDKهای هر سیستم عامل و SDK مخصوص HTML5 اشاره کرد. استفاده از این APIها فقط محدود به سیستم مخابراتی AT&T نیست و می‌تواند با هر اپراتوری فعالیت کند.

برای استفاده از این API، کافی است مواردی را رعایت کنیم. نخست، فرمت فایل صوتی است که با سرور تبادل می‌شود. این فایل باید به یکی از دو فرمت زیر باشد:

audio‌/‌amr (preferred format)

audio‌/‌wav

که به‌‌صورت جزئی‌تر می‌توان آنها را به صورت زیر تنظیم کرد تا بهترین حالت ممکن وجود داشته باشد.

16 bit PCM WAV, single channel,
8 kHz sampling

AMR (narrowband), 12.2 kbit‌/‌s, 8 kHz sampling

فایل صوتی باید کمتر یا مساوی 4 دقیقه باشد.

در حال حاضر، حوزه‌های معنایی زیر توسط AT&T پشتیبانی می‌شوند:

Business Search، Web Search، SMS، Voicemail to Text، Question and Answer، UverseEPG

برای تعیین حوزه معنایی باید آن را در هدر HTTP ارسال کرد.

ارسال فایل به سرور به دو صورت فایلی و استریم انجام می‌شود. در حالت فایلی باید حجم فایل ارسالی در هدر HTTP مشخص شده باشد و در حالت استریم باید کدک، میزان هر بسته اطلاعاتی و تعداد آنها مشخص شود.

تبدیل ناموفق در این سیستم با بازگرداندن ارور HTTP 400 انجام می‌شود و یکی از این موارد را در بر می‌گیرد:

‌ـ‌ صدایی دریافت نشده است.

‌ـ‌ کلمات به اندازه کافی نبود.

‌ـ‌ کلمات بیش از حد بود.

‌ـ‌ صدا بسیار آرام بود.

‌ـ‌ صدا قطع و وصل شده است.

API قادر به تلاش دوباره برای دریافت اطلاعات نیست و این برنامه است که باید تشخیص دهد آیا تمایل به ارسال مجدد فایل دارد یا خیر.

در زیر نمونه‌ای از بسته ارسالی از سوی نرم‌افزار را مشاهده می‌کنید:

POST/rest/1/SpeechToText HTTP/1.1

Host: api.att.com

Authorization: Bearer 38C2399A23999

Accept: application/xml

Content-Length: 5655

Connection: Close

Content-Type: audio/amr

X-SpeechContext: BusinessSearch

متد SpeechToText، تعدادی پارامتر ورودی دارد که به‌ این صورت است:

پارامتر Accept که فرمت اطلاعات را تعیین می‌کند. فرمت‌های مجاز، application‌/‌json و application‌/‌xml هستند.

پارامتر Content-Length‌‌، طول فایل صوتی را مشخص می‌کند.

پارامتر Content-Type ، فرمت فایل صوتی را مشخص می‌کند.

پارامتر Transfer-Encoding، هنگامی که از روش استریم برای ارسال اطلاعات استفاده شود، کدک فایل صوتی را در خود دارد.

پارامتر ‌X-SpeechContext، حوزه معنایی فایل صوتی را ارسال می‌کند. و در نهایت، پارامتر باینری audio data، فایل صوتی را به سرور ارسال می‌کند.

امیربهاالدین سبط‌الشیخ 

newsQrCode
ارسال نظرات در انتظار بررسی: ۰ انتشار یافته: ۰

نیازمندی ها