در تپش این هفته، ماجرای فریب و تعرض در پوشش عرفانهای دروغین و رمالی را بررسی کردیم
این سیستم به این صورت کار میکند که صدای ضبطشده از طریق API به AT&T فرستاده میشود و نتیجه در قالب یک متن برگردانده میشود. اینکه چه کارهایی با متن بازگشتی انجام شود، به دلخواه برنامهنویس است و میتواند استفادههای مختلفی از آن ببرد. از جمله:
- جستجوی وب
- جستجوی متنی در نرمافزار
- تبدیل Voicemail به متن
- ارسال پیامک
- پرسیدن سوال و دریافت جواب
- کنترل تلویزیون
- و...
API تولیدی در محیطهای مختلفی از جمله HTML
5، مایکروسافت، اندروید و iOS قابل استفاده و پیادهسازی است. از قابلیتهای کلیدی این API میتوان به SDKهای هر سیستم عامل و SDK مخصوص HTML5 اشاره کرد. استفاده از این APIها فقط محدود به سیستم مخابراتی AT&T نیست و میتواند با هر اپراتوری فعالیت کند.برای استفاده از این API، کافی است مواردی را رعایت کنیم. نخست، فرمت فایل صوتی است که با سرور تبادل میشود. این فایل باید به یکی از دو فرمت زیر باشد:
audio/amr (preferred format)
audio/wav
که بهصورت جزئیتر میتوان آنها را به صورت زیر تنظیم کرد تا بهترین حالت ممکن وجود داشته باشد.
16 bit PCM WAV, single channel,
8 kHz sampling
AMR (narrowband), 12.2 kbit/s, 8 kHz sampling
فایل صوتی باید کمتر یا مساوی 4 دقیقه باشد.
در حال حاضر، حوزههای معنایی زیر توسط AT&T پشتیبانی میشوند:
Business Search، Web Search، SMS، Voicemail to Text، Question and Answer، UverseEPG
برای تعیین حوزه معنایی باید آن را در هدر HTTP ارسال کرد.
ارسال فایل به سرور به دو صورت فایلی و استریم انجام میشود. در حالت فایلی باید حجم فایل ارسالی در هدر HTTP مشخص شده باشد و در حالت استریم باید کدک، میزان هر بسته اطلاعاتی و تعداد آنها مشخص شود.
تبدیل ناموفق در این سیستم با بازگرداندن ارور
HTTP 400 انجام میشود و یکی از این موارد را در بر میگیرد:ـ صدایی دریافت نشده است.
ـ کلمات به اندازه کافی نبود.
ـ کلمات بیش از حد بود.
ـ صدا بسیار آرام بود.
ـ صدا قطع و وصل شده است.
API قادر به تلاش دوباره برای دریافت اطلاعات نیست و این برنامه است که باید تشخیص دهد آیا تمایل به ارسال مجدد فایل دارد یا خیر.
در زیر نمونهای از بسته ارسالی از سوی نرمافزار را مشاهده میکنید:
POST/rest/1/SpeechToText HTTP/1.1
Host: api.att.com
Authorization: Bearer 38C2399A23999
Accept: application/xml
Content-Length: 5655
Connection: Close
Content-Type: audio/amr
X-SpeechContext: BusinessSearch
متد SpeechToText، تعدادی پارامتر ورودی دارد که به این صورت است:
پارامتر Accept که فرمت اطلاعات را تعیین میکند. فرمتهای مجاز، application/json و application/xml هستند.
پارامتر Content-Length، طول فایل صوتی را مشخص میکند.
پارامتر Content-Type ، فرمت فایل صوتی را مشخص میکند.
پارامتر Transfer-Encoding، هنگامی که از روش استریم برای ارسال اطلاعات استفاده شود، کدک فایل صوتی را در خود دارد.
پارامتر X-SpeechContext، حوزه معنایی فایل صوتی را ارسال میکند. و در نهایت، پارامتر باینری audio data، فایل صوتی را به سرور ارسال میکند.
امیربهاالدین سبطالشیخ
در تپش این هفته، ماجرای فریب و تعرض در پوشش عرفانهای دروغین و رمالی را بررسی کردیم
گزارش «جامجم» درباره دستاوردهای زبان فارسی در گفتوگو با برخی از چهرههای ادب معاصر
معاون وزیر بهداشت: