تقلید صدا به کمک رایانه

آیا برایتان جالب است ایمیل هایی را که از دوستان و آشنایانتان می رسد با صدای فرستندگان بشنوید؛ در واقع نرم افزارهایی طراحی شده اند که کار تقلید صدا را از طریق تبدیل متن به آوا انجام می دهند.

کد خبر: ۱۴۵۳۴۳

در چنین سیستم هایی صدای فرد با استفاده از شبکه های عصبی سیستم ضبط می شود و پس از پردازش توسط نرم افزار تبدیل به صدای فرد دیگری شده و قابل شنیدن از طریق رایانه می شود.
بهروز مکی ، دانش آموخته کارشناسی ارشد دانشگاه امیرکبیر نرم افزار تقلید صدا را در کشور طراحی کرده است. ما نیز با وی به گفتگو نشسته ایم.

نرم افزار تقلید صدا چه نوع وسیله ای است و چه کاربردهایی دارد؛
نرم افزار تقلید صدا روشی است که در آن گفتار بیان شده توسط گوینده ای (گوینده مبدا) به طریقی تغییر می یابد که به نظر می رسد شخص دیگری (گوینده هدف) آن را بیان کرده است. کاربردهای متعددی ازجمله سرگرمی های صوتی تصویری ، دوبله فیلم با صدای خود هنرپیشه ، ساخت سیستم های کمکی برای بیمارانی که مشکل گویشی دارند و پردازش اولیه در سیستم های بازشناسی گفتار برای این سیستم ذکر شده است . ولیکن شاید مهمترین کاربرد تبدیل گوینده استفاده از آن در سیستم های تبدیل متن به آوا در رایانه باشد.

آیا سیستم طراحی شده به بهبود کیفیت صداهای ضبط شده هم کمک می کند؛
از آنجا که سیستم های تبدیل متن به آوا به خودی خود احتیاج به پردازش های پیچیده و فراوانی دارند ، سعی بر آن است که این گونه سیستم ها به طریقی طراحی شوند که متن با آوای یک فرد خاص خوانده شود. به همین علت غالبا از یک سیستم تبدیل گوینده در ادامه سیستم های تبدیل متن به آوا استفاده می شود که آوای تولید شده را با صدای افراد مختلف ایجاد نماید.همچنین این سیستم مساله جمع آوری اطلاعات را بسیار ساده می نماید زیرا با داشتن گفتار یک شخص خاص می توان گفتار افراد مختلف را تولید کرد. این مطلب بویژه در مواردی که فرد موردنظر به هر علتی وجود نداشته باشد ، اهمیت پیدا می کند. از دیدگاه نظری نیز هدف از ایجاد سیستم تبدیل گوینده ، دستیابی به شناخت کامل تر نسبت به مشخصات سیگنال گفتار ، نحوه تولید و سازوکار درک آن در مغز انسان است . برخلاف بسیاری از تحقیقات دانشگاهی دیگر ، تبدیل گوینده از نظر صنعتی با اقبال فراوانی روبه رو گشته است به طوری که در حال حاضر گروههای تحقیقاتی بسیاری در سرتاسر جهان تحقیقات خویش را به سمت مساله تبدیل گوینده سوق داده اند و امیدوارند که بتوانند سیستم های تبدیل گوینده و زبان همزمان مقاوم در برابر اغتشاشاتی ایجاد نمایند.

این دستگاه چگونه و تحت چه مکانیسمی موفق به تقلید صدا می شود؛ از شبکه های عصبی استفاده شده در این سیستم ها و نحوه عملکردشان نیز برایمان بگویید؛
شبکه های عصبی نوعی از سیستم های پردازش هوشمند هستند که طی 2 دهه اخیر و براساس ایده های زیستی طراحی شده اند. این سیستم های بویژه توانایی پردازش سیگنال های پویای غیرخطی ازجمله سیگنال گفتار را دارند. تبدیل گوینده در این روش بر این اساس صورت می گیرد که شبکه با استفاده از حجم محدودی از سیگنال هر فرد به طریقی آموزش می بیند که بتواند بعضی مولفه های اساسی حاوی اطلاعات گوینده را از مولفه اساسی حاوی اطلاعات مفهوم گفتار جدا کند. سپس این مولفه های اساسی حاوی اطلاعات هر گوینده به مولفه های فرد جدید تبدیل می شوند و مجددا با مولفه های حاوی اطلاعات مفهومی گفتار ترکیب می شوند تا به این ترتیب گفتار با بیان فرد جدیدی ساخته شود.

پردازش صدا چگونه و با چه سطح وضوح و دقتی در سیستم طراحی شده توسط شما صورت می گیرد؛ نرم افزار طراحی شده چه مزیتهایی نسبت به سیستم های مشابه دارد؛
با وجود تمام تلاشهایی که تا به امروز صورت گرفته است ، تمامی سیستم های ایجاد شده دارای مشکلاتی هستند: روشهای ارائه شده تا به امروز تنها در حالتی که مجموعه منطبق و همگونی از گفتار افراد منبع و هدف در اختیار داشته باشند توانایی تبدیل گوینده را دارند. در حالی که در بسیاری از موارد اصلا امکان ضبط یکنواخت صدای افراد منبع و هدف وجود ندارد. همچنین در بسیاری از روشهای ایجاد شده برای تبدیل گوینده گفتار حالت طبیعی خود را از دست می دهد. مساله مهم دیگری که کیفیت عملکرد سیستم را تحت الشعاع خود قرار می دهد ، وجود تنوعات در سیگنال است . اکثر روشهای ارائه شده در زمینه تبدیل گوینده در شرایط طبیعی نیز عملکرد مناسبی ندارند. حال چنانچه سیگنال گفتار دچار تنوعات زائدی (همچون وجود اغتشاشات ، سرعت بیانهای متفاوت ، شرایط ضبط گوناگون و...) باشد کیفیت سیستم بشدت افت می کند. به همین علت امروزه بحث تبدیل گوینده مقاوم مطرح شده است که البته روشهای معرفی شده بسیار ابتدایی هستند.

نرم افزار طراحی شده چه مزیتهایی نسبت به سیستم های مشابه دارد؛
در نرم افزار ارائه شده سعی شده است که اولا مساله وجود مجموعه منطبق و همگون از گفتار افراد منبع و هدف حل شود و همچنین تعداد گوینده ها را از 8 گوینده (آنچه که در روشهای قبلی استفاده می شد) به 50گوینده افزایش داد. مزیت دیگر این روش در پردازش اطلاعات است که باعث حفظ حالت طبیعی گفتار می شود. در مجموع کیفیت تبدیل در این روش در حدود 10 درصد نسبت به روشهای قبلی بهبود یافته است که با توجه به افزایش تعداد گوینده ها رقم قابل توجهی است.