راه اندازی سرویس مترجم بومی

فرازین رقیب مترجم گوگل

«تمشا»، نرم افزاری که ترجمه کردن را می آموزد

اشاره: زبان یکی از آن عجایب خلقت است که هنوز و پس از سال‌ها تحقیق، نمی‌دانیم کی و کجا آغاز شده است. بشر امروزه می‌داند تنها موجودی نیست که با اصوات با همنوعان خود ارتباط برقرار می‌کند.
کد خبر: ۵۷۶۵۳۶
«تمشا»، نرم افزاری که ترجمه کردن را می آموزد

نهنگ‌ها، میمون‌ها و حتی سگ‌ها هم زبان خاص خودشان را دارند. اما بی‌هیچ تردیدی می‌دانیم زبان‌های مختلفی که انسان با آنها تکلم می‌کند یا متن می‌‌نویسد، بیشترین حجم ممکن اطلاعات را با خود منتقل می‌کنند.

از پیدایش زبان عجیب‌تر شاید تنوع زبانی بشر باشد. هر گوشه‌ای از این سیاره را که می‌کاوی، چند زبان، گویش یا لهجه پیدا خواهی کرد. 

حال و در دورانی که ارتباطات حرف اول را می‌زند و همه چیز در حال کامپیوتری شدن است، آنها که حرفه‌شان مترجمی است هم باید خوشحال باشند و هم بیمناک.

خوشحال چون نیاز به حرفه آنها روزافزون است و بیمناک چون ماشین‌های مترجم دارند می‌آیند تا جای آنها را بگیرند.

شاید شما که این سطور را می‌خوانید بارها از سرویس‌های ترجمه اینترنتی مثل مترجم گوگل استفاده کرده باشید اما قطعا برایتان جالب خواهد بود که یک استاد جوان در پلی تکنیک تهران (دانشگاه صنعتی امیرکبیر) و دانشجوی پر شور و هیجانش ادعا می‌کنند برای اولین بار در دنیا توانسته‌اند مدل بخش زبانشناسی مغز انسان را روی کامپیوتر پیاده کنند.

شنیدن تلفنی همین چند جمله از  سید محمد محمدزاده ، با آن شور و هیجان فراوان کافی بود تا درخواست گفت‌وگویی برای استادش، دکتر شهرام خدیوی، عضو هیات علمی دانشگاه صنعتی امیرکبیر و رئیس آزمایشگاه فناوری زبان طبیعی بفرستیم تا از نزدیک پای صحبت‌های او و این دانشجو بنشینیم.

سوال اساسی شاید این باشد که چرا ما به مترجم ماشینی یا به عبارتی سیستم پردازش زبان طبیعی احتیاج داریم؟

خدیوی: به نظر من پاسخ واضح است. چون ما در عصر متفاوتی زندگی می‌کنیم. فرض کنیم ما در حدود 200 سال پیش زندگی می‌کنیم. شاید در آن زمان در کل سیاره زمین 2000 جلد کتاب وجود داشت که دائم هم بازنویسی می‌شدند. اما امروز وبلاگ‌نویسان و اعضای شبکه‌های اجتماعی دارند روزانه به اندازه همان حجم 2000 کتاب، مطلب در اینترنت تولید می‌کنند. حالا و در این دوره و زمانه مطالبی که تولید می‌شود خیلی هم خودمانی است و دقیقا دارد می‌گوید که من چه چیزی می‌خورم، چه می‌پوشم و قصد خرید چه کالاهایی را دارم. درباره فلان اتفاق چه احساسی دارم یا می‌خواهم چه عکس‌العملی انجام دهم. فکرش را بکنید اگر مدیران یکی از صنایع بزرگ کشور ما که مثلا قرار است بروند در یک کشور آفریقایی که تازه مناسباتش با من حسنه شده، دفتر فروش باز کنند، بتوانند در عرض چند روز و با ترجمه محتوای تولید و منتشر شده در شبکه‌های اجتماعی و وبلاگ‌های آن کشور به قول معروف مزه دهن مردم دستشان بیاید، چقدر می‌تواند در موفقیت آنها موثر باشد. از سویی دیگر این روزها ارتباطات خیلی گسترده شده و باز هم روابط بین‌المللی دارد نزدیک‌تر می‌شود. شما اینجا در ایران و در یک غروب گرم تابستانی از شادی مردم به مناسبت راهیابی‌شان به جام جهانی فیلمی می‌گیرید و چند دقیقه بعد پیرمردی در یک روستای دورافتاده در شیلی، در حالی که تازه از خواب برخاسته و از پنجره بارش برف زمستانی را نگاه می‌کند، از گرمای فیلم شما، لبخند بر لب می‌آورد. این همه اطلاعات که با سرعت نور در حال جابجا شدن در سیاره زمین است با یک چالش اساسی به نام ترجمه روبه‌رو است. اگر این مشکل حل شود، حجم اطلاعات قابل تبادل چند برابر افزایش خواهد یافت.

چه شد که  مدلسازی مغز را برای ترجمه انتخاب کردید؟

محمدزاده: مشاهدات ما نشان می‌داد سیستم ترجمه آماری که الان بوفور در دنیا از آن استفاده می‌شود، با وجود همه مزایا و دقت، باز هم با ترجمه انسانی فاصله بسیاری دارد. به همین منظور ما فکر کردیم که بیاییم و قدم آخر را اول برداریم. یعنی برویم ببینیم که انسان چگونه ترجمه می‌کند. سال 1330 یعنی حدود 62 سال پیش، سازمان یونسکو طی تحقیقی به این نتیجه می‌رسد که زبان، هنر است و ترجمه کردن هم در نتیجه یک هنر است و نمی‌شود در واقع آن را به روش‌های غیرهنری و غیرانسانی درآورد. وقتی چنین نتیجه‌ای گرفته شد یعنی دنیای کامپیوتر و منطق دیجیتالی که با صفر و یک‌ها سروکار دارد باید کلا دور این بحث زبان و ترجمه را خط بکشد. البته که ما در سال‌های پس از آن می‌بینیم الگوریتم‌های آماری یا قاعده‌  مند از سوی متخصصان نرم‌افزار نوشته شد و تمام سیستم‌های ترجمه کامپیوتری که امروزه در دنیا وجود دارد مبتنی بر این روش‌هاست. اما ما با خودمان فکر کردیم بیاییم بررسی کنیم و ببینیم مغز انسان چگونه زبان و ترجمه را فرا می‌گیرد. چگونه لغت‌ها را ذخیره می‌کند، چگونه جملات با مفهوم را بازآفرینی می‌کند و اصولا چگونه سیستم‌های مختلف زبانی را یاد گرفته و چطور آنها را از هم تفکیک می‌کند. ما پس از مطالعه کاملی در این حوزه که البته خودش موضوعی در حال توسعه است، آمدیم و مدلی کامپیوتری از عملکرد مغز انسان ایجاد کردیم که بتواند مثل انسان زبان یاد بگیرد و ترجمه کند. ما اصلا انتظار نداشتیم که زبان‌آموز کامپیوتری ما بتواند کار مهمی انجام دهد، اما در همان آزمایش نخست همه ما را شگفت‌زده کرد. الان سیستم‌های آماری یا قاعده‌مند که سال‌هاست روی‌ آن کار می‌شود می‌توانند از ترجمه یک متن پیچیده نمره 47 از 100 را بگیرند. حالا کودک تازه متولد شده ما با آموزش به مراتب کمتر آمده و امتیاز 36 می‌گیرد. این یک پیروزی است. اما نکته اینجاست که ما هنوز نمی‌دانیم ظرفیت یادگیری این کودک چقدر است و آیا قرار است از این چیزی که هست باهوش‌تر شود یا همین جا درجا خواهد زد.

پس آینده مبهم است؟

خدیوی: بله. کاملا مبهم است. شاید شما سه سال دیگر بیایید بپرسید نتیجه کار چی شد و ما بگوییم هیچ! رفتیم جلو اما جواب نگرفتیم. شما باید توجه کنید که ما برای اولین بار در جهان این روش ترجمه ماشینی را توسعه داده‌ایم و آزمایش کرده‌ایم. ما جسارت و جرات کردیم که بیاییم و با رویکرد دیگری غیر از آنچه در دنیا مرسوم است ترجمه ماشینی را انجام دهیم. ما در واقع برخلاف همه روش‌های معمول، آمدیم نرم افزاری را نوشتیم که مثل کودک که به دهان مادرش نگاه می‌کند، به محتویات نوشتاری که ما به آن می‌دهیم نگاه می‌کند و آرام ارام معنی لغات را درک می‌کند، ارتباط بین لغت‌ها را می‌فهمد و پس از مدتی می‌تواند جملات را بفهمد و حتی خودش تولید کند. در نهایت این کودک باید بتواند متون ادبی، فنی و حقوقی را نیز ترجمه کند. اما ما هنوز نمی‌دانیم در آینده کودک ما چگونه رشد خواهد کرد.

مگر خود شما این نرم افزار را ننوشتید، پس چطور نمی‌دانید چه اتفاقی قرار است بیفتد؟

محمدزاده: ببینید الگوریتمی که ما نوشته‌ایم باید بتواند درست مثل مغز انسان رفتار کند و روز به روز باهوش‌تر و خبره‌تر شود. اما این کار زمان می‌خواهد و ما نمی‌دانیم وقتی حجم اطلاعات این سیستم افزایش می‌یابد، سرعت پردازش و تحلیل آن چگونه تغییر می‌کند. آیا سیستم خودش می‌تواند الگوریتم‌های جدید خلق کند و روابط بین لغت‌ها، جملات و مفاهیم را کوتاه کند یا یک جایی به قول معروف قاطی می‌کند. آنجا را می‌توانیم حداکثر قابلیت یادگیری این سیستم بنامیم. از نظر تئوری این نقطه حداکثری نباید وجود داشته باشد اما در دنیای هوش مصنوعی هیچ بایدی تحمل نمی‌شود.

حالا این کودک شما چند ساله است؟

محمد زاده : کودک ما که تمشا (ترجمه ماشینی شبه انسان)  نام دارد  در مقایسه با یک بچه انسان که دو زبانه است، حدود شش سال عمر دارد. اما این کودک شش ساله محدود به مفاهیم ساده نیست. منظورم این است که یک بچه شش ساله که از نوزادی با دو زبان بزرگ شده باشد، می‌تواند در حد مفاهیمی که خودش بلد است، مثل ارتباط با والدین یا ابراز نیازهای خودش به هر دو زبان صحبت کند یا جملات شما را به زبان دومی که بلد است، ترجمه کند. دقت ترجمه نرم‌افزار ما مثل آن کودک است، اما عمق مفاهیمی که می‌تواند ترجمه کند نامحدود است. ما برای آزمایش یک سند فنی مربوط به نگهداری از یک ابزار مکانیکی را به او داده‌ایم تا ترجمه کند و نتیجه کاملا قابل قبول بود.

غیر از روش جدیدی که شما توسعه داده‌اید و گفتید مبتنی بر روش مغز انسان است، چه روش‌های دیگری برای ترجمه ماشینی وجود دارد؟

خدیوی: قبل از این‌که درباره روش‌های مختلف ترجمه ماشینی صحبت کنیم باید متذکر شوم اصولا زبان یعنی ده‌ها هزار لغت، صدها قاعده دستوری و هزاران استثنا. با توجه به این نکته می‌توان روش‌های ترجمه ماشینی در دنیا را به دو روش قاعده‌مند و آماری تفکیک کرد که البته حالا ما روش مبتنی بر عملکرد مغز انسان را نیز پیشنهاد داده‌ایم. در روش قاعده‌مند درست مثل این است که شما دو کتاب لغت و قواعد دستور زبان را برای مثلا فارسی و انگلیسی به یک کامپیوتر بدهید و از آن بخواهید کار ترجمه را برای شما انجام دهد. اما زبان ریشه در احساسات انسانی دارد. مثال ساده و عامیانه‌ای وجود دارد که می‌گوید بفرما، بنشین و بتمرگ، از نظر عملی که باید انجام شود، یک معنی می‌دهد اما شما ببینید بار معنایی و احساسی آن چقدر متفاوت است. از سوی دیگر ترجمه در صنایع و تخصص‌های مختلف، نگاهی متفاوت به کلمات دارد. برای مثال کلمه پهلو گرفتن در صنعت دریانوردی، هوانوردی و فضانوردی به کار می‌رود اما در هر کدام یک معنی متفاوتی دارد. اینجا بود که متخصصان کامپیوتر دیدند بهترین منبع برای یک کامپیوتر می‌تواند کتاب‌ها و متون ترجمه شده‌ای باشد که در حوزه‌های تخصصی و از سوی مترجمان خبره انجام شده است. امروزه کتابخانه‌های نوع بشر پر است از کتاب‌ها، مجلات و مقالاتی که هرکدام توسط مترجمان کارکشته و معروفی به زبان‌های مختلفی ترجمه شده‌ است.‌ حال کافی است شما نرم‌افزاری را توسعه دهید که اصل متن و ترجمه آن را دریافت کند و شروع به پیدا کردن روابط بین کلمات، جملات و پاراگراف‌ها کند. در این حالت کامپیوتر برای هر حالت چیدمان کلمات در رشته‌های مختلف یک رابطه آماری با درصد خطای مشخص ایجاد می‌کند و در چند ساعت و با مرور چند اثر ترجمه شده می‌تواند یک زبان جدید را یاد بگیرد.

آینده این طرح چه خواهد شد؟

محمدزاده: ما در آزمایشگاه خودمان در واقع نقشه بخش کوچکی از مغز را که مختص زبانشناسی بود، پیاده کردیم و آن را به مدلی کامپیوتری تبدیل کردیم. این می‌تواند قدم نخست یک طرح خیلی عظیم باشد. اگر ما روزی بتوانیم مدل کامپیوتری کاملی از مغز انسان را ایجاد کنیم، می‌توانیم دنیا را وارد دوران جدیدی از هوش مصنوعی کنیم؛ دورانی که در آن پردازش تصاویر، تعامل با محیط و آنالیز صدا را می‌توان به یک کامپیوتر نوآموز یاد داد. در آن صورت بشر یک گام بزرگ به تولید ربات‌هایی با قدرت آنالیز و تصمیم‌گیری انسان بسیار نزدیک خواهد شد. از آنجا که می‌دانیم ماشین‌ها خستگی‌ناپذیرند، خطا ندارند و توقع کمی دارند، در آینده خیلی نزدیک می‌توانیم شاهد ظهور ابرربات‌های هوشمندی باشیم که می‌توانند هزاران برابر قوی‌تر و سریع‌تر از ما یادبگیرند، تصمیم‌گیری کنند و... انتهای این داستان می‌تواند کمی ترسناک شود!

شهرام یزدان‌پناه - گروه دانش

newsQrCode
ارسال نظرات در انتظار بررسی: ۰ انتشار یافته: ۱
shantiya
Iran, Islamic Republic of
۰۱:۱۱ - ۱۳۹۲/۰۹/۰۶
۰
۰
با سلام.به نظر من شدنی است.چون در قرن 21منتظر هر اتفاقی باید بود واگرفقط به 4دهه قبل برگردیم میبینیم كه دنیا چقدر پیشرفت كرده

نیازمندی ها