تولید نسخه ای کوتاه شده از متون فارسی به وسیله رایانه

نرم افزارخلاصه ساز متن

حتما تا به حال برایتان پیش آمده است که بخواهید متنی را خلاصه کنید. برای این کار باید از میان جملات نوشته شده مهم ترین جملات را انتخاب کنید تا متن خلاصه شده نکات کلیدی و مهم متن اصلی را در بر داشته باشد، وقتی هم که در شبکه های اینترنتی یا خبرگزاری ها به دنبال یافتن مطلب مورد نظر خود هستید با حجم انبوهی از اطلاعات و داده ها مواجه می شوید که سبب سردرگمی شما خواهد شد و برای دستیابی به حجمی از اطلاعات که مورد نظر شماست باید مطلب را خلاصه کرده ، قسمت های تکراری و غیرضروری را از میان این اطلاعات حذف کنید.
کد خبر: ۱۶۰۸۵۶

 2نفر از مبتکران نوجوان کشورمان موفق به طراحی نرم افزاری شده اند که با اجرای آن به صورت خودکار متن ورودی به رایانه شما خلاصه می شود. این نرم افزار که رتبه سوم گروه تخصصی رایانه را در بخش دانش آموزی نهمین جشنواره جوان خوارزمی از آن خود کرده است با امتیازبندی جملات و بررسی انسجام معنایی جملات انتخاب شده ، با توجه به درخواست کاربر متن را خلاصه می کند، به گونه ای که متن نهایی حاوی مهم ترین نکات اصلی بوده و کمترین حجم را دارد.

خلاصه سازی خودکار متن عبارت است از کوتاه کردن متن از طریق انتخاب جملات مهم ، به طوری که متن نهایی مهم ترین نکات متن اصلی را نیز در بر داشته باشد. تشخیص جملات کلیدی متن نیز نیاز به هوشمندی ای دارند که دستیابی به آن از طریق درک و فهمیدن متن اصلی ، تشخیص نقش کلمات و معانی آنها در جایگاه های مختلف و همچنین انتخاب مهم ترین قسمت ها امکان پذیر خواهد بود. در نتیجه می توان گفت خلاصه سازی از زیرشاخه های علم هوش مصنوعی است .در هوش مصنوعی بر خلاصه سازی متن از پردازش زبان طبیعی استفاده می شود. ان الپی یا پردازش زبان طبیعی از زیرشاخه های هوش مصنوعی و زبان شناسی است که پردازش و درک زبان طبیعی انسان را به صورت هوشمند و خودکار مورد بررسی قرار می دهد.

 ابهامات زبان فارسی

به گفته نسرین مصطفی زاده ، دانش آموز دبیرستان فرزانگان منطقه 6تهران یکی از مجریان این طرح پژوهشی ، زبان طبیعی دارای ابهامات و ناگفته های بسیار زیادی است که فهم آن به فهم موضوع و زمینه آن نیاز دارد و با استفاده از ترکیب کلمات و جملات نمی توان از آن آگاهی پیدا کرد.درک زبان طبیعی انسان با توجه به نیاز موجود برای دستیابی به دانش وسیع در ارتباط با جهان بسیار مهم است . آنچه در اینجا اهمیت دارد، این است که ابهامات زبان فارسی در مقایسه با دیگر زبان ها به مراتب بیشتر است . چندمعنایی و چندنقشی بودن کلمات ، حذف کلمات و عبارات به قرینه معنوی یا لفظی و همچنین دشواری تشخیص افعال مرکب و اسامی خاص از مهم ترین عواملی هستند که محدودیت هایی را در فهم دقیق عبارات فارسی به وجود آورده اند. در نتیجه باید پذیرفت که اگرچه استفاده دوجانبه از زبان برای انسان بسیار ساده است ، اما این ویژگی در ماشین های خودکار و رایانه ها اغلب بسختی تشخیص داده می شود. این در حالی است که در سال های اخیر نیاز به دسترسی به اطلاعات در شبکه های اینترنتی با افزایش چشمگیری مواجه بوده است و در نتیجه به موازات افزایش کاربران اینترنتی ، نیاز به ابزارهایی که بتوانند در کوتاه ترین زمان ممکن متن جستجو شده را به صورت خلاصه نمایش دهند نیز افزایش یافته است . با توجه به ضرورت دستیابی به خلاصه ای منسجم و همچنین نبود خلاصه ساز فارسی با انسجام معنایی کامل که برای همه کاربران قابل استفاده باشد، اولین نسخه نرم افزار خلاصه ساز متن فارسی برای رفع این نیاز با عنوان نرم افزار پازش به زبان فارسی طراحی شد که می تواند بسیاری از محدودیت هایی را که در گذشته در این زمینه وجود داشته است ، از میان بردارد. از این نرم افزار می توان در موتورهای جستجو برای نشان دادن خلاصه ای از هر یک از نتایج جستجو، خلاصه کردن هرگونه مقاله و نوشته فارسی و همچنین خلاصه کردن متون تبلیغاتی فارسی برای ارسال در اندازه پیامک استفاده کرد.

برتری ها و ویژگی های پازش

به گفته شادی حریری ، دیگر محقق طرح این نرم افزار برای خلاصه سازی متن از 3مرحله تشکیل می شود. در مرحله پیش پردازش یا تجزیه ، متن ورودی خوانده شده و پس از انجام کارهای مقدماتی برای خلاصه سازی مانند مشخص کردن محدوده کلمات و جمله ها روی متن مرحله امتیازدهی آغاز می شود. در این قسمت نرم افزار به 2روش کلاسیک و الگوریتم پازش امتیاز نهایی جملات را اعمال می کند و در نهایت در مرحله تولید که آخرین مرحله سیستم خلاصه سازی است متن خلاصه شده نهایی تهیه و به خروجی ارسال می شود. به طور کلی از 2روش برای خلاصه سازی متن استفاده می شود. در روش اول جملات مهم با استفاده از جملات و پاراگراف های متن اصلی انتخاب می شود، اما در روش دوم متن خلاصه شده نهایی براساس توضیح و تفسیر بخش های منتخب از متن اصلی به دست می آید که این روش از عملکرد مناسب تری در خلاصه سازی متن برخوردار است ؛ اما چون گسترش سیستم هایی که براساس توضیح و تفسیر بخش های انتخاب شده عمل می کنند بسیار پیچیده تر بوده و به زمان بیشتری نیاز دارد و علاوه بر این توسعه چنین سیستم هایی نیازمند دسترسی به زیرشاخه های دیگری از پردازش زبان طبیعی هستند، بنابراین بیشتر نرم افزارهای خلاصه ساز امروزی براساس روش اول طراحی شده اند. اگرچه باید پذیرفت که خلاصه سازی دقیق متن تنها به وسیله انسان انجام می شود و دقت بهترین نرم افزارهای خلاصه سازی که تاکنون طراحی شده اند تنها 40تا 60درصد دقت انسان خواهد بود.

پازش ، اولین خلاصه ساز فارسی متن باز و نرم افزاری آزاد است که تحت لیسانس GPLمنتشر خواهد شد. الگوریتم های جامع از قابلیت پیاده سازی برای هر زبانی برخوردارند، اما هیچیک از سیستم های خلاصه ساز نوشته شده در سطح جهانی که براساس جملات و پاراگراف های متن اصلی ، جملات مهم را انتخاب می کنند، الگوریتمی مشابه الگوریتم نوین پازش که بتواند تا این اندازه انسجام معنایی جملات انتخاب شده را حفظ کند، ندارند.

طراحی سیستم

به گفته این دو محقق جوان ، پس از این که متن مورد نظر برای خلاصه شدن در قسمت مشخص شده قرار گرفت با مشخص شدن عبارت های اشاره ، محدوده کلمات و جملات متن نیز مشخص می شود. در این مرحله که به اصطلاح مرحله پیش پردازش نام دارد کلمات غیرضروری متن نیز حذف می شوند. در مرحله بعد، از یک پایگاه واژه برای یافتن ارتباط بین واژه ها استفاده و امتیاز دهی جملات به روش کلاسیک انجام می شود. به این ترتیب ، به جملات حاوی کلمات کلیدی وارد شده به وسیله کاربر امتیاز مثبت تعلق می گیرد. به جملاتی که ابتدای آنها عباراتی مانند به طور مثال ، زیرا و ... آمده است امتیاز منفی داده می شود و جملات حاوی عبارت های در نتیجه ، بنابراین و ... نیز امتیاز مثبت می گیرند. همچنین جملات براساس موقعیت نسبی در متن اصلی نیز امتیازبندی می شوند، مثلا اولین جمله در یک مقاله روزنامه معمولا جمله مهم تری است و براین اساس جملات دارای کلمات مرتبط با عنوان متن انتخاب شده و با اجرای الگوریتم ترین پازش ، انسجام معنایی جملات مورد بررسی قرار می گیرد. در این الگوریتم متن انتخابی به صورت نمودارهایی شبیه سازی می شود تا مسیریابی روی جملات انجام شود و در نهایت جملات اصلی انتخاب شوند. در پایان نیز متن نهایی که در حقیقت جملات مهم پاراگراف های متن اصلی است ، به عنوان متن خروجی روی صفحه نمایش داده می شود که مهم ترین ویژگی آن در مقایسه با دیگر خلاصه سازها این است که متن نهایی از لحاظ معنایی منسجم تر است.

پردازش زبان طبیعی یا ان ال.پی

منظور از پردازش زبان طبیعی این است که رایانه ای بتواند زبان انسان را تحلیل و ارزیابی کند و حتی قادر به تولید زبان طبیعی باشد. هدف اصلی در پردازش زبان طبیعی این است که با استفاده از الگوریتم ها و ساختارهای داده ای در علوم رایانه ، نظریه های محاسباتی زبان را ارائه کنیم . کاربردهای نوشتاری و گفتاری از مهم ترین زمینه های کاربرد پردازش زبان طبیعی هستند که یافتن اطلاعاتی خاص در یک متن یا ترجمه یک متن به زبانی دیگر را امکان پذیر می کنند. در سال های اخیر، تحقیقات بسیار زیادی در این زمینه انجام شده است که تحقق این اهداف مستلزم داشتن دانشی وسیع از زبان است ، بنابراین علاوه بر محققان علوم رایانه ، دانش متخصصان زبان شناس نیز در دستیابی به خدمات و سیستم های مبتنی بر کاربردهای مختلف پردازش زبان مانند سیستم های ارتباط با مشتری از طریق تلفن یا سیستم های آموزش به دانش آموزان تاثیرگذار خواهد بود.

فرانک فراهانی جم

newsQrCode
ارسال نظرات در انتظار بررسی: ۰ انتشار یافته: ۰
فرصت تاریخی عبور از تحریم

دکتر مرندی، تحلیلگر مسائل بین‌الملل در گفت‌وگو با «جام‌جم» به تشریح ظرفیت‌های دوران ‌گذار جهانی برای کشورمان پرداخت

فرصت تاریخی عبور از تحریم

نیازمندی ها