RSS      English

خلاصه سازی متن

سيستم هاي خلاصه ساز معروف
در اين قسمت در نظر داريم تعدادي از سيستم هاي معروف خلاصه سازي را معرفي نماييم. ازآنجايي که تعداد اين سيستم ها زياد مي باشد ، فقط به بخشي آز آنها خواهيم پرداخت.

DMSumm
سيستم DMSumm يک رويکرد عميق در مسئله خلاصه سازي متن است که سه مرحله دارد : انتخاب محتوي ، طرح ريزي متن و ادراك زباني. پروسه انتخاب محتوا ، اطلاعاتي که در خلاصه بايد وارد شود را مشخص مي کند. طرح ريزي متن نگاشتي از روابط معنايي و مفهومي به روابط rhetorical انجام مي دهد که منجر به ساخت طرحهاي rhetorical از متن مي شود. ادراکات زباني بيان کننده طرحها در خلاصه هاي نوشته شده هستند. اين عمل بر پايه مدل سخني است که از سه منبع دانش مختلف (معنايي ، مفهومي و rhetorical) ساخته شده است. اين سيستم به چند محدوديت غلبه کرده است : تحقق هدف فصاحت ؛ و حفظ موضوع مرکزي.

در اين قسمت در نظر داريم تعدادي از سيستم هاي معروف خلاصه سازي را معرفي نماييم. ازآنجايي که تعداد اين سيستم ها زياد مي باشد ، فقط به بخشي آز آنها خواهيم پرداخت.

DMSumm
سيستم DMSumm يک رويکرد عميق در مسئله خلاصه سازي متن است که سه مرحله دارد : انتخاب محتوي ، طرح ريزي متن و ادراك زباني. پروسه انتخاب محتوا ، اطلاعاتي که در خلاصه بايد وارد شود را مشخص مي کند. طرح ريزي متن نگاشتي از روابط معنايي و مفهومي به روابط rhetorical انجام مي دهد که منجر به ساخت طرحهاي rhetorical از متن مي شود. ادراکات زباني بيان کننده طرحها در خلاصه هاي نوشته شده هستند. اين عمل بر پايه مدل سخني است که از سه منبع دانش مختلف (معنايي ، مفهومي و rhetorical) ساخته شده است. اين سيستم به چند محدوديت غلبه کرده است : تحقق هدف فصاحت ؛ و حفظ موضوع مرکزي.
اين خلاصه ساز برروي زبان هاي انگليسي و پرتغالي ، خلاصه توليد مي کند. نسخه قابل دانلود اين خلاصه ساز در سايت به نشاني http://www.icmc.usp.br/~taspardo/DMSumm.htm موجود مي باشد

SweSum
يکي از معروف ترين سيستم هاي خلاصه سازي مي باشد که به زبان هاي مختلف عمل خلاصه سازي را انجام مي دهد. اولين خلاصه ساز توليد شده براي زبان سوئدي مي باشد. دقت آن براي متون خبري براي زيان سوئدي ، براي خلاصه با ميزان 40 درصد ، برابر 84 درصد اندازه گيري شده است( با طول متوسط 181 کلمه). نسخه نهايي اين خلاصه ساز در حال حاضر براي زبان هاي انگليسي ، دانمارکي ، نروژي و سوئدي توليد شده و نسخه آزمايشي آن هم براي زبان هاي فارسي ، فرانسوي ، آلماني ، ايتاليايي، اسپانيايي و يوناني تحت بررسي و آزمايش است.
نسخه تحت وب اين خلاصه ساز در حال حاضر موجود بوده که در سايت به نشاني http://swesum.nada.kth.se/index-eng.html قرار دارد.

MEAD

يکي از معروف ترين خلاصه سازهاي موجود مي باشد که در بسياري از مقلات مورد استفاده قرار گرفته است. MEAD خلاصه ساز چند سندي مي باشد. ورژن 1 و 2 اين خلاصه ساز در دانشگاه ميشيگان در سال 2000 - 2001 پياده سازي شده است. اين خلاصه ساز با زبان پرل پياده سازي شده است. اين خلاصه ساز طوري پياده سازي شده است که براي تمامي زبان ها ، قابل اجرا باشد و در حال حاضر نسخه هاي انگليسي و چيني و ژاپني و هلندي آن موجود مي باشد. اطلاعات کامل در مورد نحوه ي عملکرد اين خلاصه ساز موجود مي باشد.
نسخه هلندي اين خلاصه ساز بهمراه اطلاعات و مستندات کامل درباره اين خلاصه ساز در سايت به نشاني http://www.summarization.com/mead موجود مي باشد.

GLEANS
GLEANS مخفف A Generator of Logical Extracts and Abstracts for Nice Summaries مي باشد. اين خلاصه ساز در سال 2000 معرفي شد و از نوع چند سندي مي باشد[1]. اين سيستم خلاصه سازي را در چهار مرحله انجام مي دهد :
• اسناد تجزيه مي شوند و سازه هاي اصلي هر جمله شناسايي مي شود ، بعضي عبارات anaphoric رفع مي شوند و درنهايت به يک نمايش استاندارد که مشخص کننده موجوديتهاي اصلي و روابط آنها است نگاشت شود.
• هر مجموعه از اسناد توسط محتوا یشان به دسته هاي افراد ، تک رويداد ، چند رويداد ، فجايع طبيعي دسته بندي ميشوند.
• با دراختيار داشتن نوع دسته مجموعه و نمايش استاندارد اسناد ، يا انتخاب کلمات برجسته در مجوعه ، موجوديتهاي اصلي و روابط آنها استخراج مي شود.
• يک چکيده با اعمال يک کتابخانه از الگوهاي استاندارد از تحليل دستي چکيده ها در پيکره زباني آموزشي توليد مي شود. اين الگوها تعيين مي کنند چه جملاتي از متن منبع احتياجات يک خلاصه استاندارد را بر آورده مي کنند و آنها را استخراج مي کند. در پس پردازش ، نشانه هاي معلق سخن حذف مي شوند ، در مورد عبارات anaphoric که براي هر موجوديت استفاده مي شود تصميم گيري مي شود و عبارات زماني در يک فرم استاندارد ارائه مي شوند.

PERSIVAL
PERSIVAL مخفف Personalized Retrieval and Summarization of Image , Video and Language مي باشد. سيستم ، خلاصه ایي از مقالات پزشکي مخصوص يک بيمار را از کتابخانه ي ديجيتالي توزيع شده ي چندرسانه اي مراقبت از بيماران، تهيه مي کند[2].
سيستم شامل تفاسير و سازمان مجموعه بزرگي از دادههاي ويدئويي است. اسناد ويدئويي قطعه بندي ميشوند و يک خلاصه storyboard توليد ميشود. ويدئو ها در سطوح نحوي و معنايي شاخص بندي ميشوند. يک مجموعه ابزارهاي مبتني بر محتوا براي جستجوي ويدئو توسعه داده شدهاند. اين سيستم از DEFINDER براي جستجوي تعاريف استفاده ميکند.