RSS      English

روش های ارزیابی خلاصه سازها

يک مرحله تعيين کننده در هر سيستم ، روش ارزيابي و اعتبارسنجي ادعاي بيان شده است . سيستم ها ي پردازش زبان طبيعي نيز از اين قاعده مستثني نيستند. بلکه با توجه به بي قاعدگي هاي زبان انساني ، اثبات منطقي اين پيکره ي بي قاعده ، يک ريسک است. يک رويه متداول براي برقراري ارتباط با اين حقيقت ، استفاده از اعتبارسنجي به کمک استقرا است. بنابراين آزمايش با يک بدنه داده ، به صورت زيرمجموعه اي از يک مجموعه کامل تقريبا نامحدود از سخنان درنظر گرفته مي شود .در نتيجه نمود رويه اي خاص ، مي تواند در قالب يک آزمايش، اعتبارسنجي شود.

روش هاي ارزيابي خلاصه ساز ها
يک مرحله تعيين کننده در هر سيستم ، روش ارزيابي و اعتبارسنجي ادعاي بيان شده است . سيستم ها ي پردازش زبان طبيعي نيز از اين قاعده مستثني نيستند. بلکه با توجه به بي قاعدگي هاي زبان انساني ، اثبات منطقي اين پيکره ي بي قاعده ، يک ريسک است. يک رويه متداول براي برقراري ارتباط با اين حقيقت ، استفاده از اعتبارسنجي به کمک استقرا است. بنابراين آزمايش با يک بدنه داده ، به صورت زيرمجموعه اي از يک مجموعه کامل تقريبا نامحدود از سخنان درنظر گرفته مي شود .در نتيجه نمود رويه اي خاص ، مي تواند در قالب يک آزمايش، اعتبارسنجي شود.
امروزه اکثر سيستم هاي خودکار خلاصه سازي متن ، مبتني بر استخراج هستند . گرچه کارهايي براي پس_ويرايش قطعات استخراج شده (يعني جملات، به صورت کاهش و ترکيب عبارات) به منظور نزديکي هرچه بيشتر خلاصه استخراجي ، به چکيده انجام مي شود. اين مسئله موجب پيدايش شرايطي شد که ضرورت وجود معياري براي مقايسه خلاصه ها چه از نظر کلمات بکاررفته در آنها و چه از لحاظ خاص بودن و باياس، احساس شد. بعلاوه در خلاصه سازي خودکار متن ، ممکن است چندين خلاصه خوب براي يک متن منبع خاص وجود داشته باشد که به اين ترتيب عمل ارزيابي اين خلاصه ها در مقايسه با يک خلاصه مرجع ثابت و تغييرناپذير ، رضايت بخش نيست. همچنين با توجه به اينکه نرخهاي فشردگي مختلف براي انواع مختلفي از متون مناسب است ، روشهاي ارزيابي که امکان ارزيابي براي نرخهاي مختلف مي دهند را بايد مورد توجه قرار داد.
روشهاي ارزيابي خودکار که در اين گزارش ارائه شده اند عموما با مشابهت هاي محتوا بين خلاصه ها و سند اصلي سروکار دارند. امروزه هيچ روش ارزيابي واحدي که براي تمام اين جنبه هاي ارزيابي ارائه شده باشد، وجود ندارد. بلکه يک ترکيبي از روشها که در ادامه توضيح داده مي شود ، بايد براي پوشش هرچه بيشتر اين جنبه ها (قابليت مقايسه نتايج با سيستم هاي ديگر ، کوتاه کردن چرخه توسعه و حمايت از مقايسه به موقع در ميان روشهاي خلاصه سازي متفاوت) بکارگرفته شود.
واضح است که به منظور اطمينان از پاسخ دهي نتايج و انجام يک مقايسه قابل اطمينان در ميان سيستم هاي خلاصه سازي ، چند نوع محيط استاندارد شده براي ارزيابي شديدا مورد نياز مي باشد. نخستين تفکيک که در روشهاي ارزيابي سيستم ها ي خلاصه انجام مي شود ، روشهاي ارزيابي دروني و بروني است.


ارزيابي دروني (جعبه شيشه اي)
ارزيابي دروني سيستم خلاصه را بدون توجه به هدف نهايي آن مورد سنجش قرار مي دهد. در عوض ، توجه برروي فاز توليد در چرخه عمر يک خلاصه است. اکثر روشهاي ارزيابي خلاصه دروني هستند و اغلب با يک استاندارد طلايي مقايسه مي شوند. در NLP ، به يک مجوعه ايده آل از نمونه هاي مرجع ، اغلب پيکره زباني استاندارد طلايي اتلاق مي شود. معمولا يک استاندارد طبيعي به صورت يک مدل بسيارخوب درنظر گرفته مي شود و بعنوان حد بالايي از آنچه معقول است و مي خواهيم با ابزارهاي اتوماتيک به آن برسيم ، عمل مي کند. در مورد خلاصه سازي ، اين مجموعه خلاصه هاي استاندارد طلايي را مي تواند با يک سيستم مرجع خلاصه ساز يا مخبران انساني توليد کرد. ارزيابي دروني توجه اصلي اش بروي پيوستگي و اطلاع رساني خلاصه ها است و درنتيجه تنها کيفيت هاي خروجي را مورد سنجش قرار مي دهد. [1]
پيوستگي خلاصه :
متن خلاصه اي که از طريق روشهاي مبتني بر استخراج (عمليات کپي و درج روي عبارات ، جملات و يا پاراگرافها) توليد مي شوند، گاهي از بعضي بي ارتباطي هاي معنايي در دنباله ي جملات متوالي رنج مي برند . يک راه براي سنجش پيوستگي خلاصه ، رتبه بندي يا درجه بندي جملات برحسب ميزان پيوستگي شان و سپس درجه جملات خلاصه با امتيازات خلاصه هاي مرجع ، با امتيازات جملات منبع ، يا با امتيازات ساير سيستم هاي خلاصه ساز ، مقايسه شود.
اطلاع رساني خلاصه :
يک راه براي سنجش ميزان اطلاع رساني خلاصه توليد شده ، مقايسه آن با متن اصلي از نظر ميزان اطلاعات حفظ شده از منبع در خلاصه مي باشد. روش ديگر مقايسه خلاصه توليد شده با يک مرجع است که ميزان اطلاعات خلاصه مرجع را که در خلاصه توليد شده ، وجود دارد مورد سنجش قرار مي دهد . براي يک مجموعه اسناد ، پارامترهاي P&R و همچنين پارامترهاي سودمندي و مبتني بر محتوا را مي توان براي ارزيابي عملکرد بکار گرفت.
دقت و بازخواني جمله :
بازخواني تعداد جملات خلاصه مرجع که در خلاصه توليد شده حضور دارند را مشخص مي کند. به همين ترتيب مي توان دقت را به صورت تعداد جملات خلاصه توليد شده که در خلاصه مرجع وجود دارند ، تعريف کرد. بازخواني و دقت معيارهاي استاندارد در بازيابي اطلاعات هستند و اغلب از ترکيب آنها، تحت عنوان F_measure ياد مي شود. مشکلات اصلي که اين معيارها براي خلاصه سازي متن دارند آن است که قادر به تشخيص بين خلاصه هاي ممکن ولي يکسان از نظر کيفيت نيستند و همچنين خلاصه هايي که محتواي بسيار متفاوتي دارند ممکن است امتيازات مشابهي دريافت کنند.
رتبه دهي به جملات :
از آنجا که در رتبه دهي ، جملات خلاصه ، از روي شايستگي شان براي شمول در خلاصه ساخته مي شود ، يک رويه جزء نگرتري نسبت به بازخواني و دقت است و از معيارهاي همبستگي مي توان براي مقايسه بين خلاصه توليد شده با خلاصه مرجع کمک گرفت. بازخواني و دقت ، اساسا براي خلاصه ها ي مبتني بر استخراج اعمال مي شوند، حتي اگرامکان اعمال روشهاي استاندارد تنظيم جمله با چکيده ها وجود داشته باشد . گرچه اين مسئله براي انسان طبيعي نيست و ممکن است گمان شود که تقليد از يک الگوريتم کامپيوتري بهترين راه براي جمع آوري خلاصه هاي مرجع نيست.
روش سودمند :

روش سودمند به خلاصه هاي مرجع امکان دربرداشتن واحدهاي استخراج شده (جمله ، پاراگراف و ...) با يک تابع عضويت فازي در خلاصه مرجع را مي دهد. در UM خلاصه مرجع شامل تمام جملات اسناد منبع، به همراه مقادير اطمينان ، از 0 تا 10 ، براي احتمال شمول در خلاصه مي باشد. درمورد رتبه جملات ، اين مقادير اطمينان توسط مخبران انسان اختصاص داده مي شود. بعلاوه روشهاي سودمند قابليت توسعه براي اعمال تاثير منفي واحدهاي استخراج شده برروي يکديگر را دارند . اين ويژگي خصوصا هنگاميکه ارزيابي خلاصه هاي چند سندي موردنظر باشد ، درجايي که يک جمله ، امتياز جمله مشابه با آن را جريمه مي کند (يعني سيستمي که دو يا چند جمله معادل را استخراج مي کند ، جريمه بيشتري نسبت به سيستمي که تنها يکي از اين جملات (حتي جمله با اطلاعات کمتر(درجه اطمينان پائين تر ) را استخراج مي کند ، دريافت مي کند) مفيد است. درمقابل معيارهاي بازخواني و دقت و درصد توافق ، که به صورت تعداد توافقات براي کل توافقات ممکن تعريف مي شود، روش سودمند امکان ارزيابي خلاصه ها را در نرخ هاي فشردگي متفاوت مي دهد .روش سودمند هم مانند بسياري از معيارهاي ارزيابي مشابه ، بيشتر براي خلاصه هاي مبتني بر استخراج مفيد است. آزمايشات جديدتر ارزيابي ، موجب توسعه معيار سود نسبي شده است.
مشابهت محتوا :
معيارهاي شباهت محتوا مي تواند براي ارزيابي محتواي معنايي ، هم در خلاصه هاي مبتني بر استخراج و هم چکيده ها اعمال شود. يکي از اين معيارها آزمون تست مجموعه لغات يک زبان است که در آن روشهاي بازيابي اطلاعات استاندارد ، براي مقايسه بردارهاي تکرار کلمه ، که پس از محاسبه ريشه ها در خلاصه موضوع بندي و استفاده مي شود. فرهنگ لغت کنترل شده و مجموعه هاي هم معني که با تحليل معاني پنهان يا شاخص تصادفي ايجاد مي شود ، را مي توان با ترکيب فرکانس عبارات هم معني ، براي کاهش عبارتها در بردارها بکار برد ، که موجب تغييرات بيشتري در بين خلاصه ها مي شود که اين مسئله در هنگام ارزيابي چکيده ها بسيار مفيد است.
يکي از معايب اين روشها آن است که تا حدي نسبت به نفي و تغيير در ترتيب کلماتي که برروي تفسير محتوا تاثير گذارند ، حساس است. يک رويکرد ممکن براي غلبه بر اين مسئله استفاده از فرکانس بروي دنباله هايي از کلمات (يعني _n موقعيتي) بجاي يک کلمه واحد است. همچنين با تحليل معنايي پنهان يا شاخص گذاري تصادفي ، بايد براين حقيقت واقف باشيم که اين روشها لزوما مجموعه هاي هم معني درستي توليد نمي کنند ، عموما اين مجموعه ها همچنين کلمات متضاد و شمول و کلمات ديگري که در زمينه هاي معنايي مشابه روي مي دهد ، (در سطح کلمه يا سند براي RI و در سطح سند براي LSA ) ، را نيز شامل مي شوند.

ارزيابي بيروني (جعبه سياه) [2]
برخلاف ارزيابي دروني ، در ارزيابي بيروني توجه برروي کاربر نهايي معطوف مي شود .درنتيجه در اين روش ميزان مؤثر بودن و قابليت پذيرش خلاصه هاي توليد شده با بعضي روشها ، مثل ارزيابي رابطه اي يا قابليت فهم در خواندن ، سنجيده مي شود. همچنين اگر خلاصه به نوعي شامل مجموعه دستوراتي باشد يک روش ممکن براي ارزيابي آن ، بررسي قابليت رسيدن به نتيجه با پيروي از دستورات خواهد بود. ساير روشهاي ممکن براي سنجش ، جمع آوري اطلاعات در يک مجموعه بزرگ از اسناد است ، ميزان تلاش و زمان موردنياز براي پس_ويرايش خلاصه توليد شده توسط ماشين براي بعضي مقاصد خاص ، يا تاثير سيستم خلاصه ساز برروي سيستمي که جزئي از آن است ، براي مثال بازخورد مرتبط در يک موتور جستجو و يا يک سيستم پرسش_پاسخ ، مي باشد.
چندين سناريوي بازي مانند به عنوان روشهاي سطحي براي ارزيابي خلاصه ، پيشنهاد داده شده که ترتيب هاي مختلفي دارند. در ميان آنها بازي Shannon (تئوري اطلاعات) ، بازي سوال (کارايي عمل ) ، بازي دسته بندي و کلمات کليدي انجمني (بازيابي اطلاعات) مي توان نام برد. [1]
بازي Shannon
بازي Shannon که نوعي از معيارهاي سنجش Shannon در تئوري اطلاعات است ، تلاشي براي تعيين کيفيت محتوي اطلاعات بوسيله حدس لغت بعدي (حرف يا کلمه) مي باشد ، و به اين ترتيب متن اصلي را مجددا ايجاد مي کند. اين ايده از معيارهاي Shannon از تئوري اطلاعات اقتباس شده است ، که در آنجا از سه گروه مخبر خواسته مي شود قطعات مهم از مقاله منبع را (با مشاهده متن کامل ، يک خلاصه توليد شده و يا حتي هيچ متني) به صورت حرف به حرف يا کلمه به کلمه مجددا توليد کنند. سپس معيار حفظ اطلاعات با تعداد ضربه هاي کليدي که براي ايجاد مجدد قطعه اصلي طول مي کشد ، . سنجيده مي شود. Hovey و Marcu نشان دادند که اختلاف زيادي در اين سه سطح (در حدود فاکتور 10 در بين هر گروه) وجود دارد. مشکل روش Shannon اين است که به فردي که عمل حدس زدن را انجام مي دهد وابسته است و درنتيجه بطورضمني مشروط به دانش خواننده است. معيار اطلاعات با دانش بيشتر از زبان و حوزه و ... کاهش مي يابد.
بازي سوال
هدف از بازي سوال ، آزمايش ميزان فهم خواننده از خلاصه و توانايي آن براي نقل وقايع کليدي مقاله منبع است . اين عمل ارزيابي در دو مرحله انجام مي شود . ابتدا آزمايشگر مقاله هاي اصلي را مي خواند و بخشهاي مرکزي آن را علامت گذاري مي کند. سپس از عبارات مهم بخشهاي مرکزي متن ، سوالاتي طرح مي کند. و در مرحله بعد ، ارزياب سوالات را سه مرتبه پاسخ مي دهد ؛ يکبار بدون مشاهده هيچ متني (baseline 1) ، پس از مشاهده يک خلاصه ساخته شده توسط سيستم ، و درانتها پس از مشاهده متن اصلي (baseline 2) . خلاصه ايي که به خوبي وقايع کليدي مقاله را نقل کرده باشد ، بايد قادر به پاسخگويي به بيشتر سوالات (با نزديکتر بودن به baseline2 نسبت به baseline1 ) باشد . اين طرح ارزيابي براي مثال در ارزيابي خلاصه متن Q&A و TIPSTER SUMMAC هنگاميکه نرخ اطلاع رساني صحيح را براي فشردگي 1.5 يافت ، مورد استفاده قرار گرفته است.
بازي دسته بندي
بازي دسته بندي با دسته بندي اسناد منبع (آزمايشگرها) و متون خلاصه (اطلاع دهنده ها ) ، سعي درمقايسه قابليت دسته بندي آنها به يکي از N دسته دارد. سپس مطابقت دسته بندي خلاصه ها به متون اصلي سنجيده مي شود. يک خلاصه کاربردي بايد در همان دسته ي سند منبع اش قرارگيرد . دو نسخه از اين آزمايش در SUMMAC اجرا شد. اگر هر دسته با يک يا چند کلمه کليدي تعريف شود ، بازي دسته بندي به سناريوي تداعي کلمات کليدي ، عموميت پيدا مي کند.
تداعي کلمات کليدي
تداعي کلمات کليدي ، يک رويه ساده اما تاحدودي سطحي تر است که به کلمات کليدي وابسته ، (دستي يا اتوماتيک) براي اسناد در حال خلاصه شدن اکتفا مي کند.

براي مثال خلاصه هاي توليد شده توسط سيستم هاي خلاصه سازي را به همراه پنج ليست از کلمات کليدي چاپ شده در مجلات، به قاضي هاي انسان ارائه مي دهند. سپس اين قاضي ها هرخلاصه را با ليست صحيحي از کلمات کليدي مرتبط مي کنند . از آنجا که کلمات کليدي تعيين شده توسط ناشر مرتبط با محتوي مقاله است ، اگر موفقيت آميز بود ، خلاصه پوشش دهنده جنبه هاي مرکزي متن موردنظر مي باشد. مزيت اصلي اين روش آن است که هيچ زحمتي از بابت حاشيه نويسي تحميل نمي کند.

ابزارهاي ارزيابي
به منظور استفاده از يک رويه سخت تر و قابل تکرار ، براي خودکارکردن نسبي عمل مقايسه خلاصه ها ، ساخت يک پيکره دقيق که شامل منابع و خلاصه هاي استخراج شده آنها باشد ، سودمند است.
هر استخراج ، چه توسط يک مخبر انساني تهيه شده باشد يا يک ماشين ، به عنوان يک خلاصه صحيح از متن اصلي درنظر گرفته مي شود؛ يعني براي حفظ معني در بالاترين درجه ممکن .از آنجا که واحدهاي جمله اي از متن اصلي و خلاصه هاي مختلف به صورت موجوديت شناخته شده اند پايه و بناي يک پيکره استخراج شده ، مي تواند کاملا به برنامه هاي کامپيوتري واگذار شود. تعدادي از ابزارها براي اين منظور گسترش يافته اند.
محيط ارزيابي خلاصه ها
محيط ارزيابي SEE ، محيطي است که در آن ارزيابها مي توانند کيفيت يک خلاصه را در مقايسه با يک خلاصه مرجع مورد سنجش قرار دهند. متوني که درگير ارزيابي هستند ، با شکسته شدن به ليستي از قطعات (عبارات ، جملات و..) مورد پيش پردازش قرار مي گيرند .براي مثال هنگامي که يک سيستم مستخرج با سايز قطعه جمله را ارزيابي مي کنيم ، ابتدا متون با شکسته شدن به جملات آماده سازي مي شوند.
در طول فاز ارزيابي ، هر دو خلاصه در دو صفحه مجزا نشان داده مي شوند و واسطه ايي براي ارزيابي درنظرگرفته شده تا برروي محتوا و کيفيت خلاصه ها قضاوت کنند. براي سنجش محتوي ، ارزياب از ميان خلاصه مورد ارزيابي ، قطعه به قطعه حرکت مي کند و برروي يک يا چند واحد مرتبط در خلاصه مدل کليک مي کند.
براي هر کليک، ارزياب مي تواند تعيين کند آيا واحدهاي علامت دار تمام ، بيشتر ، بعضي و يا کمي از محتوي مدل کليک شده را بيان مي کنند .براي سنجش کيفيت ارزياب وضعيت گرامري ، پيوستگي و همبستگي را در سطح مختلف ارزيابي مي کند؛ تمام ، اکثريت ، بعضي ، کمي ، هيچ . کيفيت هم براي هر قطعه از خلاصه همتا و هم براي کيفيت کلي خلاصه همتا (پيوستگي ، طول ، پوشش محتوي گرامري و سازمان متن همتا به صورت کلي) ارزيابي مي شود. البته نتايج مي تواند هر زمان ذخيره و بارگذاري مجدد شود. نسخه خاصي از SEE در مسابقات دوره هاي 2001-2004 براي ارزيابي دروني متون خلاصه اخبارمورد استفاده قرارگرفت.


MEADeval ابزاري براي ارزيابي خلاصه هاي استخراج شده با فرمت DUC و MEAD است که با مقايسه خلاصه با يک خلاصه مرجع (يا خلاصه ايده آل) اين سنجش را انجام مي دهد. MEADeval اساسا روي فايلهاي استخراجي عمل مي کند که جملاتي را که در خلاصه استخراجي هستند را توصيف مي کند.
ISI ROUGH بسته ي ارزيابي خودکار خلاصه
بسته ي ISI ROUGH لين که بعدها با نام ROUGH معروف شد، تلاشي براي خودکار کردن ارزيابي خلاصه ها است که هم رخدادي هاي کلمه _n موقعيتي در بين سه تايي هاي خلاصه را موردسنجش قرار مي دهد. اين سه تايي ها معمولا شامل يک يا چند خلاصه توليد شده توسط سيستم است به همراه يک يا چند خلاصه مرجع ساخت انسان که به عنوان استاندارد طلايي براي مقايسه عمل مي کند.
ROUGH مخفف Recall-Oriented Understudy for Gisting Evaluation است. ROUGH در مقايسه با BLEU که دقت مدار است ، فراخواني مدار است ؛ و جداگانه کلمات _nموقعيتي مختلفي را ارزيابي مي کند. همچنين ROUGH هيچ جريمه اي براي طول اعمال نمي کند که با توجه به ذات خلاصه سازي متن که در آن هدف فشرده سازي متن است ، همخواني دارد. در نسخه هاي اوليه ROUGH از دقت در F_measure استفاده مي شد که در رابطه آن دقت هم دخالت داشت .نسخه ROUGH 1/5/5 به صورت زير امتيازدهي انجام مي داد :
• ROUGE-1. . . n : هم پوشاني _nموقعيتي _n) نگاشتي) بين خلاصه سيستم و خلاصه ها ي مرجع.
• ROUGE-L : مانند ROUGE-W است با اين تفاوت که به منظور توسعه کلمات متوالي، از سيستم وزن دهي استفاده مي کند.
• ROUGE-Sn : از هم_وقوعي آماري دونگاشتي ، بدون محدوديت در طول فاصله، و با حداکثر فاصله n کلمه عبور مي کند .
• ROUGE-Sun : مانند ROUGE-Sn ، با اين تفاوت که تک نگاشت ها درنظر گرفته نمي شوند.
Rough همچنين امکان ريشه يابي (با الگوريتم Porter) و حذف کلمات توقف را پيش از محاسبه معيار مي دهد. اين امکانات متاسفانه تنها براي زبان انگليسي طراحي شده است.

[1] - M.Hassel."Resource Lean and Portable Automatic Text Summarization", 2007,Stockholm, Sweden.
[2] - E.Hovy, C.Lin. Automated Text Summarization in SUMMARIST. 1998.