RSS      English

انواع سیستم های خلاصه سازی

سيستم هاي خلاصه ساز معمولا از ديدگاه هاي مختلفي تقسيم بندي مي شوند. از دیدگاه آقای hovy سیستم های خلاصه سازی خودکار را می توان بر حسب منبع ، هدف و خروجی به سه دسته عمده تقسیم بندی نمود :[1]
1) منبع : نمايش گروه زيادي از فرمتهاي ورودي و همچنين نقاط شروع در اطلاعات که احتمال خلاصه شدن دارند.
2) هدف : کاربرد خلاصه توليد شده به چه شکل باشد.
3) خروجي : مشخص کردن فرمت خروجي خلاصه و اطلاعاتي که در آن قرار دارد.

انواع سیستم های خلاصه سازی

سيستم هاي خلاصه ساز معمولا از ديدگاه هاي مختلفي تقسيم بندي مي شوند. از دیدگاه آقای hovy سیستم های خلاصه سازی خودکار را می توان بر حسب منبع ، هدف و خروجی به سه دسته عمده تقسیم بندی نمود :[1]
1) منبع : نمايش گروه زيادي از فرمتهاي ورودي و همچنين نقاط شروع در اطلاعات که احتمال خلاصه شدن دارند.
2) هدف : کاربرد خلاصه توليد شده به چه شکل باشد.
3) خروجي : مشخص کردن فرمت خروجي خلاصه و اطلاعاتي که در آن قرار دارد.
اما هر کدام را مي توان به صورت ريزتر به شکل زير تقسيم بندي کرد :
1. منبع : منبع ورودي را از ديدگاه هاي زير مي توان مورد بررسي قرار داد :
    1.1. زبان : روش خلاصه سازي بسته به اينکه بخواهيم متون تک زبانه و يا چند زبانه باشد ، متفاوت مي باشد. چراکه زبان هاي مختلف با يکديگر تفاوت داشته و بسياري از ويژگي ها که در يک زبان صادق است در زبان ديگر ممکن است صادق نباشد.
    1.2. منبع : روش خلاصه سازي مي تواند تک سند يا چند سندي باشد. در حالت چند سندي ، پيچيدگي هاي کار بيشتر مي شود. در اين حالت وروي چندين سند مي باشد که هر کدام از آنها ممکن است در مورد يک موضوعي بوده که همين امر يکي از مشکلات خلاصه سازي چند سندي مي باشد. از طرف ديگر ممکن است تعدادي از اسناد حاوي مطالب ضد و نقيض باشند. وجود اين دو مشکل باعث شده است که خلاصه سازي چند سندي، پيچيده تر از روش تک سند باشد.
    1.3. نوع متن : بسته به اين که نوع متن ، اخبار ، علمي ، گزارش و ... باشد روش بر خورد هم متفاوت مي باشد. به عنوان مثال در خلاصه سازهاي اخبار يکي از ساده ترين روش هايي که استفاده مي شود اين است که تيتر متون به همرا جمله هاي اول پاراگراف ها به عنوان خلاصه استفاده مي شود و اين در حالي است که اين روش براي متون علمي جوابگو نمي باشد.
    1.4. طول خلاصه : طول خلاصه مي توان کوتاه و يا طولاني باشد. البته در اکثر روش هاي خلاصه سازي جديد ، ميزان خلاص سازي خود يک پارامتر قابل تنظيم مي باشد. يعني اينکه کاربر مي تواند تعيين کند که سند اصلي چند درصد خلاصه شود.
    1.5. جنس ورودي : امروزه روش هاي خلاصه سازي متعددي براي انواع غير متني مثل ويدئو ، صوت ، نقشه و ... معرفي شده است. در اين گزارش فقط به نوع متني مي پردازيم.

2. هدف : هدف روش خلاصه سازي را از ديدگاههاي زير مي توانيم مورد بررسي قرار دهيم :
    2.1. قصد : متن خلاصه به چه منظوري توليد مي شود. هدف خلاصه سازي ، هشدار ، پيش نمايش، آگاهي ، زندگي نامه و .... در تعيين روش خلاصه سازي تاثيرگذار مي باشد.

2.2. کاربر : اينکه خلاصه سازي براي قشر خاصي از کاربران تهيه مي شود و يا اينکه براي عموم باشد مي تواند تاثير گذار باشد.
    2.3. کاربرد : عمومي ، پرسش گرا (به اطلاعات خاص مورد نياز توجه دارد)

    3. خروجي : تقسيم بندي هاي زير را براي خروجي داريم :
    3.1. اشتقاق : روش خلاصه سازي مي تواند چکيده اي و يا استخراجي باشد. در روش استخراجي که عموما اکثر روش هاي خلاصه سازي هم از اين نوع مي باشند قسمت هايي از متن به عنوان چکيده انتخاب شده و سپس با يک چيدمان مناسب در کنار همديگر قرار گرفته و به عنوان خلاصه تلقي مي شود. اکثر اين روش ها جملات را جدا کرده و به آنها امتيازدهي کرده و سپس جمله هاي با بالاترين امتياز را به عنوان خلاصه انتخاب مي کنند. بنابراين در اين روش ساختار جمله ها تغييري نمي کند. اما در روش چکيده اي که بسيار نزديک به مدل ذهني انسان مي باشد ساختار جمله هاي چکيده ممکن است به کلي عوض شود. به عنوان مثال پاراگراف " علي بليط هواپيما را گرفت و سوار هواپيما شد. هواپيما از باند فرودگاه بلند شد و به سمت تهران حرکت کرد. هواپيما يک ساعت بعد در فرودگاه مهرآباد فرود آمد و علي از هواپيما پياده شد" در روش چکيده اي به جمله ي " علي به تهران رفت" خلاصه مي شود. يادآور مي شويم که اين روش بسيار پيچيده بوده و به همين دليل اساسا کار مهمي در اين زمينه صورت نگرفته است.
    3.2. فرمت خروجي : متن، تصوير، نقشه ، ويدئو و ....

[1] - C.Lin, E.Hovy. Automated Multi-document Summarization in NeATS. 2002