RSS      English

خانه زمینه های تحقیقاتی زبان شناسی محاسباتی خلاصه سازی متن بررسی تاریخچه خلاصه سازی خودکار متن

بررسی تاریخچه خلاصه سازی خودکار متن

 

با گسترش روزافزون حجم اطلاعات موجود در وب و افزايش چشم گير مقالات منتشر شده در زمينه هاي مختلف علمي ، دسترسي درست و مطالعه اطلاعات مورد نياز، همواره يکي از مشکلات محققان و پژوهشگران قرن 21 مي باشد. اينکه چه طور از يک طرف با اين حجم انبوه از داده ها و از طرفي ديگر با زمان محدودي که در اختيار داريم ، بتوانيم مطالب مورد نياز خود را مطالعه کنيم و يا اينکه چه طور مي توان در روز چندين کتاب را مطالعه نمود و يا اينکه آيا مي توان سيستمي طراحي نمود که بتواند با داده هاي موجود به تمامي سوالات ما پاسخ دهد، اينها سوالاتي است که پاسخ آنها را مي توان در يک سيستم خلاصه ساز متن جستجو کرد.

 

 

بررسی تاریخچه خلاصه سازی خودکار متن

خلاصه سازي خودکار سند ، يعني توليد يک نسخه مختصر تر از سند اصلي توسط يک برنامه کامپيوتري به نحوي که ويژگي ها و نکات اصلي سند اوليه حفظ شود. [1] بنابر تعريف ارائه شده در استاندارد ISO 215[2] سال 1986، خلاصه " يک بازگويي مختصر از سند " مي باشد. همانطور که اشاره شد خلاصه سازي خودکار توسط کامپيوتر انجام مي شود و به همين دليل تفاوت هاي زيادي با خلاصه اي که توسط انسان توليد مي شود دارد. انسان ها با توجه به هوش و شعور ذاتي خود قادر به درک و فهم مفاهيم موجود در متن و ارتباط بين آنها مي باشند و اين در حالي است که انجام اين عمليات توسط ماشين کار بسيار دشوار و پيچيده اي مي باشد. از طرفي ديگر ، انسان ها با توجه به سطح دانش و پس زمينه ي اطلاعاتي که دارند ديد متفاوتي از خلاصه ي يک متن يکسان دارند. به عنوان مثال کسي که سال ها در زمينه شبکه هاي کامپيوتري به تحقيق و مطالعه پرداخته است با کسي که به تازگي قصد تحقيق و مطالعه در زمينه ي شبکه هاي کامپيوتري را دارد، متفاوت بوده و خلاصه اي که اين دو فرد از يک متن در زمينه ي شبکه هاي کامپيوتري توليد مي کنند قطعا يکسان نخواهد بود. اين مطلب در چند سال اخير بسيار مورد توجه واقع شده و منجر به ارائه بحث خلاصه سازي مبتني بر کاربر يا خلاصه سازي شخصي سازي شده ، گشته است. در ادامه به اين مطلب بيشتر خواهيم پرداخت. سيستم هاي خلاصه ساز در دنياي امروز کاربردهاي فراواني دارند. توليد خلاصه هاي کتب مختلف و مقالات علمي، توليد خلاصه اخبار و انتقال آن از طريق سيستم هاي نظير تلفن همراه، نمايش خلاصه سند يافته شده توسط موتور جستجو ، توليد سيستم هاي پاسخ گويي به سوال و ... همگي از کاربردهاي اين سيستم مي باشند. تاريخچه سيستم هاي خلاصه ساز شروع خلاصه سازي متن به سال 1950 برمي گردد. به دليل کمبود کامپيوترهاي قدرتمند و مشکلات موجود براي پردازش زبانهاي طبيعي (NLP) ، کارهاي اوليه بروي مطالعه ظواهر متن مانند (موقعيت جمله و عبارات اشاره) ، متمرکز شده بود. سال 1970 تا 1980 هوش مصنوعي بکار آمد . ايد ه ي AI استخراج نمايش هاي دانش ، مانند فريم ها يا الگوها، براي شناسايي موجوديت ها ي مفهومي از متن ، و استخراج روابط بين موجوديت ها با مکانيزمهاي استنتاج بود. مشکل اصلي آن است که فريم يا الگوهاي تعريف شده محدوديت هايي دارند و ممکن است به تحليل کامل موجوديت هاي مفهومي منجر نشود. [3] از اوايل 1990 تا به حال روشهاي بازيابي اطلاعات (IR) بکار گرفته شد. Kupiec [4]اولين الگوريتم را پيشنهاد داد . در اين روش براساس مقادير ويژگيهاي يک جمله، احتمال حضور آن در خلاصه ، تخمين زده مي شود . او عمل خلاصه سازي را به صورت يک مسئله دسته بندي ، درنظر گرفت و دسته بندي کننده هاي بيزين را براي تعيين جملاتي که بايد در خلاصه وارد شود، بکار برد. Chuang و Yang [5]چندين الگوريتم مانند درخت تصميم و دسته بندي کننده رابراي استخراج قطعات جمله پيشنهاد دادند . اين روش خلاصه سازي اسناد در يک حوزه خاص عملکرد خوبي دارد. گرچه براي يادگيري صحيح نيازمند مجموعه ها ي آموزشي بسيار بزرگي هستند . در سال 1996، Barzilay [6] روشی برای تولید خلاصه با پيدا کردن زنجيره هاي لغوي معرفی کرد که به توزيع کلمه و اتصالات لغوي بين آنها ، براي تقريب زدن محتوا و ارائه يک نمايش از ساختار لغوي بهم پيوسته متن اتکا مي کرد. Gong و [7] Liu دو روش را پيشنهاد دادند :يکي سنجش ارتباط به منظور رتبه دهي به جملات مرتبط و ديگري استفاده از تحليل معاني پنهان براي شناسايي جملات مهم از نظر معنايي . به تدريج و از اوايل سال 2000 بحث خلاصه سازي مبتني بر کاربر و يا خلاصه سازي شخصي سازي شده مطرح شده و تا به امروز نيز مقالات بسياري در اين زمينه منتشر شده است. ايده اصلي خلاصه سازي شخصي سازي شده و يا مبتني بر کاربر اين است که کاربران مختلف با توجه به دانش و پس زمينه اطلاعاتي که دارند، ديدگاه هاي متفاوتي روي اسناد يکسان دارند. اکثر مقالاتي که جديدا در خلاصه سازي متن ارائه مي شوند ، سعي مي کنند به نوعي بحث شخصي سازي را در نظر بگيرند

[1] - I. Mani , M. Maybury: Advances in Automatic Text Summarization.The MIT Press, 1999
[2] - ISO 215:1986 (1986). Documentation – Presentation of Contributions to Periodicals and Other Serials. ISO 215:1986. Technical report, International Organisation for Standardisation
[3] - Jen-Yuan Yeh , H.-R.K., Wei-Pang Yang , I-Heng Meng. Text summarization using a trainable summarizer and latent semantic analysis, Elsevier, 2005.
[4] - Kupiec, J., J. Pedersen, and F. Chen. 1995. ‘A trainable document summarizer’. Proceedings of the 18th Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR) (Seattle), 68-73
[5] - W. Chuang , J. Yang, Extracting sentence segments for text summarization: a machine learning approach, Proc. of the 23rd annual international ACM SIGIR, Athens, Greece, 2000, 152-159
[6] - Barzilay , E., "Using Lexical Chains for Text Summarization", 1996.
[7] - Y.Gong and X.Liu. 2001. Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis. In Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New Orleans, LA.