RSS      English

خانه زمینه های تحقیقاتی زبان شناسی محاسباتی خلاصه سازی متن خلاصه سازی شخصی سازی شده یا مبتنی بر کاربر

خلاصه سازی شخصی سازی شده یا مبتنی بر کاربر

حوزه هاي کاربرد خلاصه سازي
زمينه هاي کاربردي خلاصه سازي خودکار متن گسترده است . با رشد قابل ملاحظه ميزان اطلاعات در اينترنت ، انتخاب اطلاعات مرتبط ، کار مشکلي است. اطلاعات بطور همزمان روي بسياري از کانالهاي رسانه اي با نسخه هاي مختلف منتشر مي شود . براي مثال يک صفحه روزنامه ، صفحه خبر در وب ، پيغامهاي SMS ، پخش اخبار راديو و روزنامه سخنگو براي کسانيکه مشکل بينايي دارند. تنظيم اطلاعات براي کانالها و فرمتهاي مختلف يک کار ويرايشي مهم است که خصوصا در خلاصه کردن متن اصلي نقش دارد.

خلاصه سازي شخصي سازي شده يا مبتني بر کاربر
به دليل افزايش حجم انبوه اطلاعات موجود، خلاصه سازي متن طي سال هاي اخير بسيار مورد توجه قرار گرفته است. کاربران سيستم هاي خلاصه سازي متن بسيار زياد بوده و از افرادي که کارشان وب گرديست تا افرادي که دانشمند و محقق هستند ، همگي کاربر اينترنت مي باشند. در سيستم هاي قديمي بين کاربران تفاوتي فرض نمي شد و همه کاربران با يک ديد نگريسته مي شدند، به اين معنا که يک متن بدون در نظر گرفتن ويژگي ها و اطلاعات پس زمينه ي خواننده آن خلاصه مي شد و اين در حالي است که هنگاميکه انسان ها خلاصه سازي مي کنند، اطلاعاتي را که مرتبط با علايق خودشان باشند را به عنوان خلاصه بر مي گزينند.
به عبارتي ديگر، خلاصه سازي فقط تابعي از اسناد ورودي نمي باشد ، بلکه پارامتر دومي هم که يک مدل از رفتار و دانش فرد مي باشد را نيز شامل مي شود. به عنوان مثال فردي که سال ها در زمينه ي خاصي مثل " شبکه هاي بيسيم" به تحقيق و مطالعه پرداخته است زماني که بخواهد يک خلاصه از يک کتاب در اين زمينه براي خود تهيه کند ، مطمئنا مفاهيم اوليه شبکه هاي بيسيم را در اين خلاصه لحاظ نخواهد کرد و اين در حالي است که يک فرد که به تازگي در اين زمينه تحقيق مي کند احتمالا اين مفاهيم اوليه را در خلاصه مخصوص خودش قرار مي دهد.
تحقيقات آماری صورت گرفته در این زمینه هم ، اثبات کننده این ادعاست. به عنوان مثال Marcu در سال 1997 [1] نشان داد که ميزان تفاهم يا تطابق 13 نفر از جامعه علمي کشور ايلات متحده برروي 5 متن انتخاب شده 71 درصد مي باشد. Rath در سال 1961 در مقاله اي[2] که منتشر کرد نشان داد که خلاصه هاي توليد شده توسط چهار فرد متفاوت ، تنها 25 درصد با هم همپوشاني دارند. Salton هم در سال 1997 [3] دريافت که مهمترين 20 پاراگرافي که توسط دو کاربر انتخاب شد، تنها 46 درصد با هم همپوشاني دارند. اين نتايج بيانگر اين مطلب است که افراد مختلف ديدگاههاي متفاوتي روي متن هاي مشابه دارند و زماني که افرادي با پس زمينه اطلاعاتي و تخصص هاي متفاوت ، اسناد مشابه اي را خلاصه مي کنند ، محتواهاي متفاوتي را بر مي گزينند که انعکاس دهنده ي پس زمينه ي اطلاعاتي آنها مي باشد.
با توجه به موارد ذکر شده ، مدل کردن رفتار امری ضروری می باشد. اما این مدل سازی پيچيدگی ها و دشواري های خاص خود را دارد. اما به هر حال، هدف اصلی کساني که در اين زمينه فعاليت مي کنند اين است که با مدل کردن بخشي از رفتار کاربران ، خلاصه هايي با کيفيت بيشتر نسبت به خلاصه هايي که بدون در نظر گرفتن دانش کاربر توليد مي شد ايجاد نمايند. به عنوان مثال ، بنا برتحقيقات صورت گرفته در سال 2003 ، چناچه بتوانيم با استفاده از شخصي سازي مناسب زماني کاربران براي جستجو در موتور جستجوي گوگل صرف مي کنند را تنها 1 درصد کاهش دهيم ، بيشتر از 187000 انسان-ساعت که معادل 21 سال است صرفه جويي خواهد شد. در همين راستا فعاليت هاي زيادي براي مدل کردن رفتار کاربران صورت گرفته که به صورت کلي مي توان آنها را به چهار دسته زير تقسيم بندي نمود :

• مدل کردن بر اساس تاريخچه پرس و جو هاي کاربر
• مدل کردن بر اساس داده هاي کليک
• مدل کردن بر اساس زمان توجه کاربران
• مدل کردن براساس ساير عکس العمل هاي ضمني که از کاربران گرفته مي شود
اکثر روش هاي خلاصه سازي مبتني بر کاربر را مي توان در يکي از اين چهار دسته کلي اشاره شده قرار داد. در ادامه به صورت مفصل تر و با ذکر نمونه مقاله به شرح اين چهار دسته کلي مي پردازيم.

مدل کردن بر اساس تاريخچه پرس و جو هاي کاربر
يکي از روش هاي مهم و پر کاربرد شخصي سازي ، استفاده ازتاريخچه پرس و جو ها مي باشد[4]. يکي از مباحث مطرح در زمينه ي موتورهاي جستجو ، بحث شخصي سازي وب مي باشد. بدليل قرابت اين بحث با بحث شخصي سازي در خلاصه سازي ، مي توان از مقالات مطرح در اين زمينه نيز در بحث شخصي سازي خلاصه سازي استفاده نمود. سرويس جستجوي شخصي سازي شده ي گوگل يک نمونه ي کاربردي از اين موتورهاي جستجو مي باشد که به کاربران اين امکان را مي دهد تا تاريخچه جستجوهاي خود را بروي سرورهاي گوگل با شماره شناساي gmail ذخيره کنند تا گوگل با استفاده از آن بتواند جستجوهاي دقيق تري در آينده بر اساس فرآيند شخصي سازي انجام دهد.
در حالت کلي دو کلاس عمده از روش ها براي استفاده از تاريخچه پرس و جو هاي براي شخصي سازي موجود مي باشد: آنهايي که مبتني بر کل تاريخچه جستجوهاي کاربر هستند و آنهايي که مبتني بر تاريخچه جستجوي کاربر در يک جلسه جستجو خاص مي باشند. براي روش اول ، معمولا يک پروفايل براي کاربر توليد مي شود که نشانگر اولويت هاي جستجوي وي مي باشد. به عنوان مثال Liu در [4] از اين روش براي شخصي سازي استفاده مي کند. Speretta و Gauch در [5] ثابت کرده اند که استفاده از پروفايل کاربر مي تواند به طرز قابل ملاحظه اي در افزايش کارايي موتورهاي جستجو تاثير داشته باشد. تاريخچه جستجو در يک نشست هم که گاهي زنجيره پرس و جو هم ناميده مي شود در مقاله شماره [6] مورد استفاده قرار گرفته است. زنجيره پرس و جو ها براي پيشنهاد کردن و يا کامل تر کردن يک پرس و جو با استفاده از تاريخچه جستجوي موجود در آن نشست استفاده مي شود.

مدل کردن بر اساس داده هاي کليک
داده هاي کليک نوع ديگري از فيدبک هاي ضمني کاربران مي باشند که به طور قابل ملاحظه اي مورد استفاده قرار گرفته اند.[8][7] ايده ي اصلي اين روش اين است که زماني که کاربر بروي يک سند از مجموعه اسناد استخراج شده توسط يک موتور جستجو کليک مي کند ، به اين معناست که آن سند به علايق فرد نزديک تر است تا اسنادي که کاربر برروي ان کليک نمي کند. به عنوان مثال فرض کنيد يک موتور جستجو براي پرس و جو کاربر 20 صفحه را به ترتيب اولويت استخراج مي کند. وقتي کاربر از بين اين 20 صفحه برروي صفحه شماره 5 کليک مي کند اين به اين معناست که موتور جستجو براي اين کاربر، بايد صفحه 5 را در بالاترين اولويت قرار مي داد. از همين اصل در بسياري از موتورهاي جستجو استفاده مي شود. به عنوان مثال در موتور جستجوگر گوگل شما مي توانيد قبل از جستجو با ID گوگل وارد شده و از موتور جستجو بخواهيد که جستجوي شخصي سازي شده انجام دهد.
اما روش هاي زيادي براي استنتاج علايق کاربر از داده هاي کليک وجود دارد ( بعضي از موتور هاي جستجو داده هاي کليک را در اختيار عموم قرار مي دهند). يکي از ساده ترين راهکارها ، مثالي بود که در بالا اشاره کرديم. يعني وقتي کاربر برروي لينک شماره i ام در يک ليست رنک شده کليک مي کند ، مي توانيم نتيجه بگيريم که اسناد تا شماره i-1 اهميت کمتري نسبت به سند شماره i ام دارند. در ادامه به يک نمونه از مقالاتي که از داده هاي کليک براي افزايش کيفيت جستجو استفاده کرده ، اشاره شده است.
مشکلات داده هاي کليک : اما در مواجه به داده هاي کليک به دو مشکل عمده برخورد مي کنيم. اولا براي يک پرس و جو ، کاربر برروي تعداد بسيار محدودي از اسناد کليک مي کند که بنابراين داده هاي کليک کامل نيستند که به اين مسئله ، مشکل کليک هاي ناکامل مي گويند. در ثاني ، براي بسياري از پرس و جو ها و اسناد ، داده هاي کليک موجود نمي باشد که اين مسئله هم مشکل کليک هاي ناپيدا ناميده مي شود. بنابراين به آساني مي توان ديد که داده هاي کليک براي بيشتر اسناد کوتاه و يا خالي مي باشد. اگرچه که در بعضي از مقالات مشاهده مي کنيم که از همين داده هاي خام براي استخراج ويژگي هاي کليک استفاده مي شود[10][9]، اما محدوديت اين روش ها به دلايل زير بسيار زياد مي باشد : 1) – با کليک هاي ناکامل ، ويژگي هاي مربوط به کليکي که مي توان براي زوج سند – پرس و جو توليد کرد ناکامل و غير قابل اعتماد خواهد بود. 2) – براي کليک هاي ناپيدا ، ويژگي هاي کليکي نمي توان توليد نمود.
در کارهایي که در گذشته صورت گرفته [10][9] براي اين نوع از داده هاي کليک ( کليک هاي ناپيدا) مقدار صفر براي ويژگي کليک در نظر گرفته مي شد. که اين مقدار صفر تفاوت زيادي بين اين اسناد و ساير اسناد ايجاد کرده و عملا آنها را از دور رقابت خارج مي کرد و اين در حالي است که واقعيت چيز ديگري است. يک سند ممکن است بنابه دلايل مختلف کليک نشده باشد اما سند بسيار مناسبي براي کاربر باشد.
اما براي دو مشکل ارائه شده ، راه کارهاي نيز پيشنهاد شده است. مرجع شماره [11] به طور کامل به اين دو مشکل پرداخته و راه کاري براي آن معرفي نموده است. در اين مقاله ، نويسندگان مساله را به مساله تعيين فرکانس يا احتمال رويدادها ديده نشده [12] تشبيه کرده و از راهکارهايي که براي آن ارائه شده ، براي حل مساله خود استفاده کرده اند. به طور خيلي خلاصه ، اين مقاله داده هاي کليک را در دو جهت هموار و يا صاف مي کند : با کلاستر بندي پرس و جو هاي مشابه و با تخصيص مقادير غير صفر براي ويژگي کليک اسنادي که براي آنها داده کليک موجود نمي باشد. کلاسترينگ روي پرس و جو ها از طريق روش پياده روي رندوم روي گراف داده هاي کليک و استفاده از يک تابع کاهنده الهام گرفته شده از تخمين زننده تورينگ [13]صورت مي گيرد. روش پياده روي رندوم براي حل مشکل داده هاي ناکامل استفاده مي شود و براي داده هاي ناپيدا نمي توان از اين روش استفاده نمود. براي اسنادي که براي آنها داده هاي کليک موجود نباشد ازتابع تخمين زننده[13] استفاده شده است. آمار هاي ارائه شده در مقاله بيانگر پيشرفت قابل توجه در بازيابي اطلاعات نسبت به روش هاي قبلي مي باشد. براي اطلاعات کامل تر مي توانيد به مرجع شماره [11] مراجعه نماييد.

مدل کردن بر اساس زمان توجه کاربران
زمان توجه که گاهي اوقات زمان نمايش و يا زمان مطالعه هم ناميده مي شود يکي از روش هاي جديد شناخته شده از انواع فيدبک هاي ضمني کاربران مي باشد که علي رغم اينکه هنوز قابليت اعتماد آن در حد بالايي نيست ، اما شهرت روزافزوني بافته است. از يک طرف افرادي مثل Kelly و Belkin معتقدند که رابطه قابل اعتمادي بين زمان توجه و ميزان جزابيت يک سند وجود ندارد [14] . Kelly و Belkin در مطالعه خود زمان نمايش را متوسط زمان مطالعه دسته اي از کاربران برروي تعدادي از مقالات موجود در وب که در موضوعات متفاوتي بودند، در نظر گرفته اند.
از طرف ديگر دسته اي از افراد مثل Halabi et al [15] معتقد هستند که براي تعداد ثابتي از کاربران در يک نشست پرس و جو مشخص ، زمان توجه کاملا نشانگر علاقه کاربر مي باشد. هر چه قدر کاربر زمان بيشتري را صرف مطالعه يک سند مي کند ، آن سند براي وي با اهميت تر خواهد بود. البته به نظر مي رسد اين تفاوت نظرها تناقضي با هم نداشته باشند چراکه زمان نمايش در اين دو به شکلي متفاوت محاسبه مي شود. در ادامه به ذکر يک نمونه از مقالاتي که در اين زمينه ارائه شده است مي پردازيم.

مدل کردن براساس ساير عکس العمل هاي ضمني که از کاربران گرفته مي شود
ساير روش هاي فيدبک ضمني کاربر شامل زمان نمايش، scrolling، استفاده از نشانه گذاري ها و bookmark ها و استفاده از اطلاعات موجود در مورد کاربر در وب مي باشد. بعضي از پژوهشگران جديدا تعدادي از اين روش ها را با هم ترکيب کرده و نتايج خوبي هم بدست آورده اند[16]. در مرجع شماره [17] مطالعه ي جامعي در اين باره صورت گرفته است.

ourse Structures to Text Summaries.Proceedings of the 14th National Conference on Artificial Intelligence AAAI-97
[2] - GJ Rath, A Resnick, TR Savage. The formation of abstracts by the selection of sentences. American Documentation, 12(2): 139143, April 1961.
[3] - G Salton, A Singhal, M Mitra, C Buckley. Automatic text structuring and summarization. Information Processing and Management,33(2): 193-207, 1997.
[4] - F. Liu, C. Yu, and W. Meng. Personalized web search by mapping user queries to categories. In CIKM ’02: Proceedings of the 11th ACM International Conference on Information and Knowledge Management, pages 558–565, New York, NY, USA, 2002. ACM
[5] - M. Speretta and S. Gauch. Personalized search based on user search histories. In WI ’05: Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence, pages 622–628, Washington, DC, USA,2005. IEEE Computer Society.
[6] - F. Radlinski and T. Joachims. Query chains: learning to rank from implicit feedback. In KDD ’05: Proceedings of ACM SIGKDD International Conference on Knowledge Discovery in Data Mining, pages 239–248, New York, NY, USA, 2005. ACM
[7] - T. Joachims. Optimizing search engines using clickthrough data. In KDD ’02: Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 133–142, New York, NY, USA, 2002. ACM
[8] - G. Dupret, V. Murdock, and B. Piwowarski. Web search engine evaluation using clickthrough data and a user model. In WWW ’07: Proceedings of International Conference on World Wide Web, Banff, Canada, 2007
[9] - Burges, C., Shaked, T., Renshaw, E., Lazier, A., Deeds, M.,Hamilton, and Hullender, G. 2005. Learning to rank using gradient descent. In ICML, pp. 89-96.
[10] - Burges, C. J., Ragno, R., & Le, Q. V. 2006. Learning to rank with nonsmooth cost functions. In NIPS, pp. 395-402
[11] - J.Gao, W.Yuan, X.Li, K.Deng, J.Nie. Smoothing Clickthrough Data for Web Search Ranking. SIGIR, 2009, Boston, Massachusetts, USA, ACM
[12] - Chen, S. and Goodman, J. 1998. An empirical study of smoothing techniques for language modeling. Technical Report TR-10-98, Harvard University
[13] - Goodman, J. and Gao, J. 2000. Language model size reduction by pruning and clustering. In ICSLP, pp. 176-182.
[14] - D. Kelly and N. J. Belkin. Reading time, scrolling and interaction: exploring implicit sources of user preferences for relevance feedback. In SIGIR ’01: Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 408–409, New York, NY, USA, 2001. ACM

[15] - W. S. A. Halabi, M. Kubat, and M. Tapia. Time spent on a web page is sufficient to infer a user’s interest. In IMSA ’07: Proceedings of IASTED European Conference, pages 41–46, Anaheim, CA, USA, 2007. ACTA Press
[16] - Y. Lv, L. Sun, J. Zhang, J.-Y. Nie, W. Chen, and W. Zhang. An iterative implicit feedback approach to personalized search. In ACL ’06: Proceedings of International Conference on Computational Linguistics, pages 585–592, Morristown, NJ, USA, 2006. Association for Computational Linguistics
[17] - S. Fox, K. Karnawat, M. Mydland, S. Dumais, and T. White. Evaluating implicit measures to improve web search. ACM Transactions on Information Systems,23(2):147–168, 2005.

خانه زمینه های تحقیقاتی زبان شناسی محاسباتی خلاصه سازی متن خلاصه سازی شخصی سازی شده یا مبتنی بر کاربر