RSS      English

درباره گروه خلاصه سازی خودکار اسناد ...

خلاصه سازی خودکار متن، همواره یکی از شاخه های پر طرفدار بازیابی اطلاعات بوده است. از سال 1957 تا کنون روشها و مقالات متعددی برای خلاصه سازی متون انگلیسی ارائه شده است. متاسفانه به دلیل عدم توجه به زبان فارسی و وجود مشکلاتی از قبیل عدم وجود پیکره های مناسب، ابزارهای ارزیابی مناسب، ابزارهای پردازش متن بر روی زبان فارسی و همچنین تا حدودی پیچیدگی های خود زبان فارسی، کارهای بسیار کمی در این زمینه انجام شده است. گروه خلاصه سازی خودکار متن در سال 87 به عنوان زیرشاخه ای از گروه فناوری وب دانشگاه فردوسی مشهد شکل گرفت. در ابتدا تمرکز این گروه بر روی زبان انگلیسی معطوف بود ولی با گسترش این گروه و شکل گیری ارتباطات بین گروهی با گروه زبان شناسی دانشگاه فردوسی، عمده توجهات به سوی زبان فارسی گراییده شد و بر همین اساس درس زبان شناسی رایانه ای توسط دکتر نادر جهانگیری و با همکاری آزمایشگاه فناوری وب ارائه گردید.

ادامه مطلب: درباره گروه خلاصه سازی خودکار اسناد ...

تعاریف پایه زبان شناسی

 

ريشه يابي
ريشه يابي به فرآيند كاهش دادن لغات به ريشه هاي آنها اطلاق مي گردد. بنابراين "computer" و "compute"و "computing' به"compute" كه ريشة اصلي است كاهش مي يابند. تمامي سيستماي بازيابي اطلاعات نوع يكساني از "ريشه ياب" را مورد استفاده قرار نمي. در انگليسي معروف ترين ريشه ياب ، الگوريتم ريشه ياب "مارتين پورتر" است. در طول ساليان گذشته ، بسياري مزايا و معايب استفاده از ريشه يابي را متذكر شده اند. به عنوان مثال ؛ هيچ شكي نيست كه ريشه يابي كردن تضمين مي كند كه سند هايي كه همگي شامل اشتقاقهاي متفاوتي از كلمة موجود در پرس و جو هستند، در مجموعه جواب نهايي هستند. اما مشکل ريشه ياب علي الخصوص در زبان شيرين فارسي ، دقت آنها مي باشند. معروف ترين الگوريتم ريشه ياب فارسي هم الگوريتم نوشته شده توسط کاظم تقوي مي باشد که البته دقت بالايي ندارد. تقريبا در اکثر مقالات خلاصه سازي، ريشه يابي ، عملياتي است که همواره در فاز پيش پردازش صورت مي پذيرد. در زبان فارسی هم مقالاتی برای ریشه یابی موجود می باشد. یکی از این مقالات نوشته آقای کاظم تقوی بوده که از دیاگرام حالت برای تشخیص ریشه استفاده می کند. گزارش کاملی از مقالات ارائه شده در این زمینه در اینجا موجود می باشد.

ادامه مطلب: تعاریف پایه زبان شناسی

بررسی تاریخچه خلاصه سازی خودکار متن

 

با گسترش روزافزون حجم اطلاعات موجود در وب و افزايش چشم گير مقالات منتشر شده در زمينه هاي مختلف علمي ، دسترسي درست و مطالعه اطلاعات مورد نياز، همواره يکي از مشکلات محققان و پژوهشگران قرن 21 مي باشد. اينکه چه طور از يک طرف با اين حجم انبوه از داده ها و از طرفي ديگر با زمان محدودي که در اختيار داريم ، بتوانيم مطالب مورد نياز خود را مطالعه کنيم و يا اينکه چه طور مي توان در روز چندين کتاب را مطالعه نمود و يا اينکه آيا مي توان سيستمي طراحي نمود که بتواند با داده هاي موجود به تمامي سوالات ما پاسخ دهد، اينها سوالاتي است که پاسخ آنها را مي توان در يک سيستم خلاصه ساز متن جستجو کرد.

 

ادامه مطلب: بررسی تاریخچه خلاصه سازی خودکار متن

انواع سیستم های خلاصه سازی

سيستم هاي خلاصه ساز معمولا از ديدگاه هاي مختلفي تقسيم بندي مي شوند. از دیدگاه آقای hovy سیستم های خلاصه سازی خودکار را می توان بر حسب منبع ، هدف و خروجی به سه دسته عمده تقسیم بندی نمود :[1]
1) منبع : نمايش گروه زيادي از فرمتهاي ورودي و همچنين نقاط شروع در اطلاعات که احتمال خلاصه شدن دارند.
2) هدف : کاربرد خلاصه توليد شده به چه شکل باشد.
3) خروجي : مشخص کردن فرمت خروجي خلاصه و اطلاعاتي که در آن قرار دارد.

ادامه مطلب: انواع سیستم های خلاصه سازی

خلاصه سازی شخصی سازی شده یا مبتنی بر کاربر

حوزه هاي کاربرد خلاصه سازي
زمينه هاي کاربردي خلاصه سازي خودکار متن گسترده است . با رشد قابل ملاحظه ميزان اطلاعات در اينترنت ، انتخاب اطلاعات مرتبط ، کار مشکلي است. اطلاعات بطور همزمان روي بسياري از کانالهاي رسانه اي با نسخه هاي مختلف منتشر مي شود . براي مثال يک صفحه روزنامه ، صفحه خبر در وب ، پيغامهاي SMS ، پخش اخبار راديو و روزنامه سخنگو براي کسانيکه مشکل بينايي دارند. تنظيم اطلاعات براي کانالها و فرمتهاي مختلف يک کار ويرايشي مهم است که خصوصا در خلاصه کردن متن اصلي نقش دارد.

ادامه مطلب: خلاصه سازی شخصی سازی شده یا مبتنی بر کاربر