RSS      English

تعاریف پایه زبان شناسی

 

ريشه يابي
ريشه يابي به فرآيند كاهش دادن لغات به ريشه هاي آنها اطلاق مي گردد. بنابراين "computer" و "compute"و "computing' به"compute" كه ريشة اصلي است كاهش مي يابند. تمامي سيستماي بازيابي اطلاعات نوع يكساني از "ريشه ياب" را مورد استفاده قرار نمي. در انگليسي معروف ترين ريشه ياب ، الگوريتم ريشه ياب "مارتين پورتر" است. در طول ساليان گذشته ، بسياري مزايا و معايب استفاده از ريشه يابي را متذكر شده اند. به عنوان مثال ؛ هيچ شكي نيست كه ريشه يابي كردن تضمين مي كند كه سند هايي كه همگي شامل اشتقاقهاي متفاوتي از كلمة موجود در پرس و جو هستند، در مجموعه جواب نهايي هستند. اما مشکل ريشه ياب علي الخصوص در زبان شيرين فارسي ، دقت آنها مي باشند. معروف ترين الگوريتم ريشه ياب فارسي هم الگوريتم نوشته شده توسط کاظم تقوي مي باشد که البته دقت بالايي ندارد. تقريبا در اکثر مقالات خلاصه سازي، ريشه يابي ، عملياتي است که همواره در فاز پيش پردازش صورت مي پذيرد. در زبان فارسی هم مقالاتی برای ریشه یابی موجود می باشد. یکی از این مقالات نوشته آقای کاظم تقوی بوده که از دیاگرام حالت برای تشخیص ریشه استفاده می کند. گزارش کاملی از مقالات ارائه شده در این زمینه در اینجا موجود می باشد.

ريشه يابي
ريشه يابي به فرآيند كاهش دادن لغات به ريشه هاي آنها اطلاق مي گردد. بنابراين "computer" و "compute"و "computing' به"compute" كه ريشة اصلي است كاهش مي يابند. تمامي سيستماي بازيابي اطلاعات نوع يكساني از "ريشه ياب" را مورد استفاده قرار نمي. در انگليسي معروف ترين ريشه ياب ، الگوريتم ريشه ياب "مارتين پورتر" است. در طول ساليان گذشته ، بسياري مزايا و معايب استفاده از ريشه يابي را متذكر شده اند. به عنوان مثال ؛ هيچ شكي نيست كه ريشه يابي كردن تضمين مي كند كه سند هايي كه همگي شامل اشتقاقهاي متفاوتي از كلمة موجود در پرس و جو هستند، در مجموعه جواب نهايي هستند. اما مشکل ريشه ياب علي الخصوص در زبان شيرين فارسي ، دقت آنها مي باشند. معروف ترين الگوريتم ريشه ياب فارسي هم الگوريتم نوشته شده توسط کاظم تقوي مي باشد که البته دقت بالايي ندارد. تقريبا در اکثر مقالات خلاصه سازي، ريشه يابي ، عملياتي است که همواره در فاز پيش پردازش صورت مي پذيرد. در زبان فارسی هم مقالاتی برای ریشه یابی موجود می باشد. یکی از این مقالات نوشته آقای کاظم تقوی بوده که از دیاگرام حالت برای تشخیص ریشه استفاده می کند. گزارش کاملی از مقالات ارائه شده در این زمینه در اینجا موجود می باشد.
برچسب زدن نحوي (POS)
اگرچه تعداد زيادي معتقد نيستند که اين کار جزئي از متن کاوي است ؛ ولي براي مثال سيستمي به نام GATE [1] در دانشگاه شفيلد، در يک کتابخانه ي ديجيتال به اين قصد جاگذاري شده است. GATE شامل ابزاراتي است براي برچسب زدن به جملات. براي مثال اين سيستم مي تواند در داخل يک متن، نام موقعيتهاي جغرافيايي، نام اشخاص و چيزهايي شبيه اين را بيابد. به اين خاطر اين سيستم بيشتر شامل ، استخراج اطلاعات است تا استخراج دانش. در عين حال ، POS اغلب نقش بزرگي را در پردازش زبانهاي طبيعي بازي ميکند. درحقيقت اين اولين قدم در پردازش زبان طبيعي است و همانطور که خواهيم ديد پردازش زبان طبيعي يکي از پايه هاي متن کاوي است. برچسب هايي را به کلمات نظير اسم، فعل و ... اختصاص مي دهد.
WordNet
زبانهاي طبيعي، همگي داراي ابهام هستند. کلمات هر زبان مي تواند چندين معني و مفهوم داشته باشد. به عنوان مثال، اگر شما لغت game را در يک فرهنگ لغت جستجو کنيد، معاني مختلفي براي آن وجود دارد، از"بازي" گرفته تا "گوشت شکار" ، که اصلا هيچ شباهتي به يکديگر ندارند. معاني اين کلمات، بسته به کاربرد آن در جمله و يک متن، تا حدودي مشخص مي شود. اين ابهام، در کاربردهايي مانند سيستمهاي ترجمه ماشيني به عنوان يک مشکل شناخته مي شود. از اوايل دهه 90 ميلادي، محققان عرصه کامپيوتر، بر آن شدند تا روشي را براي بيان صريح مفاهيم موجود در دنياي واقعي، پيدا کنند. هستانشناسي چنين کاري براي ما انجام مي دهد. هستان شناسي [2] گرافي است که گره هاي آن مفاهيم موجود در دنياي واقعي را مشخص مي کند و يالهاي آن، ارتباطات موجود بين اين مفاهيم را.
WordNet لغت نامه اي است که از هستان شناسي براي دسته بندي مفاهيم موجود در دنياي واقعي استفاده کرده است و کلمات انگليسي را اعم از اسم، فعل، صفت و قيد را به اين مفاهيم نسبت داده است. در حال حاضر نسخه 3 برای زبان انگلیسی موجود می باشد.


کلماتي هستند که در متون بارها و بارها ظاهر شده و اهميت چنداني ندارند و معمولا در اکثر الگوريتم هاي خلاصه سازي ، در فاز پيش پردازش ، اين کلمات حذف مي شوند. نمونه از اين کلمات در زبان فارسي عبارتند از : به ، از ، و ، که ، بر ، با ، تا ، نه ، هم ، براي و ... . لیست کامل این کلمات در مقاله آقای نیما مزدک که در آن یک خلاصه ساز فارسی با الهام از سیستم SweSum با عنوان FarsiSum ارائه کرده اند ، آورده شده است.[3] (بازگشت ... ) [1] - K.Bontcheva, H.Cunningham, V.Tablan, D.Maynard, O.Hamza. Using GATE as an Environment for Teaching NLP. Department of Computer Science University of Sheffield Sheffield, S1 4DP, UK- 2002.
[2] - C.Calero, F.Ruiz, M.Piattini. Ontologies for Software Engineering and Software Technology. Springer-Verlag Berlin Heidelberg 2006.
[3] - N.Mazdak .FarsiSum : A Persian text summarizer.2004