پارسر زبان فارسی

پارسر زبان فارسی

معرفی پروژه

به موازات پیشرفت و تحولات نظری در زبان‌شناسی جدید، روش‌های تحلیل متون و دستورات زبان بوسیلهی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده مانند گروه های اسمی، فعلی، قیدی و غیره توسط ابزاری به نام پارسر صورت می گیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.
پارسر طراحی شده برای زبان فارسی در این پروژه، از ساختار لغات، موقعیت و ترتیب لغات در جمله، حروف یا عبارات قبل و بعد از آنها و نوع لغات، درخت نحوی یا پارسینگ را برای جملات متن تشکیل می دهد. در واقع عملیات پارسینگ با توجه به ریختشناسی (مطالعه ساختار و حالتهای مختلف یک کلمه) و همچنین دستورات نحوی گرامر زبان فارسی صورت میگیرد. بدیهی است هر چقدر نگارش بکار رفته در جملات و همچنین رعایت علائم سجاوندی طبق اصول و با دقت بیشتری صورت گرفته باشد، عملیات پارسینگ با کیفیت بهتری صورت خواهد گرفت و اجزای تشکیل دهنده ی جمله با عملیات کمتر و ساده تری برچسب زده خواهند شد.


لینک های پروژه

ابزار پارسر زبان فارسی
برای استفاده از نرم افزار ابتدا بسته نرم افزاری دات نت فریمورک 4.5 را نصب نمایید.‏ استفاده از این برنامه در پژوهشهای علمی با ارجاع به مقاله مربوطه بلامانع است.



زمینه پژوهشی


تاریخ اجرا

1391


پایان نامه ها


مقالات

مشاوره پژوه شی و ایجاد انباره داده و داده کاوی کلمات

مشاوره پروژه شی و ایجاد انباره داده و داده کاوی کلمات

معرفی پروژه

کارفرما: سازمان فاوا شهرداری مشهد
شروع: شهریور 1393 – پایان: اسفند 1394





تاریخ اجرا

1393


پایان نامه ها


مقالات

ریشه یاب معنایی در زبان فارسی

ریشه یاب معنایی در زبان فارسی

معرفی پروژه

هدف از انجام پروژه ریشه یابی معنایی در زبان فارسی، جداسازی کلمات از متن و بازگرداندن کلمات به ريشه اصلی تشکيل دهنده آنهاست. تفاوت اصلی اين پروژه با ساير پژوهش‌های انجام شده در زمينه ريشه‌يابی، قابليت بازگرداندن کلمات به ريشه بدون از بين رفتن معنای آنها در جمله می‌باشد. بدين منظور به نقش کلمات در جمله توجه ويژه‌ای شده است. در اين طرح از مجموعه افعال گرداوری شده توسط گروه دادگان و لغات پرکاربرد پيکره همشهری استفاده شده است.


لینک های پروژه

ابزار ریشه یاب معنایی برای زبان فارسی نسخه 1.6
برای استفاده از نرم افزار ابتدا بسته نرم افزاری دات نت فریمورک 4.5 را نصب نمایید.‏ استفاده از این برنامه در پژوهشهای علمی با ارجاع به آزمایشگاه فناوری وب دانشگاه فردوسی مشهد بلامانع است. درصورت استفاده از این ابزار در کار پژوهشی خود، لطفاً به این ابزار بصورت زیر ارجاع نمایید:
ابزارهای پردازش متون زبان فارسی، آزمایشگاه فناوری وب دانشگاه فردوسی مشهد، 1391. (wtlab.um.ac.ir)
همچنین در صورت مشاهده اشتباه در تشخیص ریشه کلمه یا برچسب آن، لطفاً مورد اشتباه را به ایمیل ehsan.asgarian(at)gmail.com اطلاع دهید.



زمینه پژوهشی


تاریخ اجرا

1391


پایان نامه ها


مقالات

برچسب گذار نقش کلمات فارسی

برچسب گذار نقش کلمات فارسی

معرفی پروژه

برچسب گذاری اجزای واژگانی کلام (Part of Speech tagging) عمل انتساب برچسب های واژگانی به کلمات و نشانه های تشکیل دهنده یک متن است؛ به صورتی که این برچسب ها نشان دهنده نقش کلمات و نشانه ها در جمله باشد. درصد بالایی از کلمات از نقطه نظر برچسب واژگانی دارای ابهام هستند، زیرا کلمات در جایگاههای مختلف برچسب های واژگنی متفاوتی دارند. بنابراین برچسب گذاری واژگانی عمل ابهام زدایی از برچسب ها با توجه به زمینه (متن) مورد نظر است. برچسب گذاری واژگانی عملی اساسی برای بسیاری از حوزه های دیگر پردازش زبان طبیعی (NLP) از قبیل ترجمه ماشینی، خطایاب و تبدیل متن به گفتار می باشد. تا کنون مدل ها و روش های زیادی برای برچسب گذاری در زبان های مختلف استفاده شده است. بعضی از این روش ها عبارتند از:
مدل مخفی مارکوف (Markov Hidden Model)
برچسب گذاری مبتنی بر تبدیل یا قانون (Transformation/Rule -based tagger)
سیستم های مبتنی بر حافظه (Memory-basedSystem)
سیستم های ماکزیمم آنتروپی (Maximum Entropy System)


لینک های پروژه

برچسب گذار نقش کلمات فارسی
برای استفاده از نرم افزار ابتدا بسته نرم افزاری دات نت فریمورک 4.5 را نصب نمایید.‏ استفاده از این برنامه در پژوهشهای علمی با ارجاع به آزمایشگاه فناوری وب دانشگاه فردوسی مشهد بلامانع است. درصورت استفاده از این ابزار در کار پژوهشی خود، لطفاً به این ابزار بصورت زیر ارجاع نمایید:
ابزارهای پردازش متون زبان فارسی، آزمایشگاه فناوری وب دانشگاه فردوسی مشهد، 1391. (wtlab.um.ac.ir)
همچنین در صورت مشاهده اشتباه در تشخیص ریشه کلمه یا برچسب آن، لطفاً مورد اشتباه را به ایمیل ehsan.asgarian(at)gmail.com اطلاع دهید.



زمینه پژوهشی


تاریخ اجرا

1392


پایان نامه ها


مقالات

فردوس نت

فردوس نت

معرفی پروژه

فردوس‌نت شامل يک مجموعه لغت فارسی است که هر لغت در يک گروه هم‌خانواده که به يک مفهوم اشاره دارند، قرار می‌گيرد. همچنين روابط سلسله‌مراتبی و معنايی مختلف بين اين گروه‌های مفاهيم تشکيل می‌شود. برای اولين بار شکه واژگان برای زبان انگليسی طراحی و متنتشر شده است. ایده اصلی این پروژه بر این محور استوار است که مفاهیم و موجودات پیرامون ما دربین زبان‌های مختلف یکسان می‌باشند. بنابراین درصورتی که ما بتوانیم برای هر کلمه انگلیسی، ترجمه مناسب آن در زبان فارسی برای گروه مفاهیم بکار رفته در آنرا پیدا کنیم، ضمن اینکه می‌توانیم گروه‌های مفاهیم فارسی را تا حد زیادی بصورت خودکار تولید کنیم، می‌توانیم از روابطی که بین این گروه‌های مفاهیم در زبان انگلیسی تعریف شده است، نیز استفاده نماییم. چرا که این روابط در زبان فارسی هم برقرار می‌باشند و درحقیقت مفاهیم و موجودیتها و روابط بین آنها مستقل از زبان هستند.


لینک های پروژه



زمینه پژوهشی


تاریخ اجرا

1391


پایان نامه ها


مقالات