RSS      English

خانه پروژه ها پروژه ها

پیکره قرآنی فرقان

forghan
 معرفی پروژه
 

  امام علی (ع) می­فرماید: "قرآن را زمانه تفسیر می‌کند."

در برداشت از چنین روایاتی است که علامه طباطبایی هر دهه را نیازمند تفسیری جدید از قرآن دانسته­اند و بدیهی است این مهم مستلزم بهره مندی از فناوری‌های معاصر است. با این نگرش و در پیروی از امر امام راحل (ره) به تلاش در تنقیب قرآن، "شبکه پژوهشی قرآن­ کاوی" (Quran Mining Research Network) در دهه اخیر شکل یافته است تا با بهره گیری از فناوری‌های متن کاوی (Text Mining) ابزار پیشرفته هوش مصنوعی رایانه را در خدمت اکتشاف اطلاعات پنهان متن قرآن قرار ­دهد. محققین این شبکه تلاش دارند نه تنها بحث‌های حل نشده و شبهه‌های ایجاد شده برای قرآن را مرتفع سازند، بلکه جنبه‌هایی ناشناخته از این اصلی ترین منبع هدایت را به بشریت عرضه کنند. در همین راستا طراحي و پياده‌سازي پيكره متني قرآن كريم در قالب RDF و به شكل محتواي الكترونيكي، حاوي اطلاعات صرفي و نحوي، امكان استفاده و كاوش را براي هر گونه پژوهش و پردازش هوشمند ايجاد خواهد کرد.

تبيين اعجاز زباني قرآن كريم، در دستيابي به لايه‌هاي نامشهود زباني اين متن الهي می‌باشد. بدین ترتیب پس از فراهم شدن بستر مناسب جهت متن کاوی روی قرآن کریم می‌توان با طراحی و بهره گیری از ابزارهای متن کاوی به اکتشاف کلامی و معنایی متن قرآن کریم پرداخت. دانش هوشمند متن كاوي (text mining) به عنوان جديد ترين وجه همكاري بين دانش‌هاي فناوري اطلاعات، زبان‌شناسي و ادبيات در كاوش رايانه اي متون بشري قصد حصول اين امر را دارد و چنين كاوشي مستلزم ايجاد پيكره‌هاي متني برچسب گذاري شده از آن متون است كه به شكل محتوايي الكترونيكي حاوي اطلاعات صرفي و نحوي متون مورد نظرند.

پیکره متنی و زیرساختی که تحت عنوان "پیکره فرقان" برای قرآن کریم تولید گردیده است، حاصل بهره‌گیری از سامانه ای هوشمند است که در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد، طراحی و پیاده سازی شده است. این پیکره با بیش از 587 مگابایت داده، حاوی کلیه ی اطلاعات قرآنی، آماری، متن و ترجمه فارسی و انگلیسی آیات و برچسب گذاری صرفی و نحوی متن عربی، فارسی و انگلیسی آیات، ریشه یابی کلمات آنها و بسیاری موارد دیگر در قالب RDF است و امکان استفاده و کاوش را برای هرگونه پژوهش و پردازش هوشمند ایجاد کرده است.

با اطلاعات تولید شده در قالب RDF برای سوره، آیه، صفحه، صرف و نحو آیات و حروف الفبایی، دامنه‌ی وسیعی از اطلاعات مفید و سودمند برای انجام عملیات متن کاوی برای پژوهشگران و محققان قرآنی فراهم گردیده است. با بهره گیری از دانش هوشمند متن كاوی بر روی پیكره های متنی برچسب گذاری شده قرآن کریم و تهیه آنتولوژی یا هستان شناسی جامعی از مفاهیم موجود در قرآن کریم، در گام های آتی می توان در تبیین اعجاز زبانی قرآن كریم با دستیابی به لایه های نامشهود زبانی این متن الهی گام برداشت.

لازم به ذکر است که کلیه مفاهیم و موجودیت های موجود در پیکره ی جمع آوری شده، به آنتولوژی ها و مفاهیم مشابه با آنها در وب، لینک داده شده اند. به طوری که پیکره ی موجود در حال حاضر شامل بیش از 332.589 پیوند می باشد که تعداد 33.854 مورد از آنها منحصر بفرد می باشد. در کل پیکره ی تهیه شده با حجم داده ای نزدیک به 587 مگابایت، بیش از 13.298 RDF وجود دارد. همچنین 13.299 فایل HTML (صفحه وب) برای بازنمایی اطلاعات RDFها وجود دارد.

در حال حاضر ابزار پارس کردن اطلاعات صرف و نحوی آیات، طراحی گردیده است و کار برای طراحی ابزاری جهت SPARQL زدن بر روی داده های RDF قرآنی ادامه دارد. از جمله اقداماتی که می توان در گام های آتی جهت غنی تر شدن خروجی کار و همچنین تولید دانش از پیکره ی موجود به آنها پرداخت، می توان به موارد ذیل اشاره نمود:

- مشخص کردن موضوع و مفهوم غالب در هر سوره با بررسی و پردازش مفاهیم مندرج در آیات سوره. - پردازش متن و دسته بندی موضوعات سوره ها و آیات و مشخص کردن رابطه بین آنها.

- ساخت آنتولوژی موضوعات و مفاهیم قرآن.

- منتسب کردن آیات به مفاهیم. - به دنبال آن، تعیین ارتباط بین لغات، آیه ها، سوره ها، جزء ها و غیره با پیوند دادن آنها با اطلاعات موجود در وب. - تکمیل و گسترش آنتولوژی مفاهیم قرآنی با روند یادگیری ماشینی و ...

-پرسش و استنتاج بر روی پیکره ی تولید شده با SPARQL زدن بر روی داده های RDF و پارس کردن فایل XML حاوی اطلاعات صرف و نحو متن عربی آیات و تجزیه - تحلیل انسانی و یا هوشمند نتایج جهت کشف روابط کلامی و معنایی پنهان در متن قرآن کریم.

 
 لینک های پروژه

 

  • برای مشاهده پروژه اینجا را کلیلک کنید

  • برای دانلود توضیحات و مستندات مربوط به پروژه اینجا را کلیک کنید

  • برای دانلود پیکره گردآوری شده تحت عنوان پیکره فرقان، اینجا را کلیک کنید

  •  

     اعضای پروژه

     

  •  احمد استیری

  •  زنده یاد فرزاد فرخ زاد

  •  محبوبه دادخواه

  •  

       انتشارات  
  •  

  • پروژه FUM-LD

    fum-ld
     معرفی پروژه
     

    هدف این پروژه، پياده سازي يك چارچوب براي انتشار اطلاعات دانشگاه فردوسی مشهد بصورت داده هاي پيوندي فارسي است. اطلاعات انتخاب شده برای انتشار عبارتند از: دانشكده ها، گروه های آموزشي، اساتید، مقالات و دروس دانشگاه فردوسی مشهد. بطور خلاصه، فرآيند انتشار چارچوب پيشنهادي شامل استخراج اطلاعات مورد نياز از پايگاه داده هدف، انتشار مجموعه داده به فرمت RDF و HTML، انتشار اطلاعات VoiD جهت توصيف مجموعه داده و ایجاد پيوندهاي لازم براي ارتباط اين مجموعه داده با ابر داده هاي پيوندي LOD می باشد.

     
     لینک های پروژه

     

  • مجموعه لینک مربوط به دانشکده ها

  • مجموعه لینک مربوط به گروه های آموزشی
  • مجموعه لینک مربوط به اساتید

  • مجموعه لینک مربوط به مقالات

  • مجموعه لینک مربوط به درس ها

  •  

     اعضای پروژه

     

  •  بهشید بهکمال

  •  صمد پایدار

  •  محبوبه دادخواه

  •  فتانه زرین کلام

  •  

       انتشارات  
  • Samad Paydar, Mohsen Kahani, Behshid Behkamal, Mahboobeh Dadkhah, Elaheh Sekhavaty, Publishing Data of Ferdowsi University of Mashhad as Linked Data, the 2010 International Conference on Computational Intelligence and Software Engineering (CiSE 2010).
  • Behshid Behkamal, Mohsen Kahani, Samad Paydar, Mahboobeh Dadkhah, Elaheh Sekhavaty, Publishing Persian Linked Data; Challenges and Lessons Learned, the Fifth International Symposium On Telecommunications (IST 2010), December 4-6, 2010, Tehran, Iran.

  • Samad Paydar, Mohsen Kahani, Behshid Behkamal, Mahboobeh Dadkhah, Publishing Persian Linked Data; Challenges and Lessons Learned, accepted and is to be published in the special issue on IT Applications & Services, the International Journal of Information and Communication Technology (IJICT), International Telecom Research Center (ITRC), vol. 2, no. 3, pp. 9-19, November 2010.

  •  

    سامانه خلاصه ساز ایجاز

    ijaz-logo
     معرفی پروژه
     

    پروژه سامانه خلاصه ساز تک سندی و چندسندی ایجاز، به سفارش سازمان فناوری اطلاعات ایران و توسط آزمایشگاه فناوری وب دانشگاه فردوسی مشهد انجام شد. در این پروژه بزرگ، مجموعه ای از ابزارهای مورد نیاز برای تولید سامانه های خلاصه ساز تولید گردید. همچنین نسخه تحت وب خلاصه ساز تک سند و چند سندی نیز تولید گردید که در صفحه اصلی سایت قابل مشاهده می باشد. این سامانه قابلیت تولید خلاصه برای متون تک سندی و چند سندی فارسی و انگلیسی را دارد. برای تولید این سامانه از معیارهای گوناگونی استفاده شده است.

    همچنین برای اولین بار در کشور، پیکره بزرگ خلاصه سازی فارسی برای ارزیابی سیستم های خلاصه ساز با استفاده از استانداردهای لازم و با صرف بیش از 2000 نفر-ساعت زمان تولید گردید. پیکره «پاسخ» (پیکره استاندارد سامانه های خلاصه ساز) در دو مدل تک سندی و چند سندی ارائه گردیده است. پیکره تک سندی شامل 100 موضوع مختلف از انواع گونه های خبری بوده که از خبرگزاری های پرببینده ایران انتخاب شده اند. هر کدام از این موضوعات دارای 5 خلاصه چکیده ای و استخراجی می باشند که توسط کارشناسان آموزش دیده تولید شده اند. پیکره چند سندی "پاسخ" نیز شامل 50 موضوع می‌باشد که هر موضوع حاوی 20 سند بوده و همچنین هر موضوع شامل 5 خلاصه انسانی و چکیده‌ای می باشد.

    همچنین برای اولین بار در کشور ابزار ارزیابی سامانه‌های خلاصه‌ساز نیز تولید گردید. این ابزار قادر است تا با استفاده از معیارهای گوناگون و با بهره گیری از خلاصه های انسانی تولید شده در پیکره «پاسخ»، سامانه های خلاصه سازی را ارزیابی نماید. این ابزار در بخش "ابزارهای سایت" قابل دانلود می باشد. ابزارهای دیگری نیز جهت پیش پردازش زبان طبیعی تولید گردیده که قابل دانلود می باشد.

     
     لینک های پروژه

     

  • سامانه خلاصه ساز ایجاز

  •  

     اعضای پروژه

     

    پروژه ایجاز زیر نظر جناب آقای دکتر محسن کاهانی و با حضور بیش از 20 نفر از دانشجویان مقاطع دکتری، کارشناسی ارشد و کارشناسی از رشته های مهندسی کامپیوتر و زبانشناسی دانشگاه فردوسی و با همکاری سازمان فناوری اطلاعات ایران اجرا شد. لیست اعضای شرکت کننده در پروژه در بخش ذیل موجود می باشد.

  • تیم تحقیقاتی و اجرایی پروژه:

  • آصف پورمعصومی - احسان عسگریان - احمد طوسی - رضا سعیدی - احمد استیری - محسن حسینی - هادی قائمی - فاطمه پور غلامعلی

  • تیم تولید پیکره:
  •  بهداد بهمدی - محمد امین حسینی - امیر رضا بهرامی - سعید کرواشی - نیلوفر حسین زاده - مهدی جنتی - سیده فاطمه میر حسینی - افسانه چهکندی - فاطمه ارجمند - فاطمه حکیمی - نرگس شفازاده - آسیه علی رضایی - صفورا ابراهیمی 

     

       انتشارات  
  • آصف پورمعصومی حسن کیاده , محسن کاهانی , محسن کامیار , حسین کامیار , خلاصه‌سازی خودکار چند سندی مبتنی بر مفاهیم , شانزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران , 2011-03-08.

  • حسین کامیار , محسن کاهانی , محسن کامیار , آصف پورمعصومی حسن کیاده , روش جدید خلاصه‌سازی استخراجی تک سندی با استفاده از نظریه مرکزیت , شانزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران , 2011-03-08.

  • احمد استیری، محسن کاهانی، آصف پورمعصومی ، ارائه یک ابزار ارزیابی خودکار خلاصه‌سازهای چکیده‌ای فارسی با بهره‌گیری از شبکه واژگان، نخستین کنفرانس بین‌المللی پردازش خط و زبان فارسی، دانشکده مهندسی برق و کامپیوتر دانشگاه سمنان، شهریور 1391.

  • فاطمه پورغلامعلی، محسن کاهانی،آصف پورمعصومی، خلاصه سازی چکیده ای مبتنی بر مشابهت جملات، نخستین کنفرانس بین‌المللی پردازش خط و زبان فارسی، دانشکده مهندسی برق و کامپیوتر دانشگاه سمنان، شهریور 1391.

  • فاطمه پورغلامعلی، محسن کاهانی، آصف پورمعصومی، شباهت معنایی جملات مبتنی بر نقش های معنایی، 17 امین کنفرانس انجمن کامپیوتر ایران – دانشگاه صنعتی شریف، 1390

  • احمد استیری، محسن کاهانی، زهرا کیوانلو، آصف پورمعصومی، ابزار ارزیابی خودکار خلاصه سازهای ماشینی فارسی، چهارمین کنفرانس فناوری اطلاعات و دانش، دانشگاه صنعتی نوشیروانی بابل، خرداد 1391.

  • احمد استیری، محسن کاهانی، رضا سعیدی، احسان عسگریان، طراحی ابزار پارسر فارسی، نخستین کنفرانس بین‌المللی پردازش خط و زبان فارسی، دانشکده مهندسی برق و کامپیوتر دانشگاه سمنان، شهریور 1391.

  • احمد استیری، محسن کاهانی، فاطمه پورغلامعلی، دسته بندی روش های محاسبه میزان تشابه معنایی لغات و جملات با بهره گیری از شبکه واژگان، نخستین کنفرانس بین‌المللی پردازش خط و زبان فارسی، دانشکده مهندسی برق و کامپیوتر دانشگاه سمنان، شهریور 1391.

  • asef pourmasoumi , Mohsen Kahani , Saeed Varasteh Yazdi , hossein kamyar , Context-Based Persian Multi-Document Summarization (global view) , International Conference on Asian Language Processing 2011 , 2011-11-15.

  • hossein kamyar , Mohsen Kahani , Mohsen Kamyar , asef pourmasoumi , An Automatic Linguistics Approach for Persian Document Summarization , International Conference on Asian Language Processing 2011 , 2011-11-15.

  • Mohammad Hadi Zahedi , Mohsen Kahani , SREC: Discourse-level semantic relation extraction from text , Neural Computing & Applications , Volume ( 21 ) , 2012-9, Pages 1-1.

  • پایان نامه کارشناسی ارشد، خلاصه سازی خودکار چندی سندی مبتنی بر استخراج مفاهیم، آصف پورمعصومی 1390.

  • پایان نامه کارشناسی ارشد، ارائه یک روش جدید وزن دهی به کلمات با استفاده از تئوری مرکزیت ، حسین کامیار 1390.

  • پایان نامه کارشناسی ارشد، معنا گرایی در ارزیابی خودکار خلاصه سازهای ماشینی انگلیسی و فارسی با بهره گیری از شبکه واژگان ، احمد استیری 1391.

  • سمینار، ابزارهای پردازش زبان طبیعی، آصف پورمعصومی، حسین کامیار، 1390.

  • سمینار،Concept based Multi-Document Text Summarization ، آصف پورمعصومی، 1389.

  • سمینار،Text Summarization ، آصف پورمعصومی، 1388.

  • سمینار،User-Oriented Text Summarization ، آصف پورمعصومی، 1388.

  •  

    ريشه‌يابی معنايی در زبان فارسی

    lc
     معرفی پروژه
     

    هدف از انجام  پروژه ریشه یابی معنایی در زبان فارسی، جداسازی کلمات از متن و بازگرداندن کلمات به ريشه اصلی تشکيل دهنده آنهاست. تفاوت اصلی اين پروژه با ساير پژوهش‌های انجام شده در زمينه ريشه‌يابی، قابليت بازگرداندن کلمات به ريشه بدون از بين رفتن معنای آنها در جمله می‌باشد. بدين منظور به نقش کلمات در جمله توجه ويژه‌ای شده است. در اين طرح از مجموعه افعال گرداوری شده توسط گروه دادگان و لغات پرکاربرد پيکره همشهری استفاده شده است.

     
     لینک های پروژه

     

  •  ابزار ریشه یاب معنایی برای زبان فارسی نسخه 1.6

  • برای استفاده از نرم افزار ابتدا بسته نرم افزاری دات نت فریمورک 4.5 را نصب نمایید.‏ استفاده از این برنامه در پژوهشهای علمی با ارجاع به آزمایشگاه فناوری وب دانشگاه فردوسی مشهد بلامانع است. درصورت استفاده از این ابزار در کار پژوهشی خود، لطفاً به این ابزار بصورت زیر ارجاع نمایید:

    ابزارهای پردازش متون زبان فارسی، آزمایشگاه فناوری وب دانشگاه فردوسی مشهد، 1391. (wtlab.um.ac.ir)

    همچنین در صورت مشاهده اشتباه در تشخیص ریشه کلمه یا برچسب آن، لطفاً مورد اشتباه را به ایمیل ehsan.asgarian(at)gmail.com اطلاع دهید.

     

     اعضای پروژه

     

  •  احسان عسگریان

  •  رضا سعیدی

  •  احمد استیری

  •  بهداد بهمدی

  •  هادی قائمی

  •  

       انتشارات  
  •  

  •  

    موتور جستجوی چیستا

    chista
     معرفی پروژه
     

    چیستا یک موتور جستجوی مبتنی بر داده های پیوندی می باشد. این پروژه توسط آزمایشگاه فناوری وب در دانشگاه فردوسی مشهد پیاده سازی و به اجرا در آمده است. وظیفه این موتور جستجو جمع آوری داده های معنایی ازمحیط وب (به خصوص ابر LOD) ، شاخص گذاری آنها در یک مخزن RDFودر نهایت ارائه امکانات مختلف جهت جستجوی روی داده ها است. چیستا هم توسط کاربران انسانی (توسط واسط کاربری مبتنی بر وب) و هم توسط نرم افزار ها(توسط سرویسهای وب) می تواند مورد استفاده قرار گیرد. پروژه چیستا توسط سازمان ملی فناوری اطلاعات ایران مورد حمایت مالی قرار گرفته است و به عنوان زیرساختی برای محققان در زمینه وب معنایی به شمار می آید.

     
       لینک های پروژه  
  •  

  •  

     اعضای پروژه

     

  •  آرش شاهکار

  •  صمد پایدار

  •  محسن کامیار

  •  فتانه زرین کلام

  •  محبوبه دادخواه

  •  محمد فروغی

  •  ریحانه امامدادی

  •  اعظم فیض نیا

  •  فاطمه عبیری

  •  

       انتشارات  
  •  

  •  

    چارچوب آزمون خودکار نرم افزار

    testing
     معرفی پروژه
     

    پروژه چارچوب آزمون خودکار نرم افزارهای مبتنی بر وب با حمایت مرکز تحقیقات و مخابرات ایران اجرا شده است. از آنجاییکه محیط اجرای نرم افزارهای مبتنی بر وب متنوع و ناهمگون می باشد، روش های متداول آزمون نرم افزار برای تست و ارزیابی سیستم های مبتنی بر وب کارآمد نیست. از این رو هدف این پروژه، طراحي و ساخت يك چارچوب مبتنی بر عامل براي خودكار سازي آزمون نرم افزار هاي تحت وب مي باشد.

     
       لینک های پروژه  
  •  

  •  

     اعضای پروژه

     

  •  مجری پروژه:    دکتر محسن کاهانی

  •  تیم اجرایی پروژه:

  • دکتر سعید ابریشمی  -  بهشید بهکمال - صمد پایدار  - محبوبه دادخواه - سهیلا دهقان زاده - راضیه رضایی - محمد هادی زاهدی - حمیده حاجی آبادی - سمیه صالحی - حسن ابراهیمی

     

       انتشارات  
  • بهشید بهکمال , محسن کاهانی , سهیلا دهقان زاده , ارائه چارچوب آزمون خودکار عملکرد سیستم های مبتنی بر وب و تحلیل نتایج آن با استفاده از معیارهای کمی , علوم و مهندسی کامپیوتر - Journal on Computer Science and Engineering , Volume ( 10 ) , 2012-4, صفحه 40-45

  • Samad Paydar , Mohsen Kahani , An Agent-Based Framework for Automated Testing of Web-Based Systems , Journal of Software Engineering and Applications , Volume ( 4 ) , 2011-2, Pages 86-94

  •  

    فردوس‌نت

    lc
     معرفی پروژه
     

    فردوس‌نت  شامل يک مجموعه لغت فارسی است که هر لغت در يک گروه هم‌خانواده که به يک مفهوم اشاره دارند، قرار می‌گيرد. همچنين روابط سلسله‌مراتبی و معنايی مختلف بين اين گروه‌های مفاهيم تشکيل می‌شود. برای اولين بار شکه واژگان برای زبان انگليسی طراحی و متنتشر شده است. ایده اصلی این پروژه بر این محور استوار است که مفاهیم و موجودات پیرامون ما دربین زبان‌های مختلف یکسان می‌باشند. بنابراین درصورتی که ما بتوانیم برای هر کلمه انگلیسی، ترجمه مناسب آن در زبان فارسی برای گروه مفاهیم بکار رفته در آنرا پیدا کنیم، ضمن اینکه می‌توانیم گروه‌های مفاهیم فارسی را تا حد زیادی بصورت خودکار تولید کنیم، می‌توانیم از روابطی که بین این گروه‌های مفاهیم در زبان انگلیسی تعریف شده است، نیز استفاده نماییم. چرا که این روابط در زبان فارسی هم برقرار می‌باشند و درحقیقت مفاهیم و موجودیتها و روابط بین آنها مستقل از زبان هستند.

     
     لینک های پروژه

     

  •  

  •  

     اعضای پروژه

     

  •  عباسی

  •  احسان عسگریان

  •  آصف پورمعصومی

  •  مقدس زاده

  •  

       انتشارات  
  •  

  •  

    پارسر زبان فارسی

    lc
     معرفی پروژه
     

    به موازات پیشرفت و تحولات نظری در زبان‌شناسی جدید، روش‌های تحلیل متون و دستورات زبان بوسیلهی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده مانند گروه های اسمی، فعلی، قیدی و غیره توسط ابزاری به نام پارسر صورت می گیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.

    پارسر طراحی شده برای زبان فارسی در این پروژه، از ساختار لغات، موقعیت و ترتیب لغات در جمله، حروف یا عبارات قبل و بعد از آنها و نوع لغات، درخت نحوی یا پارسینگ را برای جملات متن تشکیل می دهد. در واقع عملیات پارسینگ با توجه به ریختشناسی (مطالعه ساختار و حالتهای مختلف یک کلمه) و همچنین دستورات نحوی گرامر زبان فارسی صورت میگیرد. بدیهی است هر چقدر نگارش بکار رفته در جملات و همچنین رعایت علائم سجاوندی طبق اصول و با دقت بیشتری صورت گرفته باشد، عملیات پارسینگ با کیفیت بهتری صورت خواهد گرفت و اجزای تشکیل دهنده ی جمله با عملیات کمتر و ساده تری برچسب زده خواهند شد.

     
     لینک های پروژه

     

  •  ابزار پارسر زبان فارسی

  • برای استفاده از نرم افزار ابتدا بسته نرم افزاری دات نت فریمورک 4.5 را نصب نمایید.‏ استفاده از این برنامه در پژوهشهای علمی با ارجاع به مقاله  مربوطه  بلامانع است.

     

     اعضای پروژه

     

  •  احمد استیری

  •  رضا سعیدی

  •  احسان عسگریان

  •  

       انتشارات  
  •  احمد استيري، محسن کاهاني، رضا سعيدي، احسان عسگريان، "طراحي ابزار پارسر زبان فارسي"، اولين کنفرانس پردازش خط و زبان فارسي، سمنان، 1391.

  •  

    برچسب گذار نقش کلمات فارسی

    lc
     معرفی پروژه
      برچسب گذاری اجزای واژگانی کلام (Part of Speech tagging) عمل انتساب برچسب های واژگانی به کلمات و نشانه های تشکیل دهنده یک متن است؛ به صورتی که این برچسب ها نشان دهنده نقش کلمات و نشانه ها در جمله باشد. درصد بالایی از کلمات از نقطه نظر برچسب واژگانی دارای ابهام هستند، زیرا کلمات در جایگاههای مختلف برچسب های واژگنی متفاوتی دارند. بنابراین برچسب گذاری واژگانی عمل ابهام زدایی از برچسب ها با توجه به زمینه (متن) مورد نظر است. برچسب گذاری واژگانی عملی اساسی برای بسیاری از حوزه های دیگر پردازش زبان طبیعی (NLP) از قبیل ترجمه ماشینی، خطایاب و تبدیل متن به گفتار می باشد. تا کنون مدل ها و روش های زیادی برای برچسب گذاری در زبان های مختلف استفاده شده است. بعضی از این روش ها عبارتند از:
  • مدل مخفی مارکوف (Markov Hidden Model)
  • برچسب گذاری مبتنی بر تبدیل یا قانون (Transformation/Rule -based tagger)
  • سیستم های مبتنی بر حافظه (Memory-basedSystem
  • سیستم های ماکزیمم آنتروپی (Maximum Entropy System)
  •  
     لینک های پروژه

     

  •  برچسب گذار نقش کلمات فارسی

  • برای استفاده از نرم افزار ابتدا بسته نرم افزاری دات نت فریمورک 4.5 را نصب نمایید.‏ استفاده از این برنامه در پژوهشهای علمی با ارجاع به آزمایشگاه فناوری وب دانشگاه فردوسی مشهد بلامانع است. درصورت استفاده از این ابزار در کار پژوهشی خود، لطفاً به این ابزار بصورت زیر ارجاع نمایید:

    ابزارهای پردازش متون زبان فارسی، آزمایشگاه فناوری وب دانشگاه فردوسی مشهد، 1391. (wtlab.um.ac.ir)

    همچنین در صورت مشاهده اشتباه در تشخیص ریشه کلمه یا برچسب آن، لطفاً مورد اشتباه را به ایمیل ehsan.asgarian(at)gmail.com اطلاع دهید.

     

     اعضای پروژه

     

  •  محمد اصغری

  •  احسان عسگریان

  •  

       انتشارات  
  •  

  •  

    پروژه مشاوره پژوه شی و ایجاد انباره داده وداده کاوی

    DMDW-Fava
     معرفی پروژه
     
    • کارفرما: سازمان فاوا شهرداری مشهد

    • شروع: شهریور 1393 پایان: اسفند 1394

     
     لینک های پروژه

     

     

     اعضای پروژه

     

     

       انتشارات  

     محسن کاهانی , علی آبسالان , علی قهرمانی , امید میلانی فرد , اعظم فیض نیا،  , مدیریت مبتنی بر اطلاعات با رویکرد انباره سازی داده های شهرداری الکترونیک مطالعه موردی شهردازی مشهد , هشتمین کنفرانس نظام اداری الکترونیکی , تاریخ: ۱۳۹۴/۰۵/۱۸