RSS      English

متریکهای اعتماد

متریک اعتماد یک تکنیک برای پیش بینی اعتماد بین دو موجودیت است، که صریحا میزان اعتماد بین آنها ذکر نشده است. موجودیتهایی که قبلا را بطه تراکنش با هم نداشته اند، میزان اعتماد بین آنها مشخص نیست و بنابراین اعتماد بین آنها را باید از طریق انتشار اعتماد پیش بینی کرد. علت انتشار اعتماد اینست که شما به دوست خود اعتماد بیشتری دارید تا به یک غریبه و همچنین احتمالا به دوست دوست خود نیز بیشتر از یک غریبه اعتماد خواهید کرد.

ادامه مطلب: متریکهای اعتماد

رتبه بندی نتایج

رتبه بندی به دو دسته تقسیم می شود، رتبه بندی بر اساس پرسش و رتبه بندی مستقل از پرسش. رتبه بندی ارائه دهندگان دانش و منابع ،که مستقل از پرسش است، از قبل محاسبه می شود و در زمان رتبه بندی بر اساس پرسش از آنها استفاده می شود. رتبه بندی نتایج ، بر اساس پرسش ،در زمان انتظار کاربر صورت میگیرد بنابراین باید زمان اجرای الگوریتم آن کمینه باشد و محاسبات سنگین مورد نیاز آن قبلا انجام شده باشند، چون بطور مستقیم در رضایتمندی کاربر تاثیر گذار است. الگوریتم های رتبه بندی در موتورهای جستجو بر اساس فاکتور شهرت که با تحلیل ساختار لینکی مشخص می شود انجام میگیرد. برای این کار الگوریتم های زیادی ارائه شده اند که از آن میان pageRank و HITS وSALSA مشهورترند. ولی در موتورهای جستجوی معنایی باید فاکتور کیفیت نتایج نیز از روی provenance آنها استخراج شود و در رتبه بندی نتایج جستجو موثر باشد. در حال حاضر موتورهای جستجوی معنایی مشهور عبارتند از Swoogle و SWSE و Sindice . روشهای موجود برای رتبه بندی نتایج دقیقا قابل اعمال برای داده های ساخت یافته نیستند چون: 1) واحدهای نتایج اولیه ی جستجو به جای صفحات، اشیایی هستند که ممکن است با چندین منبع مرتبط باشند. 2) کاربران علاوه بر جستجوی کلمات کلیدی قادرند نیازهای اطلاعاتی خود را از طریق پرس و جو های دقیق بیان کنند. 3) لینکهای وب معنایی بر خلاف لینکهای وب اسناد، دارای نوع و منبع هستند و نوع لینک و منبعی که لینک را منتشر کرده است در میزان انتشار اعتماد از یک منبع به منبع دیگر تاثیر گذار است. بنابراین الگوریتم های تحلیل لینک وب اسناد و متریکهای انتشار اعتماد برای استفاده در رتبه بندی نتایج جستجوهای معنایی، باید بازبینی کلی شوند.

 

ادامه مطلب: رتبه بندی نتایج

جستجو

جستجوی اطلاعات ایندکس شده، فرآیند جستجو به دنبال کلمات کلیدی در ایندکس و یافتن اسناد ی است که شامل آن کلمات کلیدی هستند.

ایندکس گذاری

نیاز به یک روش سریعتر برای جستجوی مجموعه بزرگتری از اسناد است. ساده ترین راه برای جستجوی اسناد جستجوی پشت سر هم آنها و جستجوی عبارات مورد نظر است. این روش برای تعداد زیادی سند جوابگو نیست. برای جستجوی سریع در مجموعه بزرگی از اسناد، ابتدا باید آنها را به فرمتی تبدیل کنیم که امکان جستجوی سریع روی آنها فراهم باشد. این فرآیند تبدیل ایندکس گذاری نامیده می شود. ایندکس چیزی جز یک ساختار داده خاص که امکان جستجوی سریع روی آن فراهم است، نیست.

 

ادامه مطلب: ایندکس گذاری

فاز پویش

پویش پوینده برنامه ایست که داده های روی وب را بازیابی و ذخیره میکند که معمولا توسط موتور جستجوی وب مورد استفاده قرار میگیرد. پوینده باید میلیونها صفحه و داده های موجود در وب را در زمانی کوتاه دانلود کند و متناوبا تغییرات را کنترل و اطلاعات دانلود شده را بهنگام کند. علاوه بر این پیونده نباید بار زیادی روی وب سایتهایی که از آنها بازدید میکند اعمال کند.

 

ادامه مطلب: فاز پویش