RSS      English

فاز پویش

پویش پوینده برنامه ایست که داده های روی وب را بازیابی و ذخیره میکند که معمولا توسط موتور جستجوی وب مورد استفاده قرار میگیرد. پوینده باید میلیونها صفحه و داده های موجود در وب را در زمانی کوتاه دانلود کند و متناوبا تغییرات را کنترل و اطلاعات دانلود شده را بهنگام کند. علاوه بر این پیونده نباید بار زیادی روی وب سایتهایی که از آنها بازدید میکند اعمال کند.

 

 

crawlerarch

معرفی

هدف پروژه LDSpider ایجاد چارچوب پیمایش برای داده های پیوندی است. نیازمندیها و مشکلات پیمایش وب داده ها متفاوت با وب معمولی است.

در انتها فایل jar پوینده را در پروژه استفاده میکنید که به شما امکان پیمایش داده های پیوندی با شروع از یک urlخاص و با استراتژی تعیین شده و تا سطح معینی انجام میشود و نتیجه ی خروجی فایل چهارگانه ها ی پیوندی است که به فرمت سه گانه بعلاوه آدرسی که سه گانه از آن اخذ شده است می باشد. البته میتوان چهارگانه ها را با استفاده از دستور sed به سه گانه های rdf تبدیل نمود.

از ویژگیهای این پوینده عبارتند از:

  • مدیر محتوی برای فرمتهای مختلف:
    • شامل مدیرهایی برای خواندن انواع فرمتها شامل RDF(XML) و N-Triples و N-Quads .
    • مدیر برای ارتباط با سرور Any23 server برای استخراج RDF از سایر فرمتها مثل RDFa .
    • طراحی ساده ی اینترفیس برای پیاده سازی مدیرهایی که خودتان برای فرمتهای خاصی ارائه میکنید.
  • استراتژیهای پیمایش متفاوت
    • اول سطح
    • اول عمق
    • پیمایش دلخواه اطلاعات شما
  • حوزه پیمایش
    • میتوان پیمایش را به صفحات با پیشوند حوزه خاص محدود کرد.
  • فرمت خروجی: - The crawled data can be written in various ways:
    • فرمت فایل خروجی میتواند RDF/XML یا NQuad باشد.
    • پوینده میتواند اطلاعات خروجی را در انبار سه گانه با استفاده از SPARQL UPDATE ذخیره کند. یا اینکه از گرافهای نامدار برای سازماندهی عبارات نوشته شده با توجه به منبع استفاده کند.
    • امکان شمول اطلاعات منبع فراهم است.

شروع:

امکان استفاده ازLDSpider به دو طریق فراهم است

  • از طریق دستور خط فرمان Getting started (CLI)
  • از طریق استفاده از کتابخانه در جاوا Getting started (API)