RSS      English

خانه زمینه های تحقیقاتی بازیابی اطلاعات موتورهای جستجو کشف اسپم و هویتهای جعلی بر اساس اعتماد

کشف اسپم و هویتهای جعلی بر اساس اعتماد

اسپم در داده های پیوندی
صفحات اسپم در وب از تکنیکهای مختلفی برای رسیدن به رتبه های بالا در نتایج جستجوی موتورهای جستجو و گمراه کردن آنها استفاده میکنند. انسانها برای شناسایی صفحات اسپم و با کیفیت پایین مشکلی ندارند اما استفاده از نیروی انسانی در وب امروز برای شناسایی اسپم ها خیلی وقت گیر و پرهزینه و غیرمعقول است. موتورهای جستجو باید ویژگیهای دوگانه ی کیفیت نتایج و مرتبط بودن را با هم لحاظ کنند تا بتوان از حجم زیاد اطلاعات روی وب استفاده کرد. در تکنیکهای بهینه سازی موتور جستجو و بازیابی رقابتی اطلاعات هدف یافتن تابع نمره دهی موتورجستجو و بالابردن مصنوعی رتبه ی یک صفحه در نتایج بازیابی شده است، تا بتوان از منافع تجاری صفحاتی که در رتبه های بالا ظاهر می شوند استفاده کرد. با توجه به غیر ممکن بودن استفاده از نیروی انسانی برای کشف صفحات اسپم، باید این فرآیند را خودکار کرد و چون اسپمرها متناوبا تکنیکهای خود را تغییر میدهند تا موتورهای جستجو را گمراه کنند، مقابله ی اتوماتیک با آنها خیلی دشوار است.

 

صفحات اسپم در وب از تکنیکهای مختلفی برای رسیدن به رتبه های بالا در نتایج جستجوی موتورهای جستجو و گمراه کردن آنها استفاده میکنند. انسانها برای شناسایی صفحات اسپم و با کیفیت پایین مشکلی ندارند اما استفاده از نیروی انسانی در وب امروز برای شناسایی اسپم ها خیلی وقت گیر و پرهزینه و غیرمعقول است. موتورهای جستجو باید ویژگیهای دوگانه ی کیفیت نتایج و مرتبط بودن را با هم لحاظ کنند تا بتوان از حجم زیاد اطلاعات روی وب استفاده کرد. در تکنیکهای بهینه سازی موتور جستجو و بازیابی رقابتی اطلاعات هدف یافتن تابع نمره دهی موتورجستجو و بالابردن مصنوعی رتبه ی یک صفحه در نتایج بازیابی شده است، تا بتوان از منافع تجاری صفحاتی که در رتبه های بالا ظاهر می شوند استفاده کرد. با توجه به غیر ممکن بودن استفاده از نیروی انسانی برای کشف صفحات اسپم، باید این فرآیند را خودکار کرد و چون اسپمرها متناوبا تکنیکهای خود را تغییر میدهند تا موتورهای جستجو را گمراه کنند، مقابله ی اتوماتیک با آنها خیلی دشوار است. تکنیکهای اسپمرها در وب معمولی به سه دسته ی بزرگ تقسیم میشوند: استفاده از کلمات برای ایجاد اسپم و استفاده از لینک برای ایجاد اسپم و دو نسخه در يك آدرس براي كاربران و براي موتورهاي جستجو . در تکنیک استفاده از کلمات برای اسپم، متن صفحات را طوری تغییر میدهند که با هر پرس و جویی مرتبط باشد. در این تکنیک از روشهای 1)تکرار یک سری کلمات خاص 2)استفاده ی بیخود از یک سری کلمات غیر مرتبط 3) استفاده از کلمات اسپم در مکانهای تصادفی و ترکیب جملات و عبارات از منابع مختلف. در تکنیک استفاده از لینک برای ایجاد اسپم، ساختارهای لینکی خاصی برای بالا بردن رنک صفحه است. یک نمونه ی معمول از این تکنیک، بالا بردن رنک صفحه با ایجاد حوزه ی لینک است که در این روش صفحات وب متقابلا رنک همدیگر را بالا می برند. روش دیگر در این تکنیک، بالا بردن رنک صفحه با قرار دادن لینکهایی از صفحات مهم به صفحه ی اسپم است. مثل قرار دادن لینک به صفحه ی اسپم، از یک وبلاگ محبوب. در تكنيك پنهان كردن، در يك آدرس 2 صفحه قرار داده مي شود يكي براي موتور جستجو و يكي براي كاربر. از مقاله ي web spam detection نوشته ي marc najork در Microsoft research نكته ي مهم اينست كه تكنيكهاي اسپمرها كاملا وابسته به الگوريتم هاي رنكينگ در آن موتور جستجو است. و تقريبا هر 2-3 روز يك تكنيك جديد براي اسپم معرفي مي شود. با تغيير الگوريتم رنكينگ موتور جستجو، اسپمرها صفحات را مطابق با آن تغيير ميدهند تا رنك بهتري كسب كنند. براي مثال اگر اسپمر بفهمد كه موتور جستجو از اطلاعات حركت كليكهاي كاربر در صفحه ي نتايج جستجو براي رنكينگ استفاده مي كند، با توجه به یک اصل بدیهی تکنیکهایی برای کشف اسپم معرفی شده اند. این اصل بدیهی می گوید: "احتمال اینکه از صفحات خوب با کیفیت بالا به صفحات اسپم لینک وجود داشته باشد خیلی کم است. ". در این روشها اعتماد را از یک مجموعه ی از صفحات خوب به لینکهای خروجی آنها منتشر میکنند.این مجموعه ی خوب توسط کاربر ارزیابی شده اند و بنابراین هر چه سایز این مجموعه کوچکتر باشد فراخوانی اوراکل کمتر و هزینه نیز کمتر است.تکنیکهای مختلفی برای انتخاب این مجموعه و شناسایی صفحات خوب ارائه شده است. از جمله پیج رنک معکوس و پیج رنک بالا . در الگوریتم trustrank اعتماد از این مجموعه به سایر صفحات منتشر می شود.البته گاهی اوقات اسپمرها یک لینک به صفحه ی خود در قسمت یادداشتهای یک صفحه ی خوب قرار میدهند و به این ترتیب این الگوریتم را دچار مشکل میکنند. انتشار اعتماد باید با افزایش فاصله از مجموعه ی اصلی تضعیف شود.