خزنده وب

خزنده وب یا Web crawler چیست ؟ به نظر شما چگونه است که موتورهای جستجو در عرض تنها چند میلی ثانیه میلیون ها وب سایت را جستجو می کنند و به ما نتیجه کار را نمایش می دهند ؟ آیا به محض اینکه شما کلید واژه ای را در موتور جستجو وارد کنید تمامی صفحات وب جستجو می شوند ؟ جواب این مسئله قطعا خیر است ، اگر چنین مسئله ای وجود داشت زمان پاسخگویی موتورهای جستجو به شدت بالا می رفت. موتورهای جستجو در واقع تمامی صفحات موجود در اینترنت را برای شما در پایگاه داده خود ایندکس یا Index می کنند و بعد از اینکه شما جستجویی را انجام می دهید در واقع موتور جستجو در این پایگاه داده و صفحات ایندکس شده خود به دنبال نتیجه می گردد نه در وب سایت ها . اما سئوال اصلی اینجا پیش می آید که چگونه این صفحات در پایگاه داده های موتورهای جستجو قرار می گیرند و چگونه این پایگاه داده بروز می شود ؟ جواب این مسئله در واقع همان تعریفی است که ما از Spider ها یا Crawler ها می خواهیم در این مقاله ارائه دهیم.

 

خزنده وب

خزنده وب چیست ؟ ( Web Crawler )

خزنده وب که اکثر افراد آن را به نام لاتین آن یعنی Web crawler  می شناسند یک برنامه کامپیوتری اطلاق می شود که وب جهان گستر ( World Wide Web ) را به صورت مرتب و سلسله مراتبی بازدید می کند و اطلاعات آن را مورد پردازش قرار می دهند.

خزنده‌ها در واقع یک نرم افزار هستند که معمولا می‌توانند از محتوای صفحات نسخه‌برداری کنند. از این نسخه‌ها برای ایندکس کردن صفحات استفاده می‌شود ( در واقع هنگامی که یک کاربر عبارتی را در یک Search Engine جستجو می‌کند به جای این که هربار جستجو مستقیما در حجم انبوهی از صفحات وب انجام شود تنها از اطلاعات ایندکس شده برای یافتن بهترین نتایج استفاده می‌شود درنتیجه، جستجو در زمانی کوتاه‌تر انجام شده و کارایی بالاتری خواهد داشت ) .

خزنده‌ها در ابتدا لیستی از نشانی‌های وب را در اختیار دارند که به آنها دانه ( Seed ) گفته می‌شود. با مرور دانه‌ها و بررسی کد HTML این صفحات، تمامی پیوندهای صفحه مشخص شده و آنها را به لیست نشانی‌هایی که باید مرور نماید اضافه می‌کند. این روند به صورت تکراری ادامه یافته و درنتیجه حجم وسیعی از صفحات توسط خزنده مرور و احتمالا نسخه‌برداری می‌شود. از اینرو این ربات‌ها را خزنده نامیده‌اند چرا که در میان صفحات سایت‌ها می‌خزند و از سایتی به سایت دیگر می‌روند.

بسته به میزان پویایی محتوای وبسایت‌ها، خزنده باید با مرور دوره‌ای، محتوای جمع‌آوری شده‌ی خود را بروزرسانی کند. از جمله ربات‌های خزنده‌ی مشهور می‌توان به Googlebot و Bingbot اشاره کرد که به ترتیب توسط موتورهای جستجوی گوگل و بینگ مورد استفاده قرار می‌گیرد.

 

کاربردهای خزنده وب چیست

  1. موتورهای جستجو

موتورهای جستجو و برخی از سایت‌ها دارای خزنده‌ها و یا روبات‌هایی هستند که برای گردآوری اطلاعات وب سایت‌ها و نیز بروز نگه داشتن اطلاعات مورد استفاده قرار می‌گیرند. مهم‌ترین کار بعد از گردآوری اطلاعات، ایندکس کردن آن‌ها برای پردازش سریع هنگام جستجو است. این خزنده‌ها معمولا در بازه‌های زمانی منظمی اطلاعات را بروز کرده و با نسخه‌های قبلی مقایسه می‌کنند.

  1. مدیریت فنی وب سایت

مدیریت فنی وب سایت بخشی از کار این خزنده‌هاست که شامل یافتن لینک‌های شکسته( Broken Link ) ، اعتبار سنجی ( Validation ) کدهای HTML ، فایل‌های CSS و … می‌باشد.

  1. جمع آوری اطلاعات خاص

کاربرد دیگر خزنده‌های وب جمع آوری اطلاعات خاصی مانند آدرس‌های ایمیل است. معمولا هدف از اینکار ارسال هرزنامه ( spam ) می‌باشد. برای جلوگیری از ثبت آدرس ایمیل توسط این خزنده‌ها، می‌توانید آدرس ایمیل خود را به صورت Info(@)Mersadweb(.)com و یا موارد مشابه دیگر بنویسید.

دسته‌ها
یک دیدگاه
یک پینگ

پاسخ دهید