???? Robots.txt ???? ? ?? ???? ????? ?? ????

فایل Robots.txt چیست و چه کاری انجام می دهد؟

فایل Robots.txt چیست؟
پرونده Robots.txt مانند مجوز ربات ها است. وقتی ربات ها می خواهند در صفحات سایت پیمایش کنند ، ابتدا پرونده Robots.txt را می خوانند. در این فایل ، با چند دستور ساده مشخص می کنیم که ربات کدام صفحات را می تواند بررسی کند و کدام صفحات را نباید بررسی کند.

مانند تصویر زیر ، جایی که ما اجازه دسترسی به پوشه ای به نام عکس را نداریم و اجازه دسترسی به صفحه ای به نام files.html را نداریم.
همانطور که گفتیم ، مهمترین رباتهای موجود در اینترنت رباتهای موتور جستجوی گوگل هستند ، بنابراین در ادامه مقاله ، هر جا که می گوییم ربات ، به ربات های گوگل مراجعه می کنیم.

البته ، ربات های دیگر به ارائه دهندگان خدمات اینترنتی مختلف تعلق دارند. پس از خواندن این مقاله ، می توانید هر نوع ربات را فقط با دانستن نام آن محدود و کنترل کنید.

چرا باید یک پرونده Robots.txt داشته باشیم؟
صاحبان وب سایت و وب مسترها می توانند ورود ربات ها به وب سایت را به طرق مختلف کنترل کنند. دلایل مختلفی برای کنترل وجود دارد.

به عنوان مثال ، همه صفحات سایت از اهمیت یکسانی برخوردار نیستند. اکثر مدیران وب سایت علاقه مند نیستند که داشبورد وب سایتشان توسط موتورهای جستجو ایندکس شود و به صورت عمومی در دسترس عموم قرار گیرد ، یا اینکه برخی از صفحات در سایت های آنها محتوای قابل قبولی ندارند و بنابراین ترجیح می دهند توسط ربات ها خزیده نشوند. یا اگر وب سایتی با هزاران صفحه دارید و کل سایت به طور مکرر بازدید می شود ، احتمالاً نمی خواهید که منابع سرور (پهنای باند ، قدرت پردازش و ...) برای بازدیدهای متوالی ربات ها به مصرف برسد.

اینجاست که فایل Robots.txt وارد عمل می شود.

در حال حاضر ، هدف اصلی پرونده خزنده محدود کردن تعداد بیش از حد درخواست برای بازدید از صفحات وب است. این بدان معنی است که اگر روبات ها بخواهند روزانه ششصد صفحه را بررسی کنند ، با نوشتن یک دستور ساده در پرونده ربات ، جلوی آنها را خواهیم گرفت تا بفهمیم چه کسی مسئول آن است!

آیا می توان با استفاده از یک فایل Robots.txt یک صفحه را از نتایج جستجو حذف کرد؟
تا همین اواخر ، اگر می خواستید یک صفحه کاملاً از دید ربات های گوگل دور باشد و حتی در نتایج جستجو نیز نشان داده نشود ، استفاده از دستور noindex در همان پرونده امکان پذیر بود ، اما اکنون داستان کمی پیچیده تر شده است. موتور جستجوی Google کمک زیادی به حذف یک صفحه از نتایج جستجو نمی کند.

گوگل گفت برای حذف صفحات از نتایج جستجو بهتر است از روش های دیگری به غیر از پرونده Robots.txt استفاده کنید. البته اکنون می توان از این پرونده برای استخراج پرونده هایی مانند تصاویر ، فیلم ها یا صدا از نتایج جستجو استفاده کرد ، اما برای صفحات وب مناسب نیست.

در اینجا چند روش جایگزین برای حذف صفحه از نتایج جستجوی Google وجود دارد.

با ربات های گوگل آشنا هستید
گوگل موتورهای جستجوی بسیاری دارد که با دنبال کردن پیوندهای بین صفحات ، وب سایت ها را به طور خودکار اسکن کرده و صفحات را پیدا می کنند.
در اینجا لیستی از مهمترین رباتهای Google وجود دارد که باید بدانید:
AdSense - روباتی که برای بررسی صفحاتی که تبلیغات مربوطه را نشان می دهند استفاده می شود
Googlebot Image - باتی که تصاویر را یافت و آنها را بازرسی می کند
Googlebot News-A bot برای فهرست بندی سایت های خبری استفاده می شود
Googlebot Video-Googlebot Video
Googlebot-این ربات صفحات وب را شناسایی و نمایه می کند. دارای دو نوع میز کار و تلفن های هوشمند است
این ربات ها به طور مداوم صفحات وب را اسکن می کنند. در صورت لزوم می توانید هر دستکاری را محدود کنید.
تعداد ربات های خزنده که گاهی از وب سایت شما بازدید می کنند به عوامل مختلفی بستگی دارد. در طول روز ، هرچه محتوای وب سایت شما بیشتر باشد ، تغییرات مهمتری در وب سایت شما ایجاد می شود و ربات های موتور جستجو بیشتر از وب سایت شما بازدید می کنند. به عنوان مثال ، در یک وب سایت خبری که دائماً اخبار را به روز می کند ، ربات ها می توانند صفحات را سریعتر خزیده و فهرست نمایند.
در کنسول جستجو بخشی به نام "Crawl Statistics" وجود دارد که تعداد دفعات مشاهده صفحه سایت در هر روز را نشان می دهد. در همان صفحه می توانید حجم بارگیری شده توسط ربات و زمان بارگیری صفحه را مشاهده کنید.

چرا پرونده robots.txt مهم است؟
این پرونده به چند دلیل مهم است:
1 ترافیک ربات را در وب سایت مدیریت کنید
مدیریت ترافیک ربات ها از آن جهت مهم است که سرور میزبان وب شما مشغول پردازش و بارگیری صفحات ربات ها نیست. از طرف دیگر ، بیشتر سرورها یا میزبان های وب از نظر پهنای باند و ترافیک محدود هستند. به همین دلیل ، مصرف ترافیک برای روبات ها مقرون به صرفه نیست.
2 از نمایش صفحات یا پرونده ها در نتایج جستجوی Google جلوگیری کنید
اگر در پرونده ربات مشخص کنید که ربات های گوگل اجازه دسترسی به صفحات را ندارند ، این صفحات به هیچ وجه بررسی نمی شوند ، اما هیچ تضمینی وجود ندارد که صفحه در نتایج جستجوی Google نشان داده نشود. رباتها می توانند صفحه را با کمک یک پیوند داده شده در همان صفحه و همان پیوند لنگر متن ، فهرست کنند. در حال حاضر بهترین روش برای حذف صفحات از نتایج جستجو افزودن دستور noindex در بالای صفحات است. اگر از وردپرس استفاده می کنید ، افزونه هایی برای این کار وجود دارد ، در غیر این صورت باید از طراحی وب سایت خود بخواهید تا توانایی افزودن این کدها یا دستورات را به عنوان هر صفحه ارائه دهد.

برچسب: ،

امتیاز:

بازدید: