robots.txt چیه و به چه کار میاد؟

robots.txt چیست

زمان مطالعه: 4 دقیقه

در این مقاله به صورت کامل بررسی میکنیم که robots.txt چیست و چه کاربردی دارد.

robots.txt یک فایل ساده متنی هست که وبسمتر ها برای نحوه خزیدن ربات ها در سایتشون ایجاد میکنن. منظور از این ربات ها اغلب موتور های جست و جو گر میباشن.

فایل robots.txt در حقیقت بخشی از پروتکل حذف ربات ها ( robots exclusion protocol (REP)) هست. این پروتکل شامل گروهی از استاندارد ها داخل وب هستش که نحوه خزیدن ربات ها, دسترسی و فهرست بندی محتوای مجاز و غیر مجاز برای ربات ها رو مشخص میکنن. همچنین شامل دستورالعمل هایی برای نحوه برخود ربات ها با لینک های فالو (follow) یا نوفالو (nofollow) هست. این فایل در سئو بسیار موثر و کاربردیه.

کاربرد robots.txt چیست؟

در عمل این فایل مشخص میکنه که ربات ها و نرم افزار های اینترنتی چه بخش هایی رو ببینن و یا برعکس. این دستور ها با تگ های allow و disallow به معنای اجازه دادن و اجازه ندادن مشخص میشن. قالب اصلی و اولیه این فایل به صورت زیر هست:

* User-agent: with

Disallow: /addrees

Allow: /address

برای مثال ما وقتی بخوایم به خزنده ها بگیم که فایل های پلاگین و صفحه ورود در سایت مارو بررسی نکنن از این دستور استفاده میکنیم:

User-agent: *
Disallow: /wp-admin
Disallow: /plugin

این کد ها میتونن شامل بند های خیلی بیشتری باشن. در قسمت adrress میتونیم بخش هایی که میخوایم دیده بشن و یا برعکس رو قرار بدیم. همچنین بهتره که آدرس نقشه سایت خودمون رو در این فایل قرار بدیم. برای مثال در میتونید فایل robots.txt سئو فار رو مشاهده کنید. دستورالعمل ها در فایل robots.txt با یک خط از هم جدا میشن.

تا اینجا متوجه شدیم که robots.txt چیست و با نحوه کار اون آشنا شدیم.

نحوه کار robots.txt

موتور های جست و جو گر دو وظیفه اصلی رو انجام میدن:

  1. خزیدن در اینترنت برای کشف محتوا
  2. بایگانی محتوا برای کاربرانی که با جست و جو به دنبال نتایج هستن
بزن بریم!  آموزش نحوه کار با سرچ کنسول گوگل

موتور های جست و جو گر در هنگام خزیدن لینک های داخلی و خارجی موجود در یک سایت رو دنبال میکنن. لینک های داخلی به لینک هایی میگن که به صفحه های دیگه از خود اون سایت ارجاع داده شدن. اما لینک های خارجی اون دسته از لینک ها هستن که به سایت های دیگه اشاره دارن. در نتیجه با دنبال کردن تمامی لینک ها, بی شمار صفحه توسط موتور های جست و جو  گر خزیده میشن و تمامی وب در ارتباط با هم قرار دارن.

این نوع از خزیدن موتور های جست و جو گر مثل شباهت به تار عنکبوت داره. اما بیاید کامل تر به سوال robots.txt چیست جواب بدیم.

robots.txt چیستموتور های جست و جو گر قبل از خزیدن داخل سایت ابتدا به دنبال فایل robots.txt هستن. اگه این فایل در سایت وجود داشته باشه ابتدا شروع به خوندنش میکنن. این اتفاق به این دلیل میوفته که این فایل ها شامل اطلاعاتی هستن که ربات های خزنده باید چگونه رفتار کنن و کدوم محتوارو نبینن یا برعکس. اگه این فایل شامل دستوراتی نباشه که اجازه به خزش در اون صفحات نده یا اصلا در سایت وجود نداشته باشه, در نتیجه خزنده ها با خزیدن در سایت ادامه خواهند داد.

این فایل در وردپرس به صورت پیشفرض و یک فایل مجازی وجود داره. در صورتی که میخواید اون رو ویرایش کنید میتونید از افزونه هایی مثل یواست سئو استفاده کنید. همچنین میتونید در ریشه هاستتون دنبال این فایل بگردید. حالا که میدونیم robots.txt چیست بریم و چند نکته تکمیلی رو راجبش یاد بگیریم:

نکاتی که باید راجب robots.txt بدونیم

  • این فایل در ریشه سایت قرار داره و در صورت موجود نبودن باید یک فایل متنی ساده با همین نام ایجاد کنیم.
  • این فایل و دستورات اون کاملا به حروف کوچک و بزرگ حساسه و باید موقع نوشتن دستورات حواسمون به این نکته باشه.
  • منظور از عبارت user agents همون ربات ها هستن.
  • برخی از ربات های مخرب ممکنه این فایل رو نادیده بگیرن و در ورود به سایت اون رو مطالعه نکنن.
  • این فایل به صورت عمومی در هر سایت در دسترس هست و کافیه که بعد از اسم سایت /robots.txt رو وارد کنیم.
  • نکته قبلی به این معنیه که همه میتونن ببینن که شما چه صفحاتی رو از ربات ها مخفی میکنید. پس صفحات خصوصی خودتون رو در این فایل مخفی نکنید.
  • برای نوفالو کردن صفحات بهتره از دستورات این فایل استفاده نکنید. برای این کار روش های خیلی بهتری مثل اضافه کردن تگ به هدر صفحات وجود داره. این کار توسط افزونه هایی مثل یواست کاملا قابل انجامه.
  • دامنه ها و ساب دامنه ها مثل seofar.ir و tools.seofar.ir دارای robots.txt های جدا هستن و برای هر کدوم باید یک فایل جدا تعریف کنیم.
  • فایل robots.txt بهترین مکان برای نشون داد نقشه سایت هست.robots.txt چیست
بزن بریم!  انتخاب بهترین دامنه برای سئو سایت

دستور های فایل robots.txt چیست؟

در این فایل 5 دستور خیلی رایج وجود داره که یکی یکی اون هارو بررسی میکنیم تا در صورتی که نیاز داشتیم ازشون استفاده کنیم.

  1. User-agent

    دستورالعمل هایی که به خزنده ها میدیم بعد از این دستور قرار میگیرن.

  2. Disallow

    آدرس هایی که قصد داریم اون هارو از خزنده ها و ربات ها دور نگه داریم بعد از این غبارت نوشته میشن.

  3. allow

    این دستور که فقط مورد پذیرش ربات های گوگل هست به صفحه هایی اشاره میکنه که باید دیده شن حتی در اگه صفحه یا پوشه های فرعی باشن.

  4. Crawl-delay

    اشاره میکنه که قبل از خزیدن ربات ها, چند ثانیه باید صبر کنن تا کار خودشون رو شروع کنن. البته باید توجه کرد که ربات های گوگل از این دستور پیروی نمیکنن.

  5. Sitemap

    آدرس نقشه سایت که به فرمت XML هست بعد از این دستور قرار میگیره. توصیه میشه که از این دستور حتما در فایل خودتون استفاده کنید و کار رو برای موتور های جست و جو گر راحت تر کنید.