فایل Robots.txt چیست؟
فایل robots.txt بخشی از پروتکل طرد رباتها (Robots Exclusion Protocol) است. این فایل متنی که در ریشه (Root) وبسایت قرار میگیرد، به عنوان یک دروازه بان عمل کرده و به خزندههای موتورهای جستجو میگوید اجازه ورود به کدام بخشهای سایت را دارند. هدف اصلی آن جلوگیری از هدر رفتن "بودجه خزش" (Crawl Budget) روی صفحات بی ارزش و یا حفاظت از دایرکتوریهای حساس است.
دستورات اصلی و کاربرد آنها
User-agent: *مشخص میکند که قوانین زیر مربوط به کدام ربات است. علامت * به معنی "همه رباتها" است.
Disallow: /path/دستور منع ورود. رباتها حق ایندکس کردن یا بررسی محتوای این مسیر را ندارند.
Allow: /path/fileبرای اجازه دادن به یک فایل خاص درون یک پوشه مسدود شده (Disallow) استفاده میشود.
Sitemap: URLمحل دقیق فایل نقشه سایت XML را به رباتها نشان میدهد تا سریعتر صفحات جدید را پیدا کنند.
مثالهای کاربردی (سناریوهای ایران)
۱. مسدود کردن کل سایت (محیط توسعه)
User-agent: *
Disallow: /
این دستور در زمان طراحی سایت استفاده میشود تا گوگل سایت ناقص را ایندکس نکند.
۲. تنظیمات استاندارد وردپرس
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://yoursite.com/sitemap_index.xml
پنل ادمین مسدود میشود اما فایل آژاکس که برای عملکرد برخی افزونهها حیاتی است باز میماند.
اشتباهات خطرناک
- مسدود کردن فایلهای CSS و JS: گوگل برای درک موبایل فرندلی بودن سایت نیاز دارد که استایلها را ببیند. هرگز پوشه Assets یا Resources را مسدود نکنید.
- استفاده از Disallow به جای Noindex: اگر میخواهید صفحهای که قبلا ایندکس شده را از گوگل حذف کنید، Disallow کافی نیست؛ چون ربات دیگر صفحه را نمیخواند تا تگ noindex را ببیند.
- حساسیت به حروف بزرگ و کوچک: مسیرها در robots.txt حساس به حروف (Case Sensitive) هستند. /Admin/ با /admin/ متفاوت است.
