راهبرد

robots.txt، noindex و خزنده های هوش مصنوعی: هر کنترل دقیقا چه می کند

راهنمایی روشن برای بلاک خزیدن، کنترل ایندکس و سیاست خزنده ها تا صفحه های مهم سئو قابل دسترس بمانند.

Seoraبه‌روزرسانی ۵ تیر ۱۴۰۵1 دقیقه مطالعه

قواعد robots اغلب بیش از حد قابل اتکا تصور می شوند. Disallow در robots.txt می تواند جلوی fetch کردن یک URL توسط خزنده سازگار را بگیرد، اما اگر صفحه های دیگر به آن لینک داده باشند، حذف آن از نتایج جست وجو را تضمین نمی کند. دستور noindex می تواند صفحه را از ایندکس خارج کند، اما فقط وقتی خزنده اجازه داشته باشد صفحه را بگیرد و آن دستور را ببیند.

از کدام کنترل استفاده کنیم

از robots.txt برای کم کردن خزیدن URLهای تکراری، فیلترشده، آزمایشی یا ابزارهای داخلی استفاده کنید.

وقتی URL قابل خزیدن است اما نباید در نتایج بیاید، از meta noindex یا هدر X-Robots-Tag استفاده کنید.

برای محتوای خصوصی از احراز هویت استفاده کنید. robots یک اشاره عمومی است، نه امنیت.

وقتی نسخه های تکراری باید سیگنال ها را به یک URL ترجیحی منتقل کنند، canonical بگذارید.

سیاست خزنده های هوش مصنوعی باید صریح باشد

خزنده های جست وجو، fetcherهای پیش نمایش و خزنده های آموزش یا پاسخ هوش مصنوعی می توانند user agent و ارزش تجاری متفاوت داشته باشند. سیاست را بر اساس نوع صفحه تعیین کنید: محصول و محتوای عمومی معمولا به دسترسی جست وجو نیاز دارند، اما صفحه های پولی، خصوصی یا ابزارهای تولیدشده اغلب باید محدود شوند. نیت را کنار فایل robots مستند کنید تا انتشارهای بعدی ناخواسته آن را برنگردانند.

جای سئورا کجاست

سئورا robots.txt، noindex، canonical، URLهای sitemap و پاسخ واقعی خزیدن را کنار هم بررسی می کند. تضادهایی مثل صفحه noindex که با robots.txt بلاک شده یا URL سایت مپ که fetch نمی شود را نشان می دهد.

قاعده ساده است: وقتی fetch کردن هدررفت است، خزیدن را محدود کنید؛ وقتی مسئله دیده شدن در نتایج است، noindex بگذارید؛ و هیچ کدام را جایگزین کنترل دسترسی نکنید.