robots.txt — специальный файл, который содержит инструкции для поисковых роботов. Он должен размещаться в корневой папке сайта и быть доступен по адресу ваш_домен.ru/robots.txt. С помощью robots.txt возможно запретить или разрешить индексацию всего сайта или отдельных его страниц и даже снизить нагрузку на сайт, создаваемую поисковыми системами при индексации. Содержимое файла robots.txt представляет из себя набор различных директив:

  • Директива User-agent задает название робота, для которого прописываются директивы ниже. Например: User-agent: Yandex. Директива User-agent: * определяет параметры для всех роботов. В одном файле robots.txt может быть несколько блоков, начинающихся с директивы User-agent.

  • Директивы Disallow и Allow запрещают или разрешают индексацию определенных страниц или групп страниц вашего сайта. Например: Disallow: / — запрещает индексацию всего сайта, Allow: /cgi-bin/ — разрешает индексацию файлов в этой папке. Указание в файле директивы без указания параметров для нее поменяет значение. Например: Disallow: — запрета на индексацию сайта нет. Типичный robots.txt, разрешающий индексацию всего сайта, выглядит так:

User-agent:

Disallow:

По факту Disallow: — самая распространенная директива, равнозначная Allow: /. Однако директиву Allow могут не поддерживать некоторые старые роботы, поэтому предпочтительнее использовать первый вариант.

  • Директива Sitemap определяет путь до карты вашего сайта (в специальном XML-формате) с целью упростить индексацию. Пример: Sitemap: /sitemap.xml.

  • Директива Host определяет адрес «главного зеркала» сайта. Именно этот адрес будет использован поисковой системой, если ваш сайт доступен по нескольким адресам. Пример: Host: www.jino.ru.

  • Директива Crawl-delay задает интервал между запросами к вашему сайту со стороны поисковых систем во время индексации, в секундах. Это очень полезно, если поисковые роботы создают серьезную нагрузку. Например: Crawl-delay: 5. Однако интервал индексации для поисковой системы Google настраивается через Google Search Console.

  • Директива Clean-param задает параметры, на которые роботу не нужно обращать внимания при индексации сайта. Например, если задать Clean-param: foo, то поисковые роботы будут считать адреса ваш_домен.ru, ваш_домен.ru/?foo=1 и ваш_домен.ru/?foo=2 равнозначными.

Более подробно об использовании robots.txt можно почитать, например, в инструкции на сайте Яндекса.

Другие вопросы в разделе «Основные вопросы по хостингу»

+7 495 229-30-31 Москва
+7 812 407-17-11 Санкт-Петербург
+7 343 288-50-31 Екатеринбург
© Джино, 2003–2024. «Джино» является зарегистрированным товарным знаком.
Лицензия на телематические услуги связи № 150549 от 09.03.2017.
Правовая информация Политика конфиденциальности Карта сайта