robots.txt — специальный файл, который содержит инструкции для поисковых роботов. Он должен размещаться в корневой папке сайта и быть доступен по адресу ваш_домен.ru/robots.txt. С помощью robots.txt возможно запретить или разрешить индексацию всего сайта или отдельных его страниц и даже снизить нагрузку на сайт, создаваемую поисковыми системами при индексации. Содержимое файла robots.txt представляет из себя набор различных директив:
Директива User-agent задает название робота, для которого прописываются директивы ниже. Например: User-agent: Yandex. Директива User-agent: * определяет параметры для всех роботов. В одном файле robots.txt может быть несколько блоков, начинающихся с директивы User-agent.
Директивы Disallow и Allow запрещают или разрешают индексацию определенных страниц или групп страниц вашего сайта. Например: Disallow: / — запрещает индексацию всего сайта, Allow: /cgi-bin/ — разрешает индексацию файлов в этой папке. Указание в файле директивы без указания параметров для нее поменяет значение. Например: Disallow: — запрета на индексацию сайта нет. Типичный robots.txt, разрешающий индексацию всего сайта, выглядит так:
User-agent:
Disallow:
По факту Disallow: — самая распространенная директива, равнозначная Allow: /. Однако директиву Allow могут не поддерживать некоторые старые роботы, поэтому предпочтительнее использовать первый вариант.
Директива Sitemap определяет путь до карты вашего сайта (в специальном XML-формате) с целью упростить индексацию. Пример: Sitemap: /sitemap.xml.
Директива Host определяет адрес «главного зеркала» сайта. Именно этот адрес будет использован поисковой системой, если ваш сайт доступен по нескольким адресам. Пример: Host: www.jino.ru.
Директива Crawl-delay задает интервал между запросами к вашему сайту со стороны поисковых систем во время индексации, в секундах. Это очень полезно, если поисковые роботы создают серьезную нагрузку. Например: Crawl-delay: 5. Однако интервал индексации для поисковой системы Google настраивается через Google Search Console.
Директива Clean-param задает параметры, на которые роботу не нужно обращать внимания при индексации сайта. Например, если задать Clean-param: foo, то поисковые роботы будут считать адреса ваш_домен.ru, ваш_домен.ru/?foo=1 и ваш_домен.ru/?foo=2 равнозначными.
Более подробно об использовании robots.txt можно почитать, например, в инструкции на сайте Яндекса.