Файл robots.txt

Файл robots.txt

Файл robots.txt или же проще – индексный файл, представляет собой обыкновенный электронный документ с текстом, закодированный UTF-8, который применяется для протоколов FTP, https, http. С его помощью поисковый механизм получает рекомендации о файлах и разных страницах, которые стоит отсканировать. В случае, когда обозначения написаны в ином кодировании, а не в привычном UTF-8, роботы при поиске могут некорректно их понять и обработать. Структурированный порядок правил, который заданный в robots.txt файле, будет являться рабочим исключительно при взаимодействии именно с тем хостом, протоколом и номером порта, где файл был размещен.

Задачи robots.txt

Базовое предназначение данного файла – это передача и регулировка индексирующим машинам указаний.

Robots.txt использует основные директивы – Allow (дает разрешение на выдачу однозначного раздела или же файла) и Disallow (наоборот препятствует разрешению на выдачу), еще есть User-agent (его задача в определении, какие из роботов выполняют запрещающую функцию, а какие разрешающую).

Очень важно запомнить, что индексация robots.txt и предписания по применению содержат больше рекомендательный характер. Это значит, что в некоторых случаях и ситуациях они могут проигнорироваться роботами.

Проверка robots.txt на правильность

После вмешательств и изменений в файле, незамедлительно стоит провести проверку на правильность и целостность robots.txt. Какая угодно незамеченная ошибка в написании и месте ввода символа способна повести за собой большие проблемы. Меньшее, что вы можете сделать, это продиагностировать robots.txt в инструментах для веб-мастеров с помощью Яндекса. Подобный анализ можно и желательно выполнить в браузере Google. Для углубленной и удачной диагностики необходимо совершить регистрацию для доступа к работе в панели настроек вебмастера, и внести в нее свой сайт с данными. Если с файлом проблемы – система сразу это увидит. Только правильный robots.txt успешно выполнит поставленную задачу.

Примеры

Файл с подобным содержимым отвечает за запрет индексирования определенного сайта всем роботам поисковой системы:

Disallow: / а так же User-agent: *

Дабы воспретить основному роботу браузера Яндекса индексирование, директории /private/, применяют robots.txt с изменениями:

Disallow: /private/ или User-agent: Yandex

Регулировка и настройка robots.txt обязана быть правильной, иначе у вас могут возникнуть проблемы с процессом индексации.