Как скачать robots.txt и что он собой представляет?

Robots.txt – файл-блокнот, находящийся в корневом каталоге созданного вебсайта. Он имеет некоторые памятки для поисковых роботов, которые заходят на ваш портал. При помощи данного файла можно закрыть доступ к индексации конкретных страничек и разделов Вашего сайта, показать его главное зеркало и аналогично указать на файл «sitemap». Robots.txt предназначается для закрытия от индексации некоторых разделов вашего портала. Когда такие страницы у вас открыты для индексирования, то поисковик старается выкинуть их из индекса. Также у этого файла есть возможность прикрыть и нужные странички вашего вебсайта.

Как сделать robots.txt?

А сделать этот файл можно довольно просто – всего лишь потребуется блокнот и пару минут времени (если конечно у вас не будет желания сообразить очень широкий список требований к поисковому роботу). Создайте или выберете скачать robots.txt. После скопируйте его в корневой каталог вашего вебсайта. Самое первое действие, которое делает бот поисковой системы, зайдя на портал – считать файл с инструкциями для его дальнейшей работы. Людям, которые еще не вдавались в подробности, лучше всего будет скачать robots.txt и посмотреть из чего он состоит.

Как настроить robots.txt?

Для корректировки robots.txt применяется несколько ключевых запросов: «User-agent» и «Disallow». Начальная директива описывает, какой конкретно бот-поисковик станет скрупулезно исполнять запрет на индексацию, прописанный в другой директиве. К примеру: «User-agent:* Disallow:/» – в этом облике строка будет становить запрет к индексации абсолютно весь веб-сайт для всех поисковиков без исключения. В случае если в «Disallow» написать путь к каталогу либо конкретному файлу, то бот прекратит их регистрировать и распознавать. Ни в коем случае не прописывайте большое количество

путей в одной строчке. Она не будет работать. Чтобы открыть файл или же путь к индексированию, пропишите команду «Allow».

Вспомогательные директивы.

Указание слова «Host» употребляется только тогда, когда у web-сайта имеется ограниченный список зеркал. Данная директива показывает главное зеркало вашего сайта. Непосредственно он будет находиться в выдачах поисковых систем.

Команда «Sitemap» помогает поисковому боту квалифицировать, где присутствует файл с

картой вебсайта.

Словосочетание «Crawl-delay» применяется для задержки между загрузками страничек вашего портала поисковиками. Данное руководство для роботов может быть полезно в том случае, если у вас имеется огромное количество разделов. К примеру: «Crawl-delay: 5» – временная пауза загрузок, которая составляет 5 секунд.

«Request-rate» отвечает за временные рамки запроса страничек поисковым роботом. К примеру: «Request-rate: 1/15» означает, что бот станет загружать страничку каждые 15 секунд.

Указание «Visit-time» характеризует некоторый интервал времени, в который боту допустимо будет загружать странички. Время необходимо корректировать так «Visit-time: 0400-0600».

Что повлечет за собой ошибочная наладка robots.txt?

Ошибка в настройке обязательно приведет к тому, что откроется доступ к тем страницам, на которых имеется информация для нежелательного просмотра: информация о пользователях, пароли, личные данные.

Проверяем robots.txt.

Во-первых, можно скачать robots.txt и сравнить его со своим. Во-вторых, воспользуйтесь программой по обслуживанию администраторов «Яндекс.Вебмастер», которая будет иметь функцию «Проверка robots.txt». Выберете поле и напишите путь к домену. Вы увидите все ваши оплошности и «дырки» в настройке, через которые может утечь в Сеть нежелательная информация.

Читайте также: