Все о Robots.txt

Все о Robots.txt

Шутки ради: Robots.txt я предохраняюсь.

Начну с того, что файл robots.txt является практически самым важным в сео продвижении. Из него поисковые роботы о (них тут) узнают что какие страницы можно показывать в поиске, а какие вообще не посещать и не показывать.

Содержание:

  1. Robots.txt — зачем он нужен
  2. Для чего скрывать информацию от роботов
  3. Как создать файл robots.txt
  4. Правильная настройка файла robots.txt
  5. Как запретить к индексации страницу сайта
  6. Как разрешить к индексации только одну папку
  7. Как запретить к индексации весь сайт
  8. Как проверить страницу на запрет к индексации
  9. Как правильно настроить файл robots.txt

 

Robots.txt — зачем он нужен

В robots.txt содержатся набор параметров для поисковых роботов, как для всех поисковых систем, так и для каждой поисковой системы в отдельности.

В него необходимо помещать все технические страницы, файлы, папки, пустые и не нужные страницы, чтобы не захламлять поиск и увеличить доверие поисковой системы к вашему сайту.

Например: файлы админ панели, страница с поиском, рекламные страницы, служебная информация и прочее.

 

Для чего скрывать информацию от роботов

Давайте представим, что сайт это ваша квартира в которой вы храните все свои вещи. Паспорт, деньги, документы на автомобиль, акции компаний, фотографии, драгоценности, квитанции на оплату и так далее.

К вам приходят в гости друзья и вы хотите показывать им только свои фотографии, похвастаться драгоценностями, а личные вещи скрыть от всех и не показывать ни при каких обстоятельствах.

Для этого вы возьмете и положите все вещи которые не хотите показывать друзьям в другую комнату и закроете ее на ключ. Больше ваши личные вещи не потревожат и вы спокойны.

В интернете роль ваших гостей получает поисковый робот. Так как сайт в интернете общедоступный, а интернет является всемирным, любой желающий может войти на него или посмотреть какую информацию вы на нем храните.

Некоторой информации вы хотите делиться со всеми (например свои цены на услуги), а некоторая информация только для внутреннего пользования (оптовые цены и телефоны ваших поставщиков партнеров).

Так для того, чтобы спрятать важную информацию от посторонних глаз и служит файл robots.txt. Он в переносном смысле убирает вещи (страницы) от посторонних глаз в другую сторону. Конечно если вы его создали, в противном случаи запреты действовать не будут и робот зайдет и все скачает в общий доступ.

 

Как создать файл robots.txt

Для создания файла нам потребуется простой текстовой блокнот. Его можно создать нажмите комбинацию клавиш Windows+R и в появившимся окне наберите слово notepad.

Клавиши WIN вин

У вас появится чистый файл блокнота в который мы добавляем следующую запись:

User-agent: *

 

Фраза означает, что мы настраиваем этот файл для всех поисковых роботов всех поисковых систем. Можно настроить для каждой в отдельности но я не хочу вас путать и это нужно в индивидуальных случаях.

Чистый файл robots.txt

 

Все файлы robots начинаются с нее.

После чего мы нажимаем комбинацию клавиш Ctrl+S, пишем название robots, сохраняем файл на рабочий стол и мы на 30% ближе к правильной настройке.

Файл нужно загрузить на ваш сервер с сайтом туда, где находится файл index.html или index.php (в начальный каталог сайта)

 

Правильная настройка файла robots.txt

Есть всего 2 команды которыми мы будем пользоваться это:

  • Disallow – запретить к индексации (показу в поиске). Это закрывающий параметр.
  • Allow – разрешить к индексации. Это разрешающий параметр.

, а теперь давайте разберем на примере:

У нас есть сайт roi-consulting.ru. На нем есть сервере есть папки например с папка от управления сайтом (админ панель). Выглядит она вот так roi-consulting.ru/wp-admin

Это папка техническая и не несет посетителям какой либо информацией, а значит не нужна в поисковой выдаче. Для того чтобы запретить ее к обходу робота файл robots.txt будет выглядеть вот так:

User-agent: *

Disallow: /wp-admin/

 

В таком случае поисковому роботу дана команда, что весь сайт можно показывать в поисковой выдаче, но не папку wp-admin.

Внимание: в начете всех файлов и папок должен стоять знак «/»

 

Как запретить к индексации страницу сайта

Чтобы запретить к индексации конкретную страницу сайта нужно добавить ее в запреты к индексации в файле роботс. Например мы не хотим показывать страницу secret.html в поисковой выдаче. Название страницы можно посмотреть в вверху браузера зайдя на нее.

Например у нас выглядит вот так: site.ru/secret.html

Файл robots.txt выделит вот так:

User-agent: *

Disallow: /secret.html

 

Данная страница больше не будет обходится всеми роботами поисковых систем.

 

Как разрешить к индексации только одну папку

Бывают случаи, что от целого сайта нам нужно получать посетителей только на одну папку. Назовем ее /vsem/, а остольные файлы и папки срыть от роботов, тогда файл robots.txt будет выглядеть так:

User-agent: *

Allow: /vsem/

Disallow: /

 

Такой командой мы говорим роботу, что можно посещать и показывать в поиске только все что находится в папке /vsem/ и нечего больше.

 

Как запретить к индексации весь сайт

Запретить сайт к индексации совсем поможет вот такое заполнение файла:

User-agent: *

Disallow: /

 

*Ваш сайт будет полностью запрещен к обходу поисковыми роботами и показу во всех поисковых системах.

 

Как проверить страницу на запрет к индексации

В Яндекс Вебмастер есть функция позволяющая проверить есть ли запрет на индексацию () Как получить доступ к Яндекс Вебмастер я рассказал тут.

Она находится в разделе Инструменты > Анализ Robots.txt.

Сервис Яндекс Вебмастер анализ robots.txt

Опускаем страницу немного ниже и для выявления запрета к индексации мы вводим название файла или папки в окошко после чего нажимаем кнопку проверить.

Давайте попробуем проверить папку которую мы запретили к индексации в начале статьи.

Проверка запрета на индексацию запрещено

Как вы видите доступ запрещен. Также указан параметр из-за чего индексация не происходит. В нашем примере запрет стоит на все технические папки название начала которых совпадает с /wp-*/

Проверка запрета на индексацию разрешено

А вот пример уже доступной к индексации папки блога

 

Как правильно настроить файл robots.txt

Правильная настройка файла robots.txt, заключается в понимании зачем он вообще нужен, также поиску «мусорных», системных и ненужных страниц.

Они выявляются с помощью сервиса Яндекса, а также с помощью специальных программ, о чем я написал целую статью по исправлению ошибок на сайте и давайте отталкиваться от нее.

Давайте возьмем старый скриншот и его разберем

Технические страницы поиск через Яндекс Вебмастер

На этом скриншоте мы уже видим технические папки и данные, давайте их запретим к индексации.

Папка /wp-json/ сразу видно что техническая, а параметр «?p=» забивает выдачу технической информацией. Проверить и принять решение о нужности папки или файла можно перейдя по ссылке и посмотреть страницу.

Давайте их уберем. Для этого настоим файл robots.txt вот таким образом:

User-agent: *

Disallow: */wp-json/*

Disallow: */?p=*

 

Параметр * говорит роботам, что при любой встрече с папкой wp-json, не важно в каком разделе сайта она будет находится и при любом значении парамернра /?p= (/?p=1, /?p=2, /?p=123) страницы не показывать в поиске и не индексировать.

Как рассказано в статье исправление ошибок, найдите все ненужные и технические страницы сайта и добавьте их в запрет файла robots.txt

Надеюсь вам помогла моя статья, а если появились вопросы, задавайте их в комментариях. Мы идем дальше Продвижение сайта — настройка Sitemap — часть 4

Автор: Аграчев Михаил

Похожие статьи

Фавикон — что это такое, как сделать и установить

Вчера буквально вчера мне нужно было найти кое-какую информацию. Как…

План продвижения сайта

СЕО продвижения – главный аспект развития сайта. Без реализации спланированного,…

Факторы ранжирования в Гугл

Согласно статистике liveinternet.ru, доля Google в Рунете медленно, но неуклонно…

Контакты

Оставьте заявку или свяжитесь с нами по этим контактам

Офис в Москве

+7 495 120 02 13
a@agrachoff.ru

Заполните форму и мы свяжемся с вами