Все о Robots.txt

300  1 .pImlQ  300x250 - Все о Robots.txt

Шутки ради: Robots.txt я предохраняюсь.

Начну с того, что файл robots.txt является практически самым важным в сео продвижении. Из него поисковые роботы о (них тут) узнают что какие страницы можно показывать в поиске, а какие вообще не посещать и не показывать.

Содержание:

  1. Robots.txt — зачем он нужен
  2. Для чего скрывать информацию от роботов
  3. Как создать файл robots.txt
  4. Правильная настройка файла robots.txt
  5. Как запретить к индексации страницу сайта
  6. Как разрешить к индексации только одну папку
  7. Как запретить к индексации весь сайт
  8. Как проверить страницу на запрет к индексации
  9. Как правильно настроить файл robots.txt

Robots.txt — зачем он нужен

В robots.txt содержатся набор параметров для поисковых роботов, как для всех поисковых систем, так и для каждой поисковой системы в отдельности.

В него необходимо помещать все технические страницы, файлы, папки, пустые и не нужные страницы, чтобы не захламлять поиск и увеличить доверие поисковой системы к вашему сайту.

Например: файлы админ панели, страница с поиском, рекламные страницы, служебная информация и прочее.

Для чего скрывать информацию от роботов

Давайте представим, что сайт это ваша квартира в которой вы храните все свои вещи. Паспорт, деньги, документы на автомобиль, акции компаний, фотографии, драгоценности, квитанции на оплату и так далее.

К вам приходят в гости друзья и вы хотите показывать им только свои фотографии, похвастаться драгоценностями, а личные вещи скрыть от всех и не показывать ни при каких обстоятельствах.

Для этого вы возьмете и положите все вещи которые не хотите показывать друзьям в другую комнату и закроете ее на ключ. Больше ваши личные вещи не потревожат и вы спокойны.

В интернете роль ваших гостей получает поисковый робот. Так как сайт в интернете общедоступный, а интернет является всемирным, любой желающий может войти на него или посмотреть какую информацию вы на нем храните.

Некоторой информации вы хотите делиться со всеми (например свои цены на услуги), а некоторая информация только для внутреннего пользования (оптовые цены и телефоны ваших поставщиков партнеров).

Так для того, чтобы спрятать важную информацию от посторонних глаз и служит файл robots.txt. Он в переносном смысле убирает вещи (страницы) от посторонних глаз в другую сторону. Конечно если вы его создали, в противном случаи запреты действовать не будут и робот зайдет и все скачает в общий доступ.

Как создать файл robots.txt

Для создания файла нам потребуется простой текстовой блокнот. Его можно создать нажмите комбинацию клавиш Windows+R и в появившимся окне наберите слово notepad.

клавиша win 300x212 - Все о Robots.txt

У вас появится чистый файл блокнота в который мы добавляем следующую запись:

User-agent: *

Фраза означает, что мы настраиваем этот файл для всех поисковых роботов всех поисковых систем. Можно настроить для каждой в отдельности но я не хочу вас путать и это нужно в индивидуальных случаях.

Читый файл 300x151 - Все о Robots.txt

Все файлы robots начинаются с нее.

После чего мы нажимаем комбинацию клавиш Ctrl+S, пишем название robots, сохраняем файл на рабочий стол и мы на 30% ближе к правильной настройке.

Файл нужно загрузить на ваш сервер с сайтом туда, где находится файл index.html или index.php (в начальный каталог сайта)

Правильная настройка файла robots.txt

Есть всего 2 команды которыми мы будем пользоваться это:

  • Disallow – запретить к индексации (показу в поиске). Это закрывающий параметр.
  • Allow – разрешить к индексации. Это разрешающий параметр.

, а теперь давайте разберем на примере:

У нас есть сайт roi-consulting.ru. На нем есть сервере есть папки например с папка от управления сайтом (админ панель). Выглядит она вот так roi-consulting.ru/wp-admin

Это папка техническая и не несет посетителям какой либо информацией, а значит не нужна в поисковой выдаче. Для того чтобы запретить ее к обходу робота файл robots.txt будет выглядеть вот так:

User-agent: *

Disallow: /wp-admin/

В таком случае поисковому роботу дана команда, что весь сайт можно показывать в поисковой выдаче, но не папку wp-admin.

Внимание: в начете всех файлов и папок должен стоять знак «/»

Как запретить к индексации страницу сайта

Чтобы запретить к индексации конкретную страницу сайта нужно добавить ее в запреты к индексации в файле роботс. Например мы не хотим показывать страницу secret.html в поисковой выдаче. Название страницы можно посмотреть в вверху браузера зайдя на нее.

Например у нас выглядит вот так: site.ru/secret.html

Файл robots.txt выделит вот так:

User-agent: *

Disallow: /secret.html

Данная страница больше не будет обходится всеми роботами поисковых систем.

Как разрешить к индексации только одну папку

Бывают случаи, что от целого сайта нам нужно получать посетителей только на одну папку. Назовем ее /vsem/, а остольные файлы и папки срыть от роботов, тогда файл robots.txt будет выглядеть так:

User-agent: *

Allow: /vsem/

Disallow: /

Такой командой мы говорим роботу, что можно посещать и показывать в поиске только все что находится в папке /vsem/ и нечего больше.

Как запретить к индексации весь сайт

Запретить сайт к индексации совсем поможет вот такое заполнение файла:

User-agent: *

Disallow: /

*Ваш сайт будет полностью запрещен к обходу поисковыми роботами и показу во всех поисковых системах.

Как проверить страницу на запрет к индексации

В Яндекс Вебмастер есть функция позволяющая проверить есть ли запрет на индексацию () Как получить доступ к Яндекс Вебмастер я рассказал тут.

Она находится в разделе Инструменты > Анализ Robots.txt.

Сервис Яндекс Вебмастер2 300x158 - Все о Robots.txt

Опускаем страницу немного ниже и для выявления запрета к индексации мы вводим название файла или папки в окошко после чего нажимаем кнопку проверить.

Давайте попробуем проверить папку которую мы запретили к индексации в начале статьи.

Проверка запрета на индексацию запрещено 1 300x151 - Все о Robots.txt

Как вы видите доступ запрещен. Также указан параметр из-за чего индексация не происходит. В нашем примере запрет стоит на все технические папки название начала которых совпадает с /wp-*/

Проверка запрета на индексацию разрешено 1 300x157 - Все о Robots.txt

А вот пример уже доступной к индексации папки блога

Как правильно настроить файл robots.txt

Правильная настройка файла robots.txt, заключается в понимании зачем он вообще нужен, также поиску «мусорных», системных и ненужных страниц.

Они выявляются с помощью сервиса Яндекса, а также с помощью специальных программ, о чем я написал целую статью по исправлению ошибок на сайте и давайте отталкиваться от нее.

Давайте возьмем старый скриншот и его разберем

Шлак 1 300x259 - Все о Robots.txt

На этом скриншоте мы уже видим технические папки и данные, давайте их запретим к индексации.

Папка /wp-json/ сразу видно что техническая, а параметр «?p=» забивает выдачу технической информацией. Проверить и принять решение о нужности папки или файла можно перейдя по ссылке и посмотреть страницу.

Давайте их уберем. Для этого настоим файл robots.txt вот таким образом:

User-agent: *

Disallow: */wp-json/*

Disallow: */?p=*

Параметр * говорит роботам, что при любой встрече с папкой wp-json, не важно в каком разделе сайта она будет находится и при любом значении парамернра /?p= (/?p=1, /?p=2, /?p=123) страницы не показывать в поиске и не индексировать.

Как рассказано в статье исправление ошибок, найдите все ненужные и технические страницы сайта и добавьте их в запрет файла robots.txt

Надеюсь вам помогла моя статья, а если появились вопросы, задавайте их в комментариях. Мы идем дальше Продвижение сайта — настройка Sitemap — часть 4

Автор: Аграчев Михаил

Похожие статьи

Как увеличить прибыль и узнать все о Целевой Аудитории своего сайта

По какой причине так принципиально важно знать аудиторию в лицо?…

Что такое реклама: ее виды, цели и задачи

Размещение рекламы на популярных ресурсах может повысить конверсию. Совокупность DynaAds…

Контакты

Хотите встретиться и обсудить проект?

г. Москва, ул. Полбина, д 3, стр 1, офис 212

Офис в Москве

+7 (977) 787-13-43
a@agrachoff.ru

Заполните форму и мы свяжемся с вами