Меню

XXI век на дворе — управляем роботами: robots.txt

Залог успешной оптимизации блога — правильно созданный файл robots txt для WordPress, которые закроет от глаз поисковика то, что ему не следует видеть. А именно, это внутренние папки и файлы сайта не несущие смысловой нагрузки или дублирующие основной контент — да-да, таких в данной системе очень много и по умолчанию все они открыты для роботов, которые могут принять дубликаты за плагиат и наложить на сайт фильтр, что значительно понизит Ваш сайт в поисковой выдаче — вот почему так важно создать правильный файл robots txt для WordPress!

robots txt для wordpress

Кажется я об этом уже где-то писал, но повторюсь еще раз, тем более это непосредственно связано с нашей темой. Итак, одним из недочетов (или особенностей) системы вордпресс является то, что в ней создается много дублей страниц. Если вы написали статью и опубликовали ее, это не значит, что она у вас на сайте в одном единственном экземпляре — нет. Она попадает в анонсы на главной, странице категорий, поиска, в архив, на страницу меток; в RSS ленту (так называемый feed); в трэкбэк. Дубликат страницы создается при постраничной навигации по комментариям, если эта функция включена. По-моему, уже достаточно! Разумеется, все эти недоработки придется исправлять нам с Вами — дубликаты нужно скрыть с глаз поискового робота.

Все это делается достаточно легко — создается в Блокноте файл, который называется ROBOTX.TXT (этот файл работает для всех сайтов, не только для WordPress). Туда пишется определенный код, который приведен в конце данной статьи, который закрывает от поисковиков отдельные страницы, файлы, а также целые разделы и папки с помощью специальных фильтров.

Кроме того, в данном файле мы пропишем единственно верный адрес сайта, чтобы у него в глазах поисковиков не было никаких зеркал (т.е. брата близнеца с адресом www) и укажем, где искать файл карты сайта для скорейшей индексации новых страниц.

После этого файл robots txt загружается в корневую папку WordPress и начинает работать.

А теперь смотрим видео — будет интересно!

P.S. Немного отойдя от темы файла robots txt, но в тему о роботах, добавлю, что одинаковые сайдбары на всех страницах блога — тот же самый дублированный контент. Решение — использовать разные виджеты на разных страницах, либо закрыть их от индексации тегом

<noindex></noindex>

. То же самое необходимо делать, если в своей статье вы используете неуникальный текст, например цитаты — их тоже надо скрывать.

Правильный текст файла robots txt для WordPress

Сохранить данный текст в файле robots.txt (site.ru заменяем на свой домен)

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: /tag/*/*
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: /tag/*/*
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: site.ru

Sitemap: http://site.ru/sitemap.xml

Плагин для редактирования robots.txt из админки

Скачать плагин KB-Robotstxt

Ошибки в файле robots txt, отрицательно влияющие на ранжирование

 

Случайно закрыты важные страницы 100%
Disallow: / 92%
Robots.txt на основном зеркале отдает код ответа отличный от 200 68%
Открыты для индексации результаты поиска на сайте 58%
Инструкции даны только для одной поисковой системы 34%
Нет ссылки на sitemap.xml 8%

Данные от ТопЭксперт.Рф 

Комментарии 6

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *