XXI век на дворе — управляем роботами: robots.txt

Залог успешной оптимизации блога — правильно созданный файл robots txt для WordPress, которые закроет от глаз поисковика то, что ему не следует видеть. А именно, это внутренние папки и файлы сайта не несущие смысловой нагрузки или дублирующие основной контент — да-да, таких в данной системе очень много и по умолчанию все они открыты для роботов, которые могут принять дубликаты за плагиат и наложить на сайт фильтр, что значительно понизит Ваш сайт в поисковой выдаче — вот почему так важно создать правильный файл robots txt для WordPress!

robots txt для wordpress

Кажется я об этом уже где-то писал, но повторюсь еще раз, тем более это непосредственно связано с нашей темой. Итак, одним из недочетов (или особенностей) системы вордпресс является то, что в ней создается много дублей страниц. Если вы написали статью и опубликовали ее, это не значит, что она у вас на сайте в одном единственном экземпляре — нет. Она попадает в анонсы на главной, странице категорий, поиска, в архив, на страницу меток; в RSS ленту (так называемый feed); в трэкбэк. Дубликат страницы создается при постраничной навигации по комментариям, если эта функция включена. По-моему, уже достаточно! Разумеется, все эти недоработки придется исправлять нам с Вами — дубликаты нужно скрыть с глаз поискового робота.

Все это делается достаточно легко — создается в Блокноте файл, который называется ROBOTX.TXT (этот файл работает для всех сайтов, не только для WordPress). Туда пишется определенный код, который приведен в конце данной статьи, который закрывает от поисковиков отдельные страницы, файлы, а также целые разделы и папки с помощью специальных фильтров.

Кроме того, в данном файле мы пропишем единственно верный адрес сайта, чтобы у него в глазах поисковиков не было никаких зеркал (т.е. брата близнеца с адресом www) и укажем, где искать файл карты сайта для скорейшей индексации новых страниц.

После этого файл robots txt загружается в корневую папку WordPress и начинает работать.

А теперь смотрим видео — будет интересно!

P.S. Немного отойдя от темы файла robots txt, но в тему о роботах, добавлю, что одинаковые сайдбары на всех страницах блога — тот же самый дублированный контент. Решение — использовать разные виджеты на разных страницах, либо закрыть их от индексации тегом

<noindex></noindex>

. То же самое необходимо делать, если в своей статье вы используете неуникальный текст, например цитаты — их тоже надо скрывать.

Правильный текст файла robots txt для WordPress

Сохранить данный текст в файле robots.txt (site.ru заменяем на свой домен)

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: /tag/*/*
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /webstat/ Disallow: /feed/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: /tag/*/* Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /category/*/* Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments Host: site.ru Sitemap: http://site.ru/sitemap.xml

Плагин для редактирования robots.txt из админки

Скачать плагин KB-Robotstxt

Ошибки в файле robots txt, отрицательно влияющие на ранжирование

 

Случайно закрыты важные страницы 100%
Disallow: / 92%
Robots.txt на основном зеркале отдает код ответа отличный от 200 68%
Открыты для индексации результаты поиска на сайте 58%
Инструкции даны только для одной поисковой системы 34%
Нет ссылки на sitemap.xml 8%

Данные от ТопЭксперт.Рф 

  • Буквально на днях посмотрел видео с интервью директора компании Advans. Он сказал, что использование Robots.txt в таком виде, в котором его сейчас в рунете используют 95% — неправильное. Поэтому наши сайты и блоги плохо развиваются за рубежом и как правило, такие поисковые системы, как Yahoo и Bing их не охотно индексируют.

  • Если у нас идет исключение какой — то страницы, то нужно например указывать:
    Disallow:/a
    Disallow:/b и так далее. Получается около 40 строк для одного поисковика.

    А так же была сказана фраза, что этот файл пишется либо под Яндекс, либо по остальные поисковики. А не так как мы пишем, для Яндекса и для всех сразу. 🙁

    • Это подойдет только для небольшого сайта. Представьте, у нас 10 страниц с анонсами. Одна и та же может быть задействована в нескольких вариантах — основной, версия для печати, версия для мобильных, версия с сортировкой элементов по популярности, с сортировкой по дате, с сортировкой по рейтингу и т.д. — например 6 вариантов. То есть всего для 10 страниц нужно прописать 60 строчек в роботс. А если у сайта тысячи страниц…?

  • вот таким образом и чистить.
    все страницы которые начинаются на латинскую букву «A» — Disallow:/a
    все которые начинаются на % или ! — Disallow:/%

  • Добрый день, возник следующий вопрос. У меня сайи на ВП, сейчас подумываю, чтобы прикрутить к нему форум. В роботе есть директива Disallow: /*?* У форума страницы динамические, соответственно данную директиву нужно удалить. В таком случае может быть задвоение контента т.к., я на сайте использую ссылки ЧПУ. Кто знает выход с подобной ситуации?

Добавить комментарий