Избавляемся от дублированного контента в wordpress

Ни для кого уже не секрет, что по пришествии новых фильтров АГС-17 и АГС-30, Яндекс стал «наказывать» за дублированный контент. В данном посте я хочу рассказать о том, как избежать или по крайней мере значительно уменьшить дублированный контент в wordpress.

Для этого потребуется установить плагин All in one seo pack и составить файл robots.txt.

All in one seo pack, его нужно установить и настроить. В принципе я об этом уже писал. Но уточню еще раз. После того как плагин установлен, зайдите в его настройки через администраторскую панель и отметьте галочками следующие пункты: Use noindex for Categories, Use noindex for Tag Archives и Use noindex for Archives. Отметив галочками эти пункты вы тем самым запрещаете поисковым системам индексировать страницы категорий, архивов и тегов. Также стоит отметить галочкой пункт Canonical URLs. После этого сохраните настройки.

Robots.txt. Зачем это нужно составлять данный файл. Простой пример. В анонсе к каждой записи есть ссылка на комментарии и ссылка на саму запись. И та и другая ссылки ведут на одну и ту же запись, но ссылки разные и поисковые системы воспринимают такие страницы как разные, несмотря на то что они идентичны. Вот вам и пример дублированного контента. Я лично составляю robots.txt так:

User-agent: * Disallow: /xmlrpc.php Disallow: /tag Disallow: /category/* Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*?

Host: ваш домен

User-agent: Yandex Disallow: /xmlrpc.php Disallow: /tag Disallow: /category/* Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*?

Host: ваш домен

Прописав такой robots.txt мы запрещаем к индексации страницы категорий, тегов, «страниц» на комментарии, трекбеки, а также страницы поиска, которые начинаются с вопросительного знака. Также мы запретили от индексации файл xmlrpc.php, который вообще не нужно индексировать. У меня почему-то Яндекс его индексировал, поэтому пришлось запретить, чего и вам советую.

Не лишним будет также прописать в файле роботс запретить к индексации папки wp-admin, wp-includes и wp-content, хотя это и не имеет отношения к теме сегодняшнего поста, я на всякий случай напишу:

Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content

Allow: /wp-content/uploads

Тем самым выставляется запрет на индексацию администраторской панели и прочих файлов движка. Директива Allow наоборот разрешает индексировать картинки, это уже по вашему желанию. Все, данные действия помогут избежать дублей страниц.

Обновление статьи 17.11.10. 1. При запрете категорий у меня было написано ранее Disallow: /category/*/*, как показывает практика и анализаторы robots.txt (в Я.Вебмастер и Google Webmaster), такое решение является неверным. Категории будут разрешены к индексированию и как следствие, индексироваться. Для того чтобы закрыть страницы категорий от индексации, нужно прописать Disallow: /category/*.

2. Как запретить индексировать архив в wordpress. Лично я делаю это простым способом. Поскольку урл архива (при ЧПУ) начинается с года, то в robots.txt я прописываю:

Disallow: /2010/*

Если есть записи за другой год, например 2009, то также добавляется директива Disallow: /2009/*.

Буду признателен Вам если поделитесь статьей:

Related Posts