Как найти дубли страниц в wordpress. Удаляем дубли картинок в WordPress. Удаляем дубли страниц в комментариях

От автора: дубли страниц – одна из самых распространенных технических проблем, которая может ухудшить позиции сайта в поиске. Как с ней разобраться? Невозможно в одной статье рассказать о всех видах дублей на всех движках, давайте сосредоточимся на чем-то одном. Например, на cms WordPress, так как это самый популярный движок. Как убрать дубли страниц в wordpress? Давайте рассмотрим самые основные.

Самое большое зло WordPress

В этом движке есть один вид дублей, который особенно опасен и от него в свое время страдали очень многие сайты. Это так называемый replytocom. Появится он только в том случае, если включить в настройках обсуждения древовидные комментарии. Таким образом, появится возможность ответить на комментарий какого-то человека. Это очень удобно, если только не одно но.

Если присмотреться к url-адресу на кнопке “Ответить”, то можно найти там тот самый злосчастный отросток – replytocom. Ну и что? А то, что чем больше комментариев теперь у вас будет на странице, тем больше дублей. Причем 1 новый комментарий породит не 1 дубль, а много.

Все это происходит потому, что к странице теперь можно будет обратиться не только так: http://site.ru/название-записи

Но и так: http://site.ru/название-записи?replytocom=…

Таким образом, если к статье оставили 100 комментариев, то появится как минимум 100 дублей, но на самом деле гораздо больше. Я часто анализирую различные сайты с помощью специальных сервисов вроде pr-cy. Так вот, там можно наблюдать историю количества проиндексированных страниц.

Так вот, в 2012-13 годах, когда решение проблемы знали немногие, у многих сайтов было 100 тысяч – 10 миллионов страниц в индексе! Сейчас их в тысячи раз меньше, хотя с тех пор на сайтах появилось намного больше контента.

Как раз все эти тысячи и даже миллионы дублей в основном были из-за дублей replytocom. Когда же владельцы сайтов узнали о проблеме и о ее решении, они избавились от дублей и со временем из поисковой выдаче исчезли сотни миллионов мусорных страниц!

Лечение или как избавиться от replytocom

Вариантов тут есть несколько. Во-первых, можно установить плагин Yoast SEO, который используют тысячи веб-мастеров для поисковой оптммизации своих записей. Если хорошенько покопаться в его настройках, то можно найти там пункт “Убрать replytocom”. Ставим галочку и спим спокойно.

Во-вторых, можно просто не включать древовидные комментарии, если вы в них не нуждаетесь. Конечно, будет не так удобно, но это самый простой способ никогда не сталкиваться с этими дублями.

В-третьих, поставить какой-то другой плагин. В частности, не так давно нашел плагин Ark hidecommentslinks, который делает сразу 2 полезных дела: заменяет ссылки в комментариях на кликабельный текст, а заодно и убирает replytocom. Но плагин приведен только в пример, потому что я уверен, что это не единственное расширение, которое справляется с этой проблемой.

Четвертый способ более сложен – замена кнопки ответить. Эта кнопка должна выводиться не стандартными средствами wordpress, а с помощью скрипта. Обычно эту работу делает программист, либо вы можете найти готовое решение в каком-нибудь шаблоне, где стоит самописная система комментариев.

Думаю, этих способов вам хватит, тут еще нужно сказать о том, что чем раньше вы сделаете что-либо для устранения дублей, тем лучше. Самое главное, чтобы ваши статьи не были доступны по такому адресу: http://site.ru/название-записи?replytocom=какое-то число

Потому что если они недоступны (вылазит 404 ошибка) то со временем все дубли, если они уже попали в выдачу, пропадут. Если они еще не успели попасть в выдачу, то еще лучше.

Простой способ проверить дубли

Самый простой способ – воспользоваться сервисом, который покажет вам, сколько страниц вашего сайта проиндексировано поисковиком. Для этой цели я использую pr-cy.ru/analysis, так как уже очень привык к нему.

В WordPress на главной странице вы можете видеть, сколько на вашем блоге на данный момент записей, а также сколько страниц. Вот вы и можете примерно прикинуть, сколько страниц должно быть в индексе. Вводим адрес своего сайта в сервис для проверки этих показателей.

Там вы увидите данные для Яндекса и Гугла. Если они примерно отвечают вашим подсчетам и отличаются незначительно, значит, на данный момент все в порядке. Если же вы видите существенную разницу между количеством страниц в Индексе поисковиков, либо в обоих поисковиках это количество сильно превышает кол-во реальных записей, нужно начинать бить тревогу и принимать меры по борьбе с дублями.

Дубли на страницах рубрик

На странице рубрики обычно содержится анонс статьи и кнопка на нее полное прочтения. Так вот, хотя это и не полный дубль, но все же какая-то часть текста может совпадать на обеих страницах (300-600 символов). Таким образом, вы сами у себя понижаете уникальность. Чтобы этого не допустить, желательно закрывать текст в анонсах в теги noindex.

Хорошо, но из-за этого страницы рубрик вообще могут не проиндексироваться? Если вы хотите все-таки их индексировать, рекомендую добавить для каждой рубрики ее уникальное описание в 150-250 символов и выводить его в шаблоне рубрик – category.php.

Дубли в архивах

По умолчанию в wordpress есть архивы по дате и архивы по автору. На этих страницах также выводится описание статей, а еще одинаковые title. Если вы в них не нуждаетесь, можно просто отключить. Это можно сделать с помощью seo-плагина. Например, Yoast SEO.

Дубль на уровне домена

По умолчанию при создании сайта он доступен по двум адресам: site.ru и www.site.ru. По сути, для поисковой системе это 2 разных сайта. Чтобы контент не дублировался, нужно явно указать главное зеркало. Это можно сделать с помощью файла robots.txt, прописав в нем следующее.

Мощь? Ну тогда получите еще одну! Не менее мощную. Кучу дублей replytocom вы нашли, это хорошо!

Вот сегодня найдете еще кучу других дублей, которые так же убивают, отравляют ваш блог и плодятся эти дубли все быстрее и быстрее с каждым днем...

Вообще! То что я сейчас расскажу в этой статье это фишки взятые из курса и по идее я не хотел писать эту статью, выставляя ее на всеобщее обозрение. Как говориться, не хотел палить тему. НО! Посидев, подумав, я пришел к выводу, что это просто необходимо сделать.

Почему? А потому что после статьи про дубли replytocom я увидел, что многие начали тупо копировать мой файл robots.txt и думать, что теперь у них все будет в шоколаде. Смотреть на это просто так я не могу, так что приходится вот этой статьей спасать тех засранцев, которые скопировали мой роботс даже ни о чем не думая.

Ну да ладно, в курсе 3.0 есть и так много интересных и полезных фишек. Все естественно на блоге этом спалены никогда не будут.

Итак ок! Поехали. Вспоминаем идею моей прошлой статьи про дубли replytocom. Идея заключается в том, что не надо закрывать в robots.txt доступ к чему либо на блоге. Мы наоборот все открываем, мол, — «Привет робот заходи, все смотри», он приходит и видит метатег:

Таким образом он уже не будет брать страницу в сопли. А если в роботсе будет закрыто, то возьмет все равно на всякий пожарный. =) По количеству комментариев к прошлой статье я понял, что многие ни чего не поняли. было куча вопросов и про robots и про плагин и про редирект и т.д.

Короче ребята, вот тут все ответы на ваши вопросы. Посмотрите это видео перед тем, как читать статью дальше.

Гут! Теперь вспоминаем как мы находили дубли replytocom в выдаче google! Вот так:

site:site.ru replytocom

Как найти дубли страниц на wordpress?

Ок, теперь давайте будем искать другие дубли страниц. А именно дубли:

feed
tag
page
comment-page
attachment
attachment_id
category
trackback

Искать их так же как и replytocom. Снова давайте я поиздеваюсь над уже не просто легендарным, а легендарнейшим Александром Быкадоровым . Захожу в google и вбиваю вот так:

Жму - «Показать скрытые результаты» и вижу вот что:

490 дублей страниц. Feed — это отростки на конце url статей. В любой вашей статье нажмите ctr + u и в исходном коде увидите ссылку с feed на конце. Короче от них надо тоже избавляться. Вопрос — как? Что нам все рекомендуют делать в интернете? Правильно, добавлять что-то подобное в robots.txt:

Disallow: */*/feed/*/
Disallow: */feed

Но если мы посмотрим на блоги, то у всех есть feed в выдаче google. Ну так получается не работает запрет в Роботсе верно? Как тогда от них избавляться? Очень просто — открытием feed в robots.txt + редирект. Об этом дальше.

Хорошо! Это мы проверили только дубли страниц feed, а давайте еще другие проверим. В общем набирайте вот так в google:

site:site.ru feed
site:site.ru tag
site:site.ru attachment
site:site.ru attachment_id
site:site.ru page
site:site.ru category
site:site.ru comment-page
site:site.ru trackback

Все как обычно! Сначала вбиваем, потом идем в конце и нажимаем «показать скрытые результаты» . Вот что я вижу у Александра:

Ну дублей tag, comment-page и trackback у Саши я не нашел. Ну как вы свои блоги проверили? У вас сейчас случайно не такое же лицо, которое я показал в прошлой статье в конце (см. фото)? Если такое, то печально. Ну ни чего, сейчас все поправим.

Как избавиться от дублей страниц?

Итак! Что надо сделать? Первым делом берем вот этот файл robots.txt и ставим его себе:

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru Sitemap: http://site.ru/sitemap.xml User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/

Только не забудьте site.ru заменить на ваш блог. Так, ок. Роботс поставили. То есть открыли все, что было закрыто. А у многих закрыто было многое и category и tag и feed и page и comment и т.д. и т.п. Теперь нам надо на страницах дублей где есть возможность поставить метатег noindex тот самый:

А где этой возможности нет, там ставим редирект со страницы дубля на основную страницу. Сейчас чтобы вы не сошли с ума о того, что я тут буду рассказывать, лучше сделайте следующее:

Шаг №1: Добавьте вот эти строки в свой файл.htaccess:

RewriteRule (.+)/feed /$1 RewriteRule (.+)/comment-page /$1 RewriteRule (.+)/trackback /$1 RewriteRule (.+)/comments /$1 RewriteRule (.+)/attachment /$1 RewriteCond %{QUERY_STRING} ^attachment_id= RewriteRule (.*) $1?

Файл этот лежит у вас в корне блога где и папки wp-admin, wp-content и т.д. Вот качните его на пк, откройте блокнотиком и добавьте. Вот так все должно примерно быть:

# BEGIN WordPress RewriteEngine On RewriteBase / RewriteCond %{QUERY_STRING} ^replytocom= RewriteRule (.*) $1? RewriteRule (.+)/feed /$1 RewriteRule (.+)/comment-page /$1 RewriteRule (.+)/trackback /$1 RewriteRule (.+)/comments /$1 RewriteRule (.+)/attachment /$1 RewriteCond %{QUERY_STRING} ^attachment_id= RewriteRule (.*) $1? RewriteRule ^index\.php$ - [L] RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteRule . /index.php [L] # END WordPress

Шаг №2: Вот этот код добавьте в файл function.php сразу в начале после

/*** ДОБАВЛЯЕМ meta robots noindex,nofollow ДЛЯ СТРАНИЦ ***/ function my_meta_noindex () { if (is_paged() // Все и любые страницы пагинации) {echo ""." "."\n";} } add_action("wp_head", "my_meta_noindex", 3); // добавляем свой noindex,nofollow в head

Шаг №3: Заходим в плагин All in One Seo Pack и ставим вот так:

Шаг №4: Заходим в админку — Настройки — Обсуждения и убираем галочку с "Разбивать комментарии верхнего уровня на страницы":

Окей. Это все. Теперь надо ждать переиндексации, чтобы все дубли опять же вылетели из выдачи.

Что мы сделали? Повторю, в robots.txt мы все открыли, о есть теперь робот будет заходить беспрепятственно. Далее на таких страницах как page, tag и category он будет видеть тот самый запрещающий метатег noindex и соответственно не будет брать страницу в выдачу.

На страницы page мы добавили метатег руками вот тем кодом, который вы вставили в файл function.php из шага №2, а страницы tag и category закрылись метатегом благодаря тому, что в плагине All in One Seo Pack мы поставили галочки там где надо, как я показал в шаге №3.

На страницах feed, attachment, attachment_id, comment-page и trackback этот метатег мы не ставили, мы поставили 301 редирект добавлением нескольких строк в.htaccess, что я вам дал в шаге №1.

В админке в настройках обсуждения мы сняли галочку, чтобы у нас комментарии не разбивались на страницы и не создавали новые url.

В общем теперь робот приходя на эти страницы (feed, attachment, attachment_id, trackback), будет автоматически перебрасываться на основные страницы и как правило, дублированные не забирать в выдачу. Редирект — сила! Ну вот собственно и все.

Если вы будете использовать эту схему, то дублей у вас не будет. Схема рабочая и проверена. Кстати пользуясь случаем хочу немного похвастаться. Вот что у меня было по проиндексированным страницам в вебмастере google в апреле:

А вот что сейчас:

А вот что по трафику с Google:

Как видите дублей все меньше становится и трафик все выше и выше. Короче все работает! Честно говоря так обидно, что аж 2 года сидел с этими дублями, не знал про них вообще, как от них избавиться и как следствие сидел на 140-150 посетителях в сутки с google. =))

Кстати трафик с Яндекса тоже заметен уже.

Естественно не все сразу. Жду год. Поставил себе такой срок. Уверен, что за год все дубли уйдут. Вот за 2 месяца ушло более 7200. А как обстоят дела у вас? =) Мне тут уже люди пишут кстати, поставили мою схему и посещалка вверх пошла.

Ребята, схема понятна? Если что вот еще видео специально записал, посмотрите, может быть тут я объяснил по понятнее:

На этом тему дублированного контента на блоге я заканчиваю. Что еще не сказал. Мы с вами рассмотрели нахождение только, так скажем, официальных =))) дублей. Есть еще кроме дублей — шлак и прочий мусор. Его тоже нужно уметь находить и удалять. Вот например некоторые мусорные страницы блога Александра Быкадорова:

И таких вот кривых соплей может быть очень и очень много! У кого-то их тысячи. Как находить этот мусор и много еще чего интересного, я рассказывал в курсе Как стать блоггером тысячником 3.0 . Сегодня последний день цена 2370 и 2570, завтра будет 3170 и 3470.

Помните — хороший сайт — это сайт, на который пришел робот, загрузил главную страницу index, все стальные страницы вашего блога типа «Об авторе», «Контакты»..., и все ваши статьи! Все, больше ни чего в выдачу забирать он не должен. Если забирает, но это печально и плохо.

В заключение статьи хотелось бы поблагодарить Сашу Алаева , мега супер-пупер крутого SEOшника, за помощь в создании и robots.txt и.htaccess. Эти рекомендации и не только эти, очень помогли мне в написании этих двух статей про дубли, а так же в создании курса КСБТ 3.0.

Ну все! Напишите в комментариях кто сколько у себя дублей нашел! =) Может быть у вас еще есть какие-то дубли в выдаче? Можно попробовать разобраться в их устранении!

P.S. Давайте поржем еще раз в завершении. Вот лицо человека, который через несколько лет ведения блога узнал, что у него куча дублей и мусора в выдаче:

Всем пока и удачных выходных!

С уважением, Александр Борисов

Table of Contents

Что такое дубли страниц?

Очень часто владельцы wordpress сайтов начинают беспокоиться, если не понимают из-за чего отдельные страницы проваливаются в выдаче. Причиной тому могут быть дубли страниц. Это страницы, содержащие материалы с идентичным или похожим контентом. Речь о страницах архивов дат, рубрик, авторов и комментариев. При этом они могут располагаться под разными адресами, что позволяет дублям конкурировать с основной статьей за место в поисковой выдаче. В этом материале мы расскажем как избавиться от дублей страниц.

Создание дублей страниц на сайте

Как мы уже рассказывали ранее, дубли одной конкретной страницы, где размещена одна конкретная статья создаются и в архивах дат, и в рубриках или категориях (могут называться по-разному), а также на страницах с комментариями. Благодаря этому пользователи могут сортировать посты и находить по определенным критериям нужные. Система делает это автоматически.

Давайте посмотрим как это выглядит на примере архива дат. Предположим нам нужно выбрать все статьи за ноябрь. На главной странице сайта кликните на ссылку в виджете с указанием месяца.

Дубли в комментариях

При работе с комментариями вебмастерам следует учитывать, что как таковые, дубли страниц создаются при наличии древовидной системы обсуждения. В том числе если обсуждений очень много и комментариям не хватает места на одной странице, то часть их перемещается на следующие. И в этом случае вам необходимо удалить дубли страниц в wordpress, иначе проиндексированные страницы станут своеобразной ловушкой для пользователей. Они просто попадут на страницу комментариев статьи, а не на саму статью, после чего посетители, скорее всего покинут сайт. SEO-продвижение явно пострадает от большого количества отказов.

Как удалить дубли с помощью плагина WordPress

Чтобы не разбираться с провалами в поисковой выдаче, лучше заранее провести профилактическую работу. А именно удалить дубли страниц в wordpress. Мы предлагаем вам воспользоваться плагином оптимизации сайтов . В его арсенале большой спектр полезных функций для удаления дублей страниц. Скачайте данное приложение и установите, так мы сможем рассказать о всех фичах более предметно.

После активации перейдите в меню настроек плагина: «Настройки» => «Clearfy меню» =>

Начнем по порядку, с удаления архивов дат. Здесь стоит сразу уточнить, что удалять дубли в буквальном смысле мы не будем. Их просто отключат от индексирования. И это важнее, чем избавиться фактически от копий страниц. Если дубликаты не видит поисковик, значит пользователь перейдет на основную, нужную вам для продвижения страницу и не заблудится в многообразии ссылок-клонов. Чтобы запустить функцию нажмите кнопку ВКЛ.

Чтобы удалить метки архивов, нужно поставить редирект со страниц тегов на главную. Для этого активируйте функцию ниже. Аналогично предыдущим. Обратите внимание на серую метку со знаком вопроса. Она указывает на то, что негативных последствий настройка не вызовет.

Для каждой фотографии или видео wordpress создает отдельную «страницу вложений» с возможностью комментирования, что является своеобразным якорем оптимизации. Подробней об этом мы говорили в предыдущей . Нажимаем кнопку ВКЛ.

Если у вас на сайте пагинация настроена таким образом, что контент размещается сразу на нескольких страницах, то в конце URL, в том или ином виде, будет добавляться порядковый номер каждой страницы. Clearfy же, предложит вам удалить постраничную навигацию записей. То есть каждая страница одной статьи будет редиректиться на основную. Нажмите кнопку ВКЛ.

Если у вас настроены древовидные комментарии, то их иерархия создаст благоприятные условия для создания копий страниц. Выглядит это так: вы отвечаете на чей-то комментарий и одновременно в URL появляется переменная?replytocom – это значит, что поисковик видит в этом не ответ на комментарий, а отдельную страницу, так как адрсе отличается. Удалить дубли страниц в wordpress и выполнить редирект вы можете активировав данную функцию.

Заключение

Время и силы, затраченные на продвижение сайта или отдельных статей могут уйти впустую. Если не позаботиться об удалении дублей страниц заранее. Они индексируются поисковиком и могут составить конкуренцию основным статьям. После прочтения данной статьи мы надеемся, что вы оценили весь спектр представленных функций и теперь вам будет несложно удалить дубли страниц в wordpress.

Доброго времени суток!

Дубликаты страниц , или дубли — одна из тех проблем, о которой не подозревают многие вебмастера. Из-за такой ошибки, некоторые полезные WordPress-блоги теряют позиции по ряду запросов, и порою их владельцы даже не догадываются об этом. Каждый видит в статистике, что посещаемость веб-страницы упала, но разыскать и исправить ошибку могут не все. В этой статье пойдет речь о том, как найти дубли страниц сайта.

Что такое дубликаты страниц?

Дубли – это две и больше страниц с одинаковым контентом, но разными адресами. Существует понятие полных и частичных дублей. Если полные — это стопроцентный дублированный контент исходной (канонической ) страницы, то частичным дублем может стать страница, повторяющая ее отдельные элементы. Причины появления дублей могут быть разными. Это могут быть ошибки вебмастера при составлении или изменении шаблона сайта. Но чаще всего дубли возникают автоматически из-за специфики работы движков, таких как WordPress и Joomla. О том, почему это происходит, и как с этим справляться я расскажу ниже. Очень важно понимать, что вебсайты с такими повторениями могут попасть под и понижаться в выдаче, поэтому дублей стоит избегать.

Как проверить сайт на дубли страниц?

Практика показывает, что отечественный поисковик Яндекс относится к дублям не так строго, как зарубежный Гугл. Однако и он не оставляет такие ошибки вебмастеров без внимания, поэтому для начала нужно разобраться с тем, как найти дубликаты страниц.

Во-первых, нам нужно определить, какое количество страниц нашего сайта находится в индексе поисковых систем. Для этого воспользуемся функцией site:my-site.ru, где вместо my-site.ru вам нужно подставить свой url. Покажу, как это работает на примере своего блога. Начнем с Яндекса. Вводим в строку поиска site:сайт

Как видим, Яндекс нашел 196 проиндексированных страниц. Теперь проделаем то же самое с Google.

Мы получили 1400 страниц в общем индексе Гугл. Кроме основных страниц, участвующих в ранжировании, сюда попадают так называемые «сопли». Это дубли, либо малозначимые страницы. Чтобы проверить основной индекс в Google, нужно ввести другой оператор: site:сайт/&

Итого в основном индексе 165 страниц. Как видим, у моего блога есть проблема с количеством дублей. Чтобы их увидеть, нужно перейти на последнюю страницу общей выдачи и нажать «показать скрытые результаты ».

Снова перейдя в конец выдачи, вы увидите примерно такое:

Это и есть те самые дубли, в данном случае replycom . Такой тип дублей в WordPress создается при появлении комментариев на странице. Есть множество разных видов дублей, их названия и способы борьбы с ними, будут описаны в следующей статье.

Наверняка у вас возник вопрос, почему в Яндексе мы не увидели такого количества дублей, как в Google. Все дело в том, что в файле robots.txt (кто не знает что это, читайте « ») на блоге стоит запрет на индексацию подобных дублей с помощью директивы Disallow (подробнее об этом в следующем посте). Для Яндекса этого достаточно, но Гугл работает по своим алгоритмам и все равно учитывает эти страницы. Но их контент он не показывает, говорит, что «Описание веб-страницы недоступно из-за ограничений в файле robots.txt».

Проверка на дубли страниц по отрывку текста, по категориям дублей

Кроме вышеописанного способа, вы можете проверять отдельные страницы сайта на наличие дублей. Для этого в окне поиска Яндекс и Google, можно указать отрывок текста страницы, после которого употребить все тот же site:my-site.ru. Например, такой текст с одной из моих страничек: «Eye Dropper - это дополнение позволяет быстро узнать цвет элемента, чем-то напоминает пипетку в Photoshop». Его вставляем в поиск Гугл, а после через пробел site:my-site

Google не нашел дублей это страницы. Для Яндекса проделываем то же самое, только текст страницы берем в кавычки «».

Кроме фрагментов текста, вы можете вставлять ключевые фразы, по которым, к примеру, у вас снизились позиции.

Есть другой вариант такой же проверки через расширенный поиск. Для Яндекса — yandex.ru/advanced.html .

Вводим тот же текст, url сайта и жмем «Найти ». Получим такой же результат, как и с оператором site:my-site .

Либо такой поиск можно осуществить, нажав кнопку настроек в правой части окна Яндекс.

Для Гугла есть такая же функция расширенного поиска.

Теперь посмотрим, как можно выявить группу дублей одной категории. Возьмем, к примеру, группу tag.

И увидим на странице выдачи по данному запросу следующее:

А если попросить Гугл вывести скрытые результаты, дублей группы tag станет больше.

Как вы успели заметить, дубликатов страниц создается очень много и наша задача – предотвратить их попадание в индекс поисковиков.

Поиск дублей страниц сайта: дополнительные способы

Кроме ручных способов, есть также возможность автоматически проверить сайт на дубли страниц.

Например, это программа Xenu , предназначенная для технического аудита сайта. Кроме дубликатов страниц, она выявляет . Это не единственная программа для решения таких задач, но наиболее распространенная.

Также в поиске дублей страниц помогает Google Webmaster, здесь можно выявить страницы с повторяющимися мета-тегами:

Тут вы посмотрите список урлов с одинаковыми тайтлами или описанием. Часть из них может оказаться дублями.

На сегодня все. Теперь вы знаете, как найти дубликаты страниц. В мы подробно разберем, как предотвратить их появление и удалить имеющиеся дубли.

» я рассказывал, что такое дубли и как их можно найти. В этой статье я хотел бы осветить тему того, как можно убрать дубли с Вашего сайта, воспользовавшись рядом плагинов или обычным кодом. Сразу хотелось бы сказать, что индексацией дублей в основном страдает поисковая система (ПС) Google, даже не смотря на то, что они запрещены в файле robots.txt . ПС Яндекс работает по своему алгоритму и меньше воспринимает подобный контент. Итак, приступим.

Дубли ответов на комментарии — replytocom

Самые распространенные дубли в WordPress — это так называемый replytocom , который появляется, когда на сайте включены древовидные комментарии. Если приглядеться на ссылку «Ответить на комментарий», то можно проследить наличие данного вида дублей. С одной стороны это удобно, ведь пользователь может ответить на чей либо комментарий и видеть структуру ответов. С другой стороны это очень пакостная вещь, поскольку replytocom порождает ни один, а как правило несколько дублей. К примеру, на Вашем сайте есть 500 комментариев, значит имеется как минимум 500 дублей.

Для того, чтобы убедиться в наличие дублей replytocom , можно перейти по следующему URL адресу: http://sitename.ru/название_поста?replytocom=какое_то_число. Теперь в адресной строке можно наблюдать что то подобное этому: http://sitename.ru/название_поста/#comment=какое_то_число.

Кроме того, в WordPress существуют еще ряд дублей, к которым относятся:

feed;
page;
comment-page;
attachment;
attachment_id;
category;
trackback.

Каждый вид дублей соответствует техническим возможностям движка. Проверить их можно при помощи оператора site , о котором написано в .

Убираем дубли при помощи плагинов

На моей практике, мне приходилось пользоваться 3-я видами плагинов, которые помогают избавиться от дублей в WordPress.:

All in One Seo Pack . После установки в разделе Общие настройки нужно поставить галочку Канонические Url .

Yoast Seo . В настройках плагина ставим галочку Убрать replytocom ;
Ark hidecommentslinks . Данный плагин позволяет закрыть ссылки на сайты комментаторов, а также убрать replytocom из ссылки ответа на комментарий. Не имеет настроек.

Убираем дубли при помощи кода

Чтобы убрать дубли при помощи кода нужно отредактировать 3 файла — robots.txt , .htaccess и functions.php . Для тех кто не знает, первые два файла находятся в корне сайта, а третий файл лежит в папке с активной темой.

В статье « » я писал о том, как его правильно настроить. Некоторые же оптимизаторы советуют изменить содержимое robots.txt на следующее:

User-agent: * Host: sitename.ru Disallow: /wp-feed Disallow: /wp-includes Disallow: /wp-content/cache Disallow: /wp-content/plugins Disallow: /wp-content/themes Sitemap: http://sitename.ru/sitemap.xml User-agent: YandexImages Allow: /wp-content/uploads/ User-agent: Googlebot-Image Allow: /wp-content/uploads/

Вместо sitename.ru должен быть прописан домен Вашего сайта.

На следующем шаге открываем файл.htaccess и после строки RewriteRule ^index\.php$ - [L] добавляем следующий код:

RewriteCond %{QUERY_STRING} ^replytocom= RewriteRule (.*) $1? RewriteRule (.+)/feed /$1 RewriteRule (.+)/attachment /$1 RewriteRule (.+)/comment-page /$1 RewriteRule (.+)/comments /$1 RewriteRule (.+)/trackback /$1 RewriteCond %{QUERY_STRING} ^attachment_id= RewriteRule (.*) $1?

Теперь, что еще осталось сделать, это добавить следующий код в файл functions.php:

Function add_meta_noindex_nofollow () { if (is_paged()) { echo "".""."\n"; } } add_action("wp_head", "add_meta_noindex_nofollow", 3);

Код вешаем на хук wp_head , и теперь на страницах с пагинацией будет выводиться meta-тег, запрещающий их индексацию.