Содержание
- Блокировка и удаление страниц с помощью файла robots.txt
- Использование метатега robots для блокирования доступа к сайту
- Влияние внутренних ссылок на индексацию сайта
- Итоги — или что сделать, чтобы стало все круто?
- Что такое индексация сайта и краулинговый бюджет?
- Способы управления индексацией сайта
- Какие страницы необходимо закрывать от индексации?
- Проверка проиндексированных страниц
- Использование поисковых операторов
- Проверка индексации с помощью RDS бара
- Программы для проверки индексации
- Причины выпадения страниц из индекса
- Методы ускоренной индексации
- Заключение
- Закрытие от индексации страниц сайта
- Закрытие от индексации элементов на страницах сайта
В |
|
|
Редактировалось: 2 раз (Последний: 22 марта 2018 в 21:42) |
|
Другие адреса из этого фильтра какие? Из них и надо создать маску. |
|
Вадим Нарочный, Вы можете объяснить, почему не хотите, чтобы Яндекс индексировал эти страницы? А что, если запретить индексировать страницы категорий, например, или записей? А то ишь чего удумал, индексирует, понимаешь, сайт, гаденыш! У меня на одном сайте, где всё на фильтрах устроено, со страниц фильтрации 70%трафика идет. Надо тоже запретить. |
|
Вадим Нарочный, Вы можете объяснить, почему не хотите, чтобы Яндекс индексировал эти страницы? А что, если запретить индексировать страницы категорий, например, или записей? А то ишь чего удумал, индексирует, понимаешь, сайт, гаденыш! У меня на одном сайте, где всё на фильтрах устроено, со страниц фильтрации 70%трафика идет. Надо тоже запретить. Большое спасибо за Вашу язвительность! Дело в том, что пользователь попадет на страницу например с включенным фильтром, и как обычно этого не заметит (пользователи они такие) и может упустить какой-то материал и быстро покинуть сайт, что отрицательно повлияет на ПФ. К тому же, зачем весь этот мусор с одинаковыми заголовками. |
|
?genres ?countries ?language ?audio_quality Перед ними что стоит? films ? Так и запретите одним правилом: А вообще, да, зачем запрещаете? если показывает что они являются дублем (с одним тайтлом) других страниц, тогда возможно надо запретить. Но если они не являются дублями, тогда зачем запрещать? может быть действительно в поиске будут хорошо ранжироваться и трафик будет. ЗЫ: только смотрите что бы под эту маску: Нужного ничего не попало. подходило. Редактировалось: 2 раз (Последний: 22 марта 2018 в 22:04) |
|
Так и запретите одним правилом: Спасибо, сделаю так. С одинаковым тайтлом |
|
Спасибо, сделаю так. Повторю, смотрите что бы под это правило не попали нужные адреса, я ваш сайт не знаю. Обычно, берут в панеле вебмастера (или спец программах) смотрят и выписывают адреса ненужных дублей страниц. Потом по ним составляют маски. Если маска не получается, запрещают конкретные адреса. |
|
С одинаковым тайтлом И что? Контент ведь разный, в зависимости от фильтров. пользователь попадет на страницу например с включенным фильтром, и как обычно этого не заметит (пользователи они такие) и может упустить какой-то материал и быстро покинуть сайт, что отрицательно повлияет на ПФ По-другому пользователь может вообще не попасть на Ваш сайт. А покинуть его может и с главной страницы. Но на странице с фильтрацией он с большой долей вероятности найдет именно то, что его интересует. И тем самым улучшит ПФ. Да, еще. Поисковики уже давно стали сами отлично удалять из выдачи дубли и другой мусор. А запрещая к индексации всё подряд, Вы запрещаете пользователям Вас найти по определенным запросам. Всё, ушел. |
|
Хостинг и ВПС Халява тексты Стартапы Instantcms в Telegram |
|
|
|
Так будет правильно? – Disallow: /upload* Disallow: /upload/* слэш после upload “недостаточно качественная”. Т.е., выкинул их прямые УРЛы типа сайт/upload/000/u1/64/49/хххххх.jpg Может быть я не понял, но из индекса он выкинул наверное, СТРАНИЦЫ на которых были эти картинки, а не картинки. В таком случае закрытие upload ничего не даст, надо закрывать эти страницы. с пометкой “недостаточно качественная”. Т.е., Само по себе, если таких страниц в % отношении на сайте не много, это не критично. Нашел вот вам картинку в поиске подходящую, сам текст долго искать не стал… |
|
Редактировалось: 1 раз (Последний: 7 мая 2018 в 21:08) |
|
Если закрыть папку upload, то на индексацию страниц это никак не скажется? Не знаю…, но я бы папку с картинками не закрывал от индексации. Раз у Вас их УРЛы индексирует, значит какие то изображения он наверное считает качественными, а какие то нет… Вы посмотрите, по каким признакам он их различает, может у них нет описаний alt, title Выкинул из индекса именно прямые урлы изображений. Необходимость их присутствия в индексе мне вообще непонятна. Ему тоже наверное не понятна) вот он их и выкинул, но я же дал картинку в посту выше, что само по себе наличие пометки “недостаточно качественная” не повод от них избавляться. Их нет в индексе выдаче ни по каким ключам (нет спроса) и только. Но может кто скажет другое… Редактировалось: 2 раз (Последний: 7 мая 2018 в 22:38) |
|
Нужны ли они вообще в индексе (склоняюсь к тому, что не нужны) Так гляньте в метрике заходы. В принципе я видел примеры когда в день по 5-7 тысяч человек заходило с картинок поиска. У вас метрика скажет работал ли картиночный трафик и что вы потеряете. Хостинг и ВПС Халява тексты Стартапы Instantcms в Telegram |
Перейти на форум: |
Страницы: 1 2 3 Следующая Последняя Быстрый ответ Чтобы писать на форуме, зарегистрируйтесь или авторизуйтесь. Главная » SEO Блог » SEO » Опубликовано: 27 января 2012 / Обновлено: 19 мая 2020
Привет, ребята. Как и обещал, сегодня пойдет речь про тонкости и особенности индексации сайтов в поисковых системах. Мысли к написанию данного поста мне навеяло развязное поведение роботов Google – наверное, многие заметили, что Гугл индексирует все, что ему только вздумается, не смотря на различные запреты, например, в robots.txt.
Но ведь все мы хотим сделать своим сайтам «красиво», чтобы количество полезных существующих (загруженных) роботом страниц равнялось количеству проиндексированных поисковиком, а количество страниц из дополнительного индекса Google (supplemental) сводилось к минимуму.
Блокировка и удаление страниц с помощью файла robots.txt
Предлагаю начать с разговора о файле robots.txt, как о самом популярном способе запрета индексации страниц сайта.
Сразу приведу несколько выдержек из справки для вебмастеров от Google:
Файл robots.txt ограничивает доступ роботов, сканирующих Интернет для поисковых систем, к вашему сайту. Перед обращением к страницам сайта эти роботы автоматически ищут файл robots.txt, который запрещает им доступ к определенным страницам.
Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. Если вы хотите, чтобы поисковые системы включали в свои индексы все содержание вашего сайта, файл robots.txt (даже пустой) не требуется.
Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL-адреса, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.
Вот, последняя выдержка самая интересная, из которой понятно, что Google может игнорировать директивы из файла robots.txt. И, как показывает практика, в индекс очень часто попадают адреса страниц, запрещенные в robots.txt, даже при условии отсутствия на них внешних/внутренних ссылок.
Кстати, в руководство Гугла стоило бы добавить, что не только «URL-адреса, обнаруженные на других страницах в Интернете», но и внутренние ссылки приводят к индексации запрещенных страниц, но об этом чуть позже.
На удивление, информация обо всех адресах хранится в Гугле, наверное, веками. У меня есть сайт, на котором уже лет 5 назад сменилась CMS, а вметсе с ней и все url, и старых адресов уже нигде нет, но Гугл помнит эти адреса если пошерстить доп. индекс 🙂
В Яндексе с этим дела получше, все страницы, закрытые через роботс, НЕ попадают в основной индекс Яндекса, однако роботом просматриваются и загружаются, это наглядно видно в панели вебмастера, где, например, можно наблюдать такое: Загружено роботом — 178046 / Страниц в поиске — 72437. Разумеется, причина такого расхождения аж в 100к страниц не полностью следствие запрещения страниц через robots.txt, здесь есть и 404 ошибки, например, и другие неполадки сайта, которые могут случаться по различным причинам.
Но это не страшно, вот выдержка из руководства для вебмастеров от Яндекса:
В разделе «Исключённые страницы» отображаются страницы, к которым обращался робот, но по тем или иным причинам принял решение не индексировать их. В том числе, это могут быть уже несуществующие страницы, если ранее они были известны роботу. Информация об причинах исключения из индекса хранится в течение некоторого времени, пока робот продолжает их проверять. После этого, если страницы по-прежнему недоступны для индексирования и на них не ведут ссылки с других страниц, информация о них автоматически удаляется из раздела «Исключённые страницы». Наличие и количество исключенных страниц не влияет на ранжирование сайта в поиске по запросам.
По аналогии с Гуглом тут имеет место быть влияние внешних/внутренних ссылок.
Резюмируя вышесказанное:
Для Яндекса robots.txt запрещает индексацию (в данном случае под этим словом подразумеваем отображение в результатах поиска) закрытых страницы, но не запрещает их загрузку роботами. Такие страницы видны только владельцу сайта в панели вебмастера в разделе «Исключенные страницы».
Для Google robots.txt частично запрещает индексацию страниц, робот их загружает и может отображать в дополнительном индексе, закрытые страницы не отображаются в основном индексе, но все они доступны при изучении дополнительной выдачи (supplemental). Насколько это плохо или хорошо — не известно — в мануалах Гугла такой информации не нашлось. Надеюсь, что это никак не влияет на ранжирование в плохую сторону.
Рекомендую к прочтению:
- Мануал Яндекса «Использование robots.txt»
- Мануал Google «Блокировка и удаление страниц с помощью файла robots.txt»
Плавно переходим к следующему пункту про метатег robots.
Использование метатега robots для блокирования доступа к сайту
Данный метод запрета индексации страниц сайта встречается гораздо реже в повседневной жизни. Как следствие происходит это из-за что разработчики большинства CMS просто не обращают на это внимания/забывают/забивают. И тогда ответственность за поведение роботов на сайте полностью ложится на плечи вебмастеров, которые в свою очередь обходятся простейшим вариантом – robots.txt.
Но продвинутые вебмастера, которые в теме особенностей индексации сайтов и поведения роботов, используют метатег robots.
И снова небольшая выдержка из руководства от Google:
Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex. Если робот Googlebot начнет сканировать страницу, то обнаружит метатег noindex и не станет отображать ее в индексе.
Внушает оптимизм, не правда ли? И еще:
Обратите внимание: чтобы увидеть тег noindex, мы должны просканировать вашу страницу, поэтому существует небольшая вероятность, что поисковый робот Googlebot не увидит метатег noindex и не отреагирует на него. Кроме того, если вы заблокировали эту страницу с помощью файла robots.txt, мы также не сможем увидеть этот тег.
Следовательно, все страницы, которые мы хотим запретить к индексации, а так же исключить их из индекса, если они уже проиндексированы (насколько я понял, это касается и доп. индекса Гугла), необходимо на всех таких страницах поместить метатег />
. Что еще более важно, эти самые страницы не должны быть закрыты через robots.txt!
Немного побуду кэпом и расскажу, какие еще значения (content=”…”) может принимать мататег robots:
- noindex – запрещает индексацию страницы
- nofollow – запрещает роботу следовать по ссылкам на странице
- index, follow – разрешает роботу индексацию страницы и переход по ссылкам на этой странице
- all – аналогично предыдущему пункту. По большому счету, бесполезная директива, эквивалентна отсутствию самого метатега robots
- none – запрет на индексацию и следование по ссылкам, эквивалентно сочетанию noindex,nofollow
- noarchive – запрет поисковику выводить ссылку на кеш страницы (для Яндекса это «копия», для Google это «сохраненная копия»)
Так как в справке Яндекса нижеследующие параметры не описаны, то они, скорее всего, там и не сработают. Так что эти параметры только для Google:
- noimageindex – запрет на индексацию изображений на странице
- nosnippet – запрет на вывод сниппета в результатах поиска (при этом так же удаляется и сохраненная копия!)
- noodp – запрет для Google на вывод в качестве сниппета описания из каталога DMOZ
Вроде все, осталось только сказать, что количество пробелов, положение запятой и регистр внутри content=”…” здесь не играет никакой роли, но все же для красоты лучше писать как положено (с маленькой буквы, без пробелов и разделяя атрибуты запятой).
Короче говоря, чтобы полностью запретить индексацию ненужных страниц и появление их в поиске необходимо на всех этих страницах разместить метатег />
.
Так что если вам известны все страницы (наборы страниц, категории и т.д.), которые не должны попасть в индекс и есть доступ к редактированию их содержания (конкретно, содержания внутри тега ), то можно обойтись без запрещающих директив в файле robots.txt, но разместив на страницах метатег robots. Данный вариант, как вы понимаете, является эффективным и предпочтительным.
Однажды я задавал службе поддержки Яндекса следующий вопрос: 1. Играет ли пробел роль в коде . То есть, есть ли разница как писать noindex, nofollow или noindex,nofollow — в первом случае после запятой идет пробел, во втором случае директивы без пробела. Важно ли это или нет? 2. И второй вопрос. Если, допустим, на странице по какой-то причине указаны два метатега robots, например, в такой последовательности: Какие правила применит робот в этом случае?
И получил следюущий ответ: 1. Пробел роли не играет. 2. Последовательность роли не играет. При наличии одновременно запрещающего и разрешающего мета-тега будет учтен разрешающий.
Рекомендую к прочтению:
- Мануал Google «Блокировка индексирования при помощи атрибута noindex»
- Мануал Яндекса «Как удалить страницы из поиска»
Итак, у нас остался последний нераскрытый вопрос, и он о внутренних ссылках.
Влияние внутренних ссылок на индексацию сайта
Внутренние ссылки являются основной и практически единственной причиной того, что нам приходится закрывать ненужные и попавшие в индекс страницы разными метатегами и директивами robots.txt. Однако реальность такова, что ненужные роботам страницы очень даже нужны пользователям сайта, а следовательно должны быть и ссылки на эти самые страницы.
А что же делать? При любом варианте запрета индексации ссылок (rel=”nofollow”) и страниц (robots.txt, meta robots), вес сайта просто теряется, утекает на закрытые страницы.
Вариант №1. Большинство распространенных CMS имеют возможность использования специальных тегов (в DLE точно это есть, я сам этим очень активно пользуюсь) при создании шаблонов оформления, которые позволяют регулировать вывод определенной информации. Например, показывать какой-либо текст только гостям или группе пользователей с определенным id и т.д. Если таких тегов вдруг нет, то наверняка на помощь придут логические конструкции (такие конструкции есть в WordPress, а так же форумных движках IPB и vbulletin, опять же, я сам пользуюсь этими возможностями), представляющие из себя простейшие условные алгоритмы на php.
Так вот, логично было бы скрывать неважные и ненужные ссылки от гостей (обычно эту роль играют и роботы при посещении любого сайта), а так же скрывать ссылки на страницы, которые выдают сообщение о том, что вы не зарегистрированы, не имеете прав доступа и все такое. При необходимости можно специально для гостей выводить блок с информацией о том, что после регистрации у них появится больше прав и возможностей, а значит и соответствующие ссылки появятся 😉
Но бывают такие моменты, что ссылку нельзя скрыть или удалить, потому что она нужна, и нужна сразу всем – гостям, пользователям… А вот роботам не нужна. Что делать?
Вариант №2. В редких случаях (хотя последнее время все чаще и чаще) бывает необходимо, чтобы ссылки или даже целые блоки сайта были недоступны и невидны роботам, а вот людям отображались и работали в полной мере, вне зависимости от групп и привилегий. Вы уже, наверное, догадались, что я говорю про сокрытие контента при помощи JavaScript или AJAX. Как это делается технически, я не буду расписывать, это очень долго. Но есть замечательный пост Димы Dimox’а о том, как загрузить часть контента с помощью AJAX на примере WordPress (линк). В примере рассказывается про подгрузку целого сайдбара, но таким же методом можно подгрузить одну только ссылку, например. В общем, немного покопаетесь и разберетесь.
Так вот, если хочется какую-то часть контента роботам не показывать, то лучший выбор – JavaScript. А после того как провернете всю техническую часть, проверить это на работоспособность поможет замечательный плагин для FireFox под названием QuickJava. Просто с помощью плагина отключите для браузера обработку яваскрипта и перезагрузите страницу, весь динамически подгружаемый контент должен пропасть 😉 Но помните, что тут тоже надо знать меру!
И, кстати, еще парочка интересных моментов, которые необходимо знать:
Яндексу в индексации сайтов помогает Яндекс.Метрика, которая автоматически пингует в индекс все посещенные страницы, на которых установлен код Метрики. Но эту функцию можно отключить при получении кода счетчика, установив соответсвующую галочку.
Возможно как то в индексации замешаны Яндекс.Бар и сборка браузера Хром от Яндекса, но в этом я не уверен.
Но вот для Гугла есть информация, что роль поискового робота выполняет сам браузер Google Chrome. Такие уж они хитрецы.
Так что, как видим, скрыть информацию от роботов почти невозможно, если не предпринимать специальные меры.
Итоги — или что сделать, чтобы стало все круто?
Наконец-то я могу подвести итог сегодняшнего огромного поста, и он будет кратким.
Чтобы улучшить качество индексации сайта, необходимо:
- Скрыть от гостей (к ним относятся и роботы) ссылки, которые им не нужны или не предназначены.
- Ссылки, которые нельзя удалить или спрятать от живых посетителей, стоит скрыть и выводить через JavaScript.
- Если ничего из перечисленного невозможно или не получается, то хотя бы необходимо закрыть ссылки на ненужные страницы атрибутом rel=”nofollow”. Хоть польза от этого и сомнительная, но все же…
- Страницы, которые не должны быть проиндексированы и не должны попасть в индекс поисковых систем, стоит запрещать при помощи метатега robots и параметра noindex:
/>
- Страницы, содержащие тег robots не должны быть запрещены к индексации через robots.txt
Что даст нам весь этот «улучшайзинг»:
- Во-первых, чистота индекса сайта, что в наше время очень редко и почти не встречается.
- Во-вторых, быстрота индексации/переиндексации сайта увеличится за счет того, что робот не будет загружать страницы, которые закрыты для него.
- В-третьих, сохранится какая-то часть статического веса сайта, которая раньше утекала по ссылкам на закрытые страницы, а это может положительно отразится на ранжировании сайта.
- В-четвертых, это просто круто и говорит об уровне профессионализма вебмастера.
Фуф, два дня (а точнее — две ночи) писал этот пост и никак не мог дописать, но я это сделал! Потому жду ваших отзывов и комментариев.
Если у кого-то есть практический опыт по теме, обязательно поделитесь им со мной и другими читателями, это будет очень интересно и полезно.
Всем спасибо за внимание и до скорой встречи!
Александр «АлаичЪ» Алаев
Вот уже 16 лет я профессионально занимаюсь созданием и продвижением сайтов и 12 лет с удовольствием пишу в любимый блог. Создал заслужившие доверие в seo-сообществе программы FastTrust и ComparseR и известный сервис для проверки траста сайтов CheckTrust.ru.
В 2014 основал веб-студию «АлаичЪ и Ко» в Краснодаре: 1 место в рейтинге агентств интернет-маркетинга (Рейтинг Рунета), 2 место в рейтинге SEO-компаний (CMSmagazine), 12 место в рейтинге известность бренда SEO-компаний в России (SeoNews).
Выступаю на профильных конференциях (All In Top, SEO Conference, SEMPRO, Baltic Digital Days). Веду канал в telegram про seo и бизнес. SEO-специалист года 2019 и 2020 (Sape).
Подписка на новые посты:
Важной составляющей при поисковой оптимизации является работа с внутренними факторами. К таким факторам относят, в том числе, управление индексацией ресурса – настройка его взаимодействия с роботами поисковых систем. Данный вопрос функционирования сайта необходимо решать еще на этапе проектирования, что позволит избежать проблем с продвижением в дальнейшем.
Что такое индексация сайта и краулинговый бюджет?
Индексация сайта – это процесс обхода страниц веб-ресурса поисковыми роботами и внесение полученной информации в базу поисковых систем, и для того, чтобы ресурс появился в выдаче Яндекса или Google необходимо, чтобы он был просканирован и добавлен в их индекс.
Поисковые роботы посещают регулярно страницы ресурса, но то, с какой периодичностью они это делают, зависит от нескольких факторов:
- частота изменения контента;
- количество страниц на сайте;
- объем трафика.
О новых страницах поисковые роботы узнают из ссылок, которые появляются на ранее известных им документах, а также по трафику на них с различных источников.
При этом необходимо учитывать, что за один заход робот обрабатывает некоторое количество страниц сайта. Такое явление связано с тем, что поисковые роботы не хотят перенагружать сервер своими запросами. Но каким образом определяется этот лимит загружаемых документов?
В начале 2017 года представитель компании Google Гэри Илш рассказал про такое понятие как Краулинговый бюджет, который объединяет в себе такие показатели: скорость сканирования сайта и краулинговый спрос (количество документов, которое хочет обойти робот Google, основанное на популярности ресурса и актуальности контента). Под краулинговым бюджетом Google подразумевает количество страниц сайта, которые может обойти Googlebot.
Внутренние факторы сайта, которые уменьшают показатель краулингового бюджета (по версии Google):
- доступные к индексации документы, в адресе которых указаны идентификаторы сессий, переменные фильтрации или поиска, UTM-метки;
- дубли страницы;
- документы с 404-откликом сервера;
- страницы с низкокачественным и спамным контентом.
Способы управления индексацией сайта
Для того чтобы оптимизировать расход краулингового бюджета необходимо корректно управлять индексацией сайта – давать возможность индексировать роботам только те страницы, которые важны для продвижения ресурса.
Канонические страницы
С помощью настройки канонического адреса (canonical) можно явно поисковым системам указать, какая страница является предпочтительной для индексации. Настраивать атрибут canonical необходимо в том случае, если на сайте присутствуют документы с одинаковым содержанием:
- страницы пагинации;
- страницы с UTM-метками;
- страницы фильтрации;
- и др
Для настройки канонических страниц необходимо в разделе head указать следующий код:
Если страница должна участвовать в поиске, то в атрибуте href указывается ее url, если не должна и является полным или частичным дублем, то в атрибуте href указывается адрес канонического документа.
Robots.txt
С помощью файла robots.txt, который находится в корне сайта, можно управлять поисковыми роботами:
- Директива Disallow закрывает от индексации указанные страницы;
- User-Agent позволяет указать поисковую систему, для которой написаны инструкции индексации;
- Crawl-delay задает частоту обращения роботов к страницам ресурса (Google пропускает данную инструкцию);
- Clean-param запрещает к индексации страницы с указанными динамическими параметрами.
Подробнее о настройке файла robots.txt можно найти в нашей статье: http://promo.altera-media.com/information/expert/pravilnaya-nastrojka-robots-txt/.
Мета-тег Robots
Данный мета-тег предназначен для управления индексацией конкретной страницы. Для настройки мета-тега необходимо в разделе head указать:
Список параметров мета-тега robots:
- index — разрешение на индексирование документа;
- noindex — запрет на индексирование документа;
- follow — разрешение на следование по ссылкам на странице;
- nofollow — запрет на следование по ссылкам на странице;
- all — равносильно указанию content=”index, follow”;
- none — равносильно указанию content=”noindex, nofollow”.
Отсутствие мета-тега в коде страницы расценивается как автоматическое разрешение на индексацию документа и следование по ссылкам.
Важно учитывать, что при закрытии страницы от индексации таким образом – робот все равно “тратит” свой краулинговый бюджет на ее прочтение, лучше всего данный мета-тег использовать для запрета перехода по ссылкам.
Какие страницы необходимо закрывать от индексации?
От индексации поисковыми системами следует закрывать следующие типы страниц:
- Для страниц пагинации следует указывать канонический адрес (не стоит закрывать такие их с помощью мета-тега robots или robots.txt: широкий ассортимент – один из важных коммерческих факторов);
- Технические страницы (без полезного контента) следует закрывать в robots.txt;
- Страницы персональной информации (личный кабинет, регистрации и др.) стоит закрывать в robots.txt:
- Для страниц, которые формируются при сортировке товаров в каталоге, стоит указывать канонический адрес;
- Страницы версии для печати стоит закрывать в robots.txt;
- Страницы с результатами поиска по сайту стоит закрывать в robots.txt и с помощью тега robots, если их нельзя оптимизировать под получение дополнительного трафика.
Грамотное управление индексацией поможет оптимизировать краулинговый бюджет и направить лимиты на продвигаемые страницы ресурса.
Проверка проиндексированных страниц
Для проверки корректной индексации ресурса можно воспользоваться несколькими способами.
Проверка индексации в панелях Вебмастера Яндекса и Google
В Яндекс Вебмастере в разделе Индексации есть возможность проанализировать индексацию ресурса:
- просмотреть общее количество страниц, проиндексированных поисковой системой;
- настроить отслеживание изменений на важных страницах (изменение ответа сервера, выпадение из индекса);
- проверить статус индексации отдельных документов:
- узнать причины выпадения страниц из поиска. Причинами могут быть:
- наличия дубля;
- неверный отклик;
- неканоническая;
- запрет для индексации в robots.txt
Владея этой информацией можно оперативно устранять ошибки на сайте для возврата необходимых страниц в индекс поисковой системы Яндекс.
Google, к сожалению, не обладает столь удобным инструментом для анализа проиндексированных документов. С помощью консоли Google для вебмастеров можно посмотреть:
- Количество проиндексированных страниц;
- Количество закрытых страниц в файле robots.txt:
Использование поисковых операторов
Поисковые системы разработали специальные поисковые операторы, позволяющие уточнять поисковой запрос. Например, с помощью оператора «site:» можно узнать приблизительное количество проиндексированных страниц.
Большая разница между количеством проиндексированных страниц в Яндексе и в Google может свидетельствовать о том, что у сайта проблемы с технической оптимизацией.
С помощью оператора url: в Яндексе можно проверить проиндексирована ли конкретная страница:
Проверка индексации с помощью RDS бара
Панель инструментов RDS бар — это плагин для браузеров Google Chrome и Mozilla Firefox, который в браузере отображается в виде дополнительной панели инструментов. Данный плагин позволяет быстро просмотреть основные показатели ресурса:
- количество проиндексированных страниц в Яндексе и в Google;
- проиндексирована ли текущая страница в Яндексе и в Google;
Программы для проверки индексации
Для автоматизации процесса анализа внутренних ошибок веб-ресурса и проблем индексации существуют специальные инструменты – парсеры сайта и индекса поисковых систем:
- Netpeak Spider – программа позволяет проверить отклики страниц, посмотреть канонические адреса, закрыта ли страница в robots.txt или с помощью мета-тега robots:
- Comparser – специализированная программа для глубокого анализа индексации сайта, которая позволяет выполнять следующие операции:
- сканирование страниц всего веб-ресурса (откликов и канонических адресов);
- сканирование индекса поисковых систем (Яндекс и Google);
- поиск страниц, которые есть в индексе поисковых систем, но на сайте на них отсутствуют внутренние ссылки;
- автоматическое удаление ненужных страниц из индекса Яндекса и Google.
Причины выпадения страниц из индекса
Большое количество выпавших посадочных страниц из поиска Яндекса и Google приводит к падению позиций сайта и трафика. Можно выделить несколько основных причин выпадения страниц из индекса поисковых систем:
- 301 или 302 отклик (настроены редиректы на другой документ);
- Наличие дублей (например, страницы пагинации, фильтрации, сортировки и другие типы страниц, где дублируются мета-данные и контент);
- Ошибочное закрытие раздела сайта или страницы в файле robots.txt или мета-тегом robots;
- 404 отклик;
- 5xx отклик, говорящий о том, что есть сбои в работе хостинга или CMS, из-за чего страницы длительное время недоступны для роботов поисковых систем.
Для предотвращения выпадения посадочных страниц ресурса из индекса поисковых систем следует следить за технической оптимизацией сайта и своевременно устранять возникающие ошибки. Но если, поисковая система удалила страницу из поиска, то следует воспользоваться следующим алгоритмом:
- Определить причину выпадения из индекса;
- Устранить причину;
- Отправить выпавшую страницу на индексацию (переиндексацию).
Методы ускоренной индексации
Если страница новая или отсутствует в индексе по какой-то причине (и причина выпадения из индекса исправлена), то с помощью следующих способов, можно ускорить добавление ее в индекс:
- Указание страницы (страниц) в файле sitemap.xml с датой обновления и приоритетом на индексирование;
- Отправка в инструмент “Переобход страниц” в Яндексе;
- Размещение ссылок на документ на внешних ресурсах;
- Размещение ссылок на документ в социальных сетях;
- Получение моментального трафика с хорошей активностью, где источником трафика может быть даже e-mail-рассылка;
- Корректная настройка внутренней перелинковки на сайте.
Заключение
Управление индексацией – важная часть работы при продвижении. В отличие от работы с внешними факторами поисковой оптимизации – возможность влиять на индексацию страниц всегда доступна и изменения быстрее отражаются в индексе поисковых систем, но лучше всего предусмотреть грамотное взаимодействие сайта с поисковыми роботами еще на этапе разработки ресурса.
Важно вовремя отслеживать все внутренние ошибки на сайте, чтобы иметь возможность быстро их устранить до того, как поисковые системы удалят страницы из индекса. А если это уже произошло – необходимо оперативно отправить выпавшие (либо новые) страницы на индексацию.
Отправим материал вам на EMail: Время чтения: 5 мин.
Цель данной статьи — показать все способы с помощью которых можно закрыть сайт, страницы или части страницы от индексации. В каких случаях какой метод лучше использовать и как правильно объяснить программисту, что ему нужно сделать, чтоб правильно настроить индексацию поисковыми системами.
Закрытие от индексации страниц сайта
Существует три способа закрытия от индексации страниц сайта:
- создание корневого файла robots.txt;
- использование служебного файла сервера Apache.
Это не взаимоисключающие опции, чаще всего их используют вместе.
Закрыть сайт от индексации с помощью robots.txt
Файл robots.txt располагается в корне сайта и используется для управления индексированием сайта поисковыми роботами. С помощью набора инструкций можно разрешить либо запретить индексацию всего сайта, отдельных страниц, каталогов, страниц с параметрами (типа сортировки, фильтры и пр.). Его особенность в том, что в robots.txt можно прописать четкие указания для конкретного поискового робота (User-agent), будь то googlebot, YandexImages и т.д.
Для того, чтобы обратиться сразу ко всем поисковым ботам, необходимо прописать диерективу «User-agent: *». В таком случае, поисковик прочитав весь файл и не найдя конкретных указаний для себя, будет следовать общей инструкции.
Все о файле robots.txt и о том, как его правильно составить читайте здесь, а также рекомендации по использованию этого файла от Яндекс и Google.
Например, ниже приведен файл robots.txt для сайта «Розетки»:
Как видим, сайт закрыт от индексации для поисковой системы Yahoo!
Зачем закрывать сайт от поисковых систем?
Лучше всего Robots.txt использовать в таких случаях:
- при полном закрытии сайта от индексации во время его разработки;
- для закрытия сайта от нецелевых поисковых систем, как в случае с Розеткой, чтоб не нагружать «лишними» запросами свои сервера.
Во всех остальных случаях лучше использовать методы, описанные ниже.
Запрет индексации с помощью мeтa-тега «robots»
Meta-тег «robots» указывает поисковому роботу можно ли индексировать конкретную страницу и ссылки на странице. Отличие этого тега от файла robots.txt в том, что невозможно прописать отдельные директивы для каждого из поисковых ботов.
Есть 4 способа объяснить поисковику как индексировать данный url.
1. Индексировать и текст и ссылки
index, follow«> (используется по умолчанию) эквивалентна записи <</em>META NAME=»Robots» CONTENT=»ALL»>
2. Не индексировать ни текст, ни ссылки
noindex, nofollow«>
Данный вариант можно использовать для конфиденциальной информации, которая не должна находится через поисковую систему, информация необходимая посетителям сайта, но поисковые системы могут наложить за нее санкции, например дубликаты страниц, пересечения фильтров в интернет-магазине и.т.п.
3. Не индексировать на странице текст, но индексировать ссылки
noindex,follow«>
Такая запись означает, что данную страницу индексировать не надо, а следовать по ссылкам с данной страницы для изучения других страниц можно. Это бывает полезно при распределения внутреннего индекса цитирования (ВИЦ).
4. Индексировать на странице текст, но не индексировать ссылки
index, nofollow«>
Этот вариант можно применять для сайтов, на которых очень много ссылок на другие источники, например, сайты СМИ. Тогда поисковик проиндексирует страницу, но по ссылке переходить не будет.
Что выбрать мета-тег «robots» или robots.txt?
Параллельное использование мeтa-тега «robots» и файла robots.txt дает реальные преимущества.
Дополнительная гарантия, что конкретная страница не будет проиндексирована. Но это все равно не застрахует вас от произвола поисковых систем, которые могут игнорировать обе директивы. Особенно любит пренебрегать правилами robots.txt Google, выдавая вот такие данные в SERP (страница с результатами поиска):
В случае, когда в robots.txt мы закрываем какой-то каталог, но определенные страницы из этого каталога нам все-таки нужны для индексации, мы можем использовать мета-тег «robots». Это же работает и в обратном порядке: в индексируемой папке (каталоге сайта) есть страницы, которые нужно запретить для индексации.
Вобщем, необходимо запомнить правило: мета-тег robots является преимущественным по сравнению с файлом robots.txt.
Подробнее об использовании мета-тегов читайте у Яндекса и Google.
Закрыть сайт от индексации с помощью .htaccess
.htaccess – это служебный файл веб-сервера Apache. Мэтт Каттс, бывший руководитель команды Google по борьбе с веб-спамом, утверждает, что использовать .htaccess для закрытия сайта от индексации – это самый лучший вариант и в видео рисует довольный смайлик.
С помощью регулярных выражений можно закрыть весь сайт, его части (разделы), ссылки, поддомены.
Закрытие от индексации элементов на страницах сайта
SEO-тег
SEO-тег
<!—noindex—>Любая часть страницы сайта: код, текст, который нужно закрыть от индексации<!—/noindex—>
Примеры использования тега для закрытия от индексации элементов на страницах сайта:
- нужно скрыть коды счетчиков (liveinternet, тИЦ и прочих служебных);
- запрятать неуникальный или дублирующийся контент (copypast, цитаты и пр.);
- спрятать от индексации динамичный контент (например, контент, который выдается в зависимости от того, с какими параметрами пользователь зашел на сайт);
- чтоб хотя бы минимально обезопасить себя от спам-ботов, необходимо закрывать от индексации формы подписки на рассылку;
- закрыть информацию в сайдбаре (например, рекламный баннер, текстовую информацию, как это сделала Розетка).
” srcset=”https://vlada-rykova.com/wp-content/uploads/2016/06/zakryt-sayt-ot-indeksatsii-2.jpg 938w, https://vlada-rykova.com/wp-content/uploads/2016/06/zakryt-sayt-ot-indeksatsii-2-300×179.jpg 300w, https://vlada-rykova.com/wp-content/uploads/2016/06/zakryt-sayt-ot-indeksatsii-2-260×155.jpg 260w, https://vlada-rykova.com/wp-content/uploads/2016/06/zakryt-sayt-ot-indeksatsii-2-900×536.jpg 900w” sizes=”(max-width: 938px) 100vw, 938px” />
Если к ссылке добавить атрибут rel=»nofollow», тогда все поисковые системы, которые поддерживают стандарты Консорциума Всемирной паутины (а к ним относятся и Яндекс и Google) не будут учитывать вес ссылки при расчете индекса цитирования сайта.
Примеры использования атрибута rel=»nofollow» тега :
- поощрение и наказание комментаторов вашего сайта. Т.е. спамерские ссылки в комментариях либо можно удалять, либо закрывать в nofollow (если ссылка тематична, но вы не уверены в ее качестве);
- рекламные ссылки или ссылки, размещенные «по бартеру» (обмен постовыми);
- не передавать вес очень популярному ресурсу, типа Википедии, Одноклассников и пр.;
- приоритезация сканирования поисковыми системами. Лучше закрыть от перехода по ссылкам для ботов Ваши формы регистрации.
SEOhide
Спорная технология, в сути которой с помощью javacript скрывать от поисковиков ненужный с точки зрения SEO-специалиста контент. А это «попахивает» клоакингом, когда пользователи видят одно, а поисковики – другое. Но давайте посмотрим на плючсы и минусы данной технологии:
Плюсы:
+ корректное управление статическим и анкорным весом;
+ борьба с переспамом (уменьшение количества ключевых слов на странице, так называемый показатель «тошноты» текста);
+ можно использовать для всех поисковых систем без ограничений, как в случае с noindex;
+ практическое использование данной технологии крупными интернет-магазинами.
Минусы:
— вскоре поисковые системы научатся индексировать JS;
— в данный момент данная технология может быть воспринята поисковиками как клоакинг.
Подробнее об этой технологи смотрите в видео:
Эксперт в области интернет-маркетинга. Руководитель маркетингового агентства MAVR.
Бизнес-степень «Мастер делового администрирования» (MBA). Подробнее о Владиславе на сайте МАВР.
Как заполнить свой профиль в LinkedIn за 7 шагов7 привычек успешного копирайтера
ли со статьей или есть что добавить?