disallow robots txt что значит

Директивы Disallow и Allow: как использовать совместно и раздельно

В данной статье речь пойдет о самых популярных директивах Dissalow и Allow в файле robots.txt.

Disallow

Disallow – директива, запрещающая индексирование отдельных страниц, групп страниц, их отдельных файлов и разделов сайта(папок). Это наиболее часто используемая директива, которая исключает из индекса:

Примеры директивы Disallow в robots.txt:

Правило Disallow работает с масками, позволяющими проводить операции с группами файлов или папок.

После данной директивы необходимо ставить пробел, а в конце строки пробел недопустим. В одной строке с Disallow через пробел можно написать комментарий после символа “#”.

Allow

В отличие от Disallow, данное указание разрешает индексацию определенных страниц, разделов или файлов сайта. У директивы Allow схожий синтаксис, что и у Disallow.

Хотя окончательное решение о посещении вашего сайта роботами принимает поисковая система, данное правило дополнительно призывает их это делать.

Примеры Allow в robots.txt:

Для директивы применяются аналогичные правила, что и для Disallow.

Совместная интерпретация директив

Поисковые системы используют Allow и Disallow из одного User-agent блока последовательно, сортируя их по длине префикса URL, начиная от меньшего к большему. Если для конкретной страницы веб-сайта подходит применение нескольких правил, поисковый бот выбирает последний из списка. Поэтому порядок написания директив в robots никак не сказывается на их использовании роботами.

На заметку. Если директивы имеют одинаковую длину префиксов и при этом конфликтуют между собой, то предпочтительнее будет Allow.

Пример robots.txt написанный оптимизатором:

Пример отсортированного файл robots.txt поисковой системой:

Пустые Allow и Disallow

Когда в директивах отсутствуют какие-либо параметры, поисковый бот интерпретирует их так:

Специальные символы в директивах

В параметрах запрещающей директивы Disallow и разрешающей директивы Allow можно применять специальные символы “$” и “*”, чтобы задать конкретные регулярные выражения.

Специальный символ “*” разрешает индексировать все страницы с параметром, указанным в директиве. К примеру, параметр /katalog* значит, что для ботов открыты страницы /katalog, /katalog-tovarov, /katalog-1 и прочие. Спецсимвол означает все возможные последовательности символов, даже пустые.

Примеры:

По стандарту в конце любой инструкции, описанной в Robots, указывается специальный символ “*”, но делать это не обязательно.

Пример:

Для отмены данного спецсимвола в конце директивы применяют другой спецсимвол – “$”.

Пример:

На заметку. Символ “$” не запрещает прописанный в конце “*”.

Пример:

Более сложные примеры:

Примеры совместного применения Allow и Disallow

Я всегда стараюсь следить за актуальностью информации на сайте, но могу пропустить ошибки, поэтому буду благодарен, если вы на них укажете. Если вы нашли ошибку или опечатку в тексте, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Источник

Robots.txt и SEO: Всё что вам нужно знать

disallow robots txt что значит. Смотреть фото disallow robots txt что значит. Смотреть картинку disallow robots txt что значит. Картинка про disallow robots txt что значит. Фото disallow robots txt что значит

Статистика статьи

Показывает, сколько различных веб-сайтов ссылаются на этот контент. Как правило, чем больше сайтов ссылаются на вас, тем выше вы ранжируетесь в Google.

Показывает ежемесячный рассчетный поисковый трафик на эту статью по данным Ahrefs. Фактический поисковый трафик (по данным Google Analytics) обычно в 3–5 раз больше.

Количество ретвитов этой статьи в Twitter.

Поделиться этой статьей

Неправильная конфигурация файла robots.txt — очень распространённое явление даже сред/и опытных SEO специалистов.

В этом руководстве вы узнаете:

Что такое файл robots.txt?

Файл robots.txt сообщает поисковым системам о том, куда им можно и нельзя заходить на сайте.

В первую очередь, в нём перечисляется весь контент, который вы хотите скрыть от поисковых систем вроде Google. Некоторым поисковым системам (не Google) вы также можете указать как они должны сканировать доступный контент.

Большинство поисковых систем послушны. Они обычно не вламываются на сайт. При этом, некоторые не стесняются и обходят условные замки.

Google к ним не относится. Он соблюдает инструкции в файле robots.txt.

Просто имейте в виду, что некоторые поисковики не обращают на него никакого внимания.

Как выглядит файл robots.txt?

Вот базовый формат файла robots.txt:

Если вы никогда раньше не видели этих файлов, они могут вас напугать. Но синтаксис довольно прост. Вкратце, вы указываете правила для бота, указывая директивы для его user-agent.

Давайте изучим оба компонента подробнее.

User-agent

У каждой поисковой системы есть свой особый user-agent. В файле robots.txt вы можете указать инструкции для каждого из них. Есть сотни user-agent. Вот несколько полезных для SEO:

Чтобы обозначить инструкции для всех user-agent, используйте маску со звёздочкой (*).

Например, вы хотите запретить сканировать сайт всем роботам кроме Googlebot. Вот как это сделать:

В вашем файле robots.txt может быть много директив для всех user-agent, которые захотите. При этом, когда вы объявляете нового user-agent, он воспринимает только свои инструкции. Другими словами, если вы добавляете директивы для нескольких user-agent, то директивы для первого не будут работать для второго и последующих user-agent.

Исключением из правила будет случай, когда вы объявляете один и тот же user-agent более одного раза. В таком случае, робот будет следовать всем прописанным для него директивам инструкциям.

Краулеры следуют только тем правилам, которые прописаны под точным названием user-agent. Поэтому файл robots.txt выше блокирует всех роботов кроме Googlebot (и других роботов Google). Googlebot игнорирует более менее конкретное объявление user-agent.

Директивы

Директивы — это правила, которые должен соблюдать user-agent.

Поддерживаемые директивы

Вот список директив и примеры их использования, которые поддерживает Google.

Disallow

Используйте эту директиву, чтобы закрыть поисковым системам доступ к файлам и страницам по определённому пути. Например, если вы хотите закрыть доступ к блогу и всем его страницам для всех поисковых систем, ваш файл robots.txt будет выглядеть примерно так:

Allow

Эту директиву используют для того, чтобы позволить поисковым системам сканировать подпапку или страницу. Даже если в другом месте вы закрыли к ней доступ. Например, если вы хотите запретить поисковым системам сканировать каждый пост в блоге кроме одного, файл robots.txt будет выглядеть как-то так:

И Google, и Bing поддерживают эту директиву.

Если вы будете неосторожны, директивы allow и disallow могут легко конфликтовать друг с другом. В примере ниже мы запрещаем доступ к

В данном случае URL /blog/post-title/ одновременно разрешён и запрещён. Так какая же директива сработает?

Для Google и Bing главной будет та директива, у которой больше символов. В данном случае победит директива disallow.

Disallow: /blog/ (6 символов)

Allow: /blog (5 символов)

Если директивы allow и disallow одинаковой длины, то побеждает менее ограничивающая директива. В данном случае, это allow.

Важно то, что это касается только Google и Bing. Другие поисковые системы слушают первую подходящую директиву. В этом случае это disallow.

Sitemap

Используйте эту директиву, чтобы указать поисковым системам адрес вашей карты сайта. Если вы не знаете, что такое карта сайта, то они обычно перечисляют страницы, которые поисковые системы должны сканировать и индексировать.

Вот пример файла robots.txt c директивой Sitemap.

Насколько важно указывать карту (карты) сайта в файле robots.txt? Если вы её уже указали в поисковой консоли, то для Google этого достаточно. Однако другие поисковые системы, такие как Bing, смотрят расположение карты сайта в файле. Поэтому не стоит забывать об этой директиве.

Обратите внимание, что вам не нужно повторять директиву Sitemap для разных user-agent. Она работает для всех. Поэтому карту сайта лучше указывать в начале, или в конце файла robots.txt. Например:

Google поддерживает директиву sitemap, как и Ask, Bing и Yahoo.

Неподдерживаемые директивы

Вот несколько директив, которые Google больше не поддерживает. Некоторые из них он никогда не поддерживал.

Crawl-delay

Раньше эту директиву можно было использовать для указания задержки сканирования в секундах. Например, если вы хотели, чтоб Googlebot ждал 5 секунд после каждого сканирования, вы бы установили задержку в 5 секунд:

Google больше не поддерживает эту директиву, хотя Bing и Yandex поддерживают.

Тем не менее, будьте осторожны, указывая директиву. Особенно на большом сайте. Если вы выставите задержку в 5 секунд, вы ограничиваете роботов к 17280 URL в день. Если на вашем сайте миллионы страниц, то это не очень полезно. Но если у вас небольшой сайт, то сэкономите немного трафика.

Noindex

Эту директиву Google никогда официально не поддерживал. Однако до недавнего времени считалось, что у Google есть некоторый «код, который обрабатывает неподдерживаемые и неопубликованные правила (такие как noindex)». Поэтому, если вы хотите запретить Google индексировать все посты в вашем блоге, вы можете использовать следующую директиву:

Однако 1 сентября 2019 года Google дал понять, что эта директива не поддерживается. Если вы хотите исключить страницу или файл из поисковых систем, используйте вместо него тег meta robots или HTTP-заголовок x‑robots.

Nofollow

Это еще одна директива, которую Google никогда официально не поддерживал, и она использовалась для того, чтобы запретить поисковым системам переходить по ссылкам на страницах и файлах по определенному пути. Например, если вы хотели запретить Google переходить по всем ссылкам в вашем блоге, вы могли использовать следующую директиву:

Google объявил, что с 1 сентября 2019 года эта директива официально не поддерживается. Если сейчас вы хотите запретить переход по всем ссылкам на странице, следует использовать мета тег robots или заголовок x‑robots. Если вы хотите запретить Google переходить по определенным ссылкам на странице, используйте атрибут ссылки rel = “nofollow”.

Нужен ли вам файл robots.txt?

Многим сайтам, особенно маленьким, не обязательно иметь файл robots.txt.

Тем не менее, нет причины полностью от него отказываться. Он дает вам больше контроля над тем, куда поисковые системы могут и не могут заходить, и это может помочь с такими вещами, как:

Обратите внимание, что хотя Google обычно не индексирует веб-страницы, скрытые в файле robots.txt, это не гарантия того, что эти страницы не появятся в результатах поиска.

Как говорят в Google, если на контент ссылаются с других страниц в интернете, он может появиться в результатах поиска Google.

Как найти файл robots.txt?

Если у вас на сайте уже есть файл robots.txt, он будет доступен по адресу domain.com/robots.txt. Перейдите по URL в браузере. Если вы видите что-то подобное, то файл robots.txt у вас есть:

disallow robots txt что значит. Смотреть фото disallow robots txt что значит. Смотреть картинку disallow robots txt что значит. Картинка про disallow robots txt что значит. Фото disallow robots txt что значит

Как создать файл robots.txt

Продолжайте составлять директивы, пока не будете довольны тем, что имеете. Сохраните ваш файл как «robots.txt».

Продолжайте составлять директивы пока не напишите всё что нужно. Сохраните файл как “robots.txt.”

Также можно использовать генератор robots.txt вроде этого.

disallow robots txt что значит. Смотреть фото disallow robots txt что значит. Смотреть картинку disallow robots txt что значит. Картинка про disallow robots txt что значит. Фото disallow robots txt что значит

Преимущество такого инструмента в том, что он сводит к минимуму синтаксические ошибки. Это хорошо, потому что одна ошибка может привести к плачевным последствиям для SEO вашего сайта. Поэтому стоит быть осторожным.

Недостаток в том, что их сложнее настраивать.

Куда поместить файл robots.txt

Поместите файл robots.txt в корневой каталог поддомена, к которому он применяется. Например, чтобы контролировать сканирование на domain.com, файл robots.txt должен быть доступен по адресу domain.com/robots.txt.

Если вы хотите контролировать сканирование на поддомене вроде blog.domain.com, тогда файл robots.txt должен быть доступен по адресу blog.domain.com/robots.txt.

Лучшие практики robots.txt

Чтобы избежать распространённых ошибок, следуйте этим правилам.

Каждую директиву прописывайте с новой строки

Каждая директива должна быть прописана на новой строке. Иначе поисквые системы её не поймут.

Плохо:

Хорошо:

Используйте маски для упрощения

Маски (*) можно использовать не только для определения всех user-agent, но и для шаблонов URL адресов при объявлении директив. Например, если вы хотите запретить поисковым системам доступ к URL-адресам категорий товаров с параметрами на вашем сайте, вы можете перечислить их следующим образом:

Но это не очень эффективно. Было бы использовать маску, как здесь:

В этом примере поисковым системам запрещается сканировать все URL-адреса в подпапке /product/ со знаком вопроса. Другими словами, любые URL с параметрами категории товаров.

Используйте знак “$” для определения окончания URL адреса

Используйте каждый user-agent не больше одного раза

Если вы указали один и тот же user-agent несколько раз, Google поймёт. Он просто объединит все правила из разных мест в одно и будет следовать им всем. Например, если в вашем файле robots.txt были следующие user-agent и директивы…

… Googlebot не будет сканировать ни одну из подпапок.

Тем не менее, не стоит прописывать user-agent больше одного раза, потому что так вы будете меньше путаться. Другими словами, если всё будет упорядочено и просто, то вы не будете совершать критических ошибок.

Будьте конкретными, чтобы избежать случайных ошибок

Если дать нечёткие инструкции при составлении директив, вы можете легко совершить ошибку. Это может иметь катастрофические последствия для вашего SEO. Предположим, что у вас есть мультиязычный сайт и вы работаете над немецкой версией, которая будет доступна в подпапке /de/.

Поскольку она ещё не полностью готова, вы хотите закрыть поисковым системам доступ к ней.

Файл robots.txt, который вы видите ниже запрещает поисковым системам заходить в эту подпапку и сканировать что-либо в ней:

В данном случае решение простое: добавить в конце косую черту.

Используйте комментарии, чтобы люди могли понимать ваш robots.txt

Комментарии помогают разработчикам понимать ваш файл robots.txt и, возможно, даже вам самим в будущем. Чтобы добавить комментарий, начните строку со знака хеша (#).

Роботы будут игнорировать все строки, которые начинаются с этого символа.

Для каждого поддомена используйте отдельный файл robots.txt

Robots.txt контролирует сканирование только на поддомене, где он размещен. Если вы хотите контролировать сканирование на другом поддомене, вам понадобится отдельный файл robots.txt.

Например, если ваш основной сайт находится на domain.com, а ваш блог — на blog.domain.com, вам понадобятся два файла robots.txt. Один должен идти в корневой каталог основного домена, а другой — в корневой каталог блога.

Примеры файлов robots.txt

Ниже приведены несколько примеров файлов robots.txt. Я их привожу только для примера, но если какой-то вам подходит, скопируйте его в текстовый документ, сохраните как «robots.txt» и загрузите в соответствующий каталог.

Полный доступ для всех роботов

Нет доступа всем роботам

Заблокировать доступ к одной подпапке для всех роботов

Заблокировать доступ к одной подпапке для всех роботов (оставить доступным один файл)

Заблокировать один файл для всех ботов

Заблокировать один тип файлов (PDF) для всех ботов

Запретить сканирование URL адресов с параметрами только для Googlebot

Как найти ошибки в файле robots.txt

В файле robots.txt очень легко допустить ошибку, поэтому стоит за этим следить особенно внимательно.

Для этого следует регулярно проверять отчёт “Покрытие” в поисковой консоли. Ниже мы привели несколько примеров ошибок, которые вы можете увидеть, рассказали что они значат и как их исправить.

Вставьте URL-адрес в инструмент Google для проверки URL-адресов в консоли поиска. Если он заблокирован файлом robots.txt, вы должны увидеть что-то вроде этого:

disallow robots txt что значит. Смотреть фото disallow robots txt что значит. Смотреть картинку disallow robots txt что значит. Картинка про disallow robots txt что значит. Фото disallow robots txt что значит

Доступ к отправленному URL заблокирован в файле robots.txt

disallow robots txt что значит. Смотреть фото disallow robots txt что значит. Смотреть картинку disallow robots txt что значит. Картинка про disallow robots txt что значит. Фото disallow robots txt что значит

Это означает, что по крайней мере один из URL-адресов в карте сайта заблокирован в файле robots.txt.

Если вы правильно создали карту сайта и исключили каноникализированные, noindex и перенаправленные страницы, robots.txt не должен блокировать отправленные страницы. Если они заблокированы, выясните, что это за страницы, затем настройте файл robots.txt соответствующим образом, чтобы удалить запрет для этой страницы.

Чтобы узнать, какая директива блокирует контент, можно использовать инструмент для тестирования robots.txt от Google. Только будьте осторожны. Не допускайте ошибок, которые влияют на другие страницы и файлы.

disallow robots txt что значит. Смотреть фото disallow robots txt что значит. Смотреть картинку disallow robots txt что значит. Картинка про disallow robots txt что значит. Фото disallow robots txt что значит

Заблокированы в файле robots.txt

disallow robots txt что значит. Смотреть фото disallow robots txt что значит. Смотреть картинку disallow robots txt что значит. Картинка про disallow robots txt что значит. Фото disallow robots txt что значит

Это означает, что у вас есть контент, заблокированный в файле robots.txt, который в настоящее время не индексируется в Google.

Если это важный контент и его нужно проиндексировать, удалите запрет сканирования в файле robots.txt. (Также стоит убедиться, что контент не запрещён к индексированию тегом noindex). Если вы запретили доступ к контенту в файле robots.txt чтобы исключить его из индекса Google, удалите запрет сканирования и используйте вместо него метатег robots или x‑robots-header. Это единственный способ гарантированно исключить контент из индекса Google.

Проиндексировано, несмотря на блокировку в файле robots.txt

disallow robots txt что значит. Смотреть фото disallow robots txt что значит. Смотреть картинку disallow robots txt что значит. Картинка про disallow robots txt что значит. Фото disallow robots txt что значит

Это означает, что часть контента, заблокированного robots.txt, все еще находится в индексе Google.

Повторюсь, что если вы хотите исключить контент из результатов поиска Google, robots.txt вам не поможет. Удалите запрет на сканирование и вместо этого используйте мета-тег robots или HTTP-заголовок x‑robots-tag.

Если вы случайно заблокировали этот контент и хотите оставить его в индексе Google, удалите запрет на сканирование в файле robots.txt. Это поможет улучшить видимость контента в поиске Google.

Вот несколько часто задаваемых вопросов, которые не подходят ни одному разделу в нашем руководстве. Если чего-то не хватает, сообщите нам в комментариях и мы обязательно это добавим.

Какой максимальный размер файла robots.txt?

Где находится файл robots.txt в WordPress?

Там же: domain.com/robots.txt.

Как отредактировать файл robots.txt в WordPress?

Либо вручную, либо воспользоваться одним из SEO плагинов для WordPress наподобие Yoast. Он позволяет редактировать файл прямо из админпанели WordPress.

Что будет, если в файле robots.txt запретить доступ к контенту с тегои noindex?

Google не сможет увидеть директиву noindex, потому что он не будет сканировать страницу

А вы знали что нет смысла запрещать доступ к странице с помощью robots.txt disallow & и тегом noindex, потому что Googlebot не увидит noindex? pic.twitter.com/N4639rCCWt

Заключение

Robots.txt — это простой, но важный файл. Используйте его с умом и увидите позитивное влияние на SEO. Используйте его как попало и, ну, сами пожалеете об этом.

Остались вопросы? Оставьте комментарий или напишите мне в Twitter.

Источник

Что такое robots.txt [Основы для новичков]

disallow robots txt что значит. Смотреть фото disallow robots txt что значит. Смотреть картинку disallow robots txt что значит. Картинка про disallow robots txt что значит. Фото disallow robots txt что значит

Подробно о правилах составления файла в полном руководстве «Как составить robots.txt самостоятельно».

А в этом материале основы для начинающих, которые хотят быть в курсе профессиональных терминов.

Что такое robots.txt

Поисковый робот, придя к вам на сайт, первым делом пытается отыскать robots.txt. Если робот не нашел файл или он составлен неправильно, бот будет изучать сайт по своему собственному усмотрению. Далеко не факт, что он начнет с тех страниц, которые нужно вводить в поиск в первую очередь (новые статьи, обзоры, фотоотчеты и так далее). Индексация нового сайта может затянуться. Поэтому веб-мастеру нужно вовремя позаботиться о создании правильного файла robots.txt.

На некоторых конструкторах сайтов файл формируется сам. Например, Wix автоматически создает robots.txt. Чтобы посмотреть файл, добавьте к домену «/robots.txt». Если вы увидите там странные элементы типа «noflashhtml» и «backhtml», не пугайтесь: они относятся к структуре сайтов на платформе и не влияют на отношение поисковых систем.

Зачем нужен robots.txt

Казалось бы, зачем запрещать индексировать какое-то содержимое сайта? Далеко не весь контент, из которого состоит сайт, нужен поисковым роботам. Есть системные файлы, есть дубликаты страниц, есть рубрики ключевых слов и много чего еще есть, что вовсе не обязательно индексировать. Есть одно но:

Содержимое файла robots.txt — это рекомендации для ботов, а не жесткие правила. Рекомендации боты могут проигнорировать.

Google предупреждает, что через robots.txt нельзя заблокировать страницы для показа в Google. Даже если вы закроете доступ к странице в robots.txt, если на какой-то другой странице будет ссылка на эту, она может попасть в индекс. Лучше использовать и ограничения в robots, и другие методы запрета:

Тем не менее, без robots.txt больше вероятность, что информация, которая должна быть скрыта, попадет в выдачу, а это бывает чревато раскрытием персональных данных и другими проблемами.

Из чего состоит robots.txt

Файл должен называться только «robots.txt» строчными буквами и никак иначе. Его размещают в корневом каталоге — https://site.com/robots.txt в единственном экземпляре. В ответ на запрос он должен отдавать HTTP-код со статусом 200 ОК. Вес файла не должен превышать 32 КБ. Это максимум, который будет воспринимать Яндекс, для Google robots может весить до 500 КБ.

Внутри все должно быть на латинице, все русские названия нужно перевести с помощью любого Punycode-конвертера. Каждый префикс URL нужно писать на отдельной строке.

В robots.txt с помощью специальных терминов прописываются директивы (команды или инструкции). Кратко о директивах для поисковых ботах:

«Us-agent:» — основная директива robots.txt

Используется для конкретизации поискового робота, которому будут давать указания. Например, User-agent: Googlebot или User-agent: Yandex.

В файле robots.txt можно обратиться ко всем остальным поисковым системам сразу. Команда в этом случае будет выглядеть так: User-agent: *. Под специальным символом «*» принято понимать «любой текст».

После основной директивы «User-agent:» следуют конкретные команды.

Команда «Disallow:» — запрет индексации в robots.txt

При помощи этой команды поисковому роботу можно запретить индексировать веб-ресурс целиком или какую-то его часть. Все зависит от того, какое расширение у нее будет.

Такого рода запись в файле robots.txt означает, что поисковому роботу Яндекса вообще не позволено индексировать данный сайт, так как запрещающий знак «/» не сопровождается какими-то уточнениями.

На этот раз уточнения имеются и касаются они системной папки wp-admin в CMS WordPress. То есть индексирующему роботу рекомендовано отказаться от индексации всей этой папки.

Команда «Allow:» — разрешение индексации в robots.txt

Антипод предыдущей директивы. При помощи тех же самых уточняющих элементов, но используя данную команду в файле robots.txt, можно разрешить индексирующему роботу вносить нужные вам элементы сайта в поисковую базу.

Разрешено сканировать все, что начинается с «/catalog», а все остальное запрещено.

На практике «Allow:» используется не так уж и часто. В ней нет надобности, поскольку она применяется автоматически. В robots «разрешено все, что не запрещено». Владельцу сайта достаточно воспользоваться директивой «Disallow:», запретив к индексации какое-то содержимое, а весь остальной контент ресурса воспринимается поисковым роботом как доступный для индексации.

Директива «Sitemap:» — указание на карту сайта

« Sitemap:» указывает индексирующему роботу правильный путь к так Карте сайта — файлам sitemap.xml и sitemap.xml.gz в случае с CMS WordPress.

Прописывание команды в файле robots.txt поможет поисковому роботу быстрее проиндексировать Карту сайта. Это ускорит процесс попадания страниц ресурса в выдачу.

Файл robots.txt готов — что дальше

Итак, вы создали текстовый документ robots.txt с учетом особенностей вашего сайта. Его можно сделать автоматически, к примеру, с помощью нашего инструмента.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *