Robots Joomla. Примеры, настройка, исключения и правила. Как создать правильный робот.

Настраиваем правильный robots.txt для Joomla

Доброго времени суток, уважаемые пользователи сайта Max-Joomla.ru. В сегодняшнем  уроке, речь пойдет о таком важном элементе сайта Joomla - как файл robots.txt. Рассмотрим - что такое robots.txt и зачем он используется, примеры запрета индексации, использование директив и специальных символов, проверка и анализ robots в сервисах вебмастера Yandex и Google, полная настройка для сайтов на Joomla.

Также есть готовый вариант, для правильного файла robots.txt.

Что такое Robots.txt и зачем он нужен?

robots.txt - специальный текстовый файл, который содержит в себе "инструкции" для поисковых роботов по индексированию сайта. Где находится robots.txt - сам файл находится в корне вашего сайта, если его нет - откройте любой текстовый редактор и создайте файл с именем robots.txt.

Файл robots.txt - состоит из директив (инструкций) - которые указывают поисковым роботам:

  • Какие разделы, папки, страницы, файлы сайта нужно запретить индексировать (можно запретить индексировать хоть весь сайт).
  • Какое зеркало вашего сайта является главным (например www.site.ru или site.ru).
  • Интервал времени между загрузкой роботом документов с сервера (уменьшает нагрузку на сервер вашего сайта).

Файл robots.txt - должен быть доступным для чтения поисковыми роботами. Посмотреть robots.txt любого сайта вы можете дописав к домену сайта -  /robots.txt. Если такой файл на сайте имеется, то вы сможете его просмотреть.

Для чего нужно запрещать индексацию?

В основном запрет индексации выставляется на:

  • Похожие по содержанию страницы (дубли). Дубли генерируются как сторонними расширениями, так и самой Joomla (в зависимости от настроек). Поисковые системы, особенно Яндекс - очень не любит дубли и может пессимизировать ваш сайт.
  • Конфиденциальную информацию - например, номера телефонов, паспортные данные, личные сообщения и другие.
  • Технические страницы - это такие страницы, которые не несут ни какой полезной информации для пользователей: страница регистрации, версия для печати, профили пользователей, идентификаторы сессий, страница корзины товаров, метки и другие.
  • Необходимые разделы (папки) - которые не желательны к индексированию. Например: папка созданная в корне сайта, в которой находятся скрипты или другие файлы.
  • Файлы с определенным расширением. Например все файлы .pdf.

 Формат файла исключений - robots.txt

  • Файл должен размещаться в корневой директории сайта.
  • Имя файла регистрозависимое - и должно состоять из строчных символов.
  • Файл может содержать в себе одну или несколько записей, которые в свою очередь разделяются пустой строкой.
  • Запись может состоять из одной или более строк директивы User-agent, за которой в свою очередь следует одна или более строк директивы Disallow.
  • Весь текст после знака # - будет считаться комментарием, до конца текущей строки.
  • Если у вас пустой робот или он отсутствует - то это означает, что поисковые роботы могут индексировать ваш сайт полностью, со всеми вытекающими последствиями.

 Синтаксис. Директивы и специальные символы в robots.txt

Первая директива которая прописывается в фале вашего robots.txt - это User-agent. В строке данной директивы указывается имя робота той или иной поисковой системы, для которого и будут задействованы правила данной записи. Например:

User-agent: *

В данном случае, в качестве имя робота у нас используется специальный символ "*" - который означает, что правила записи будут распространяться для всех поисковых роботов.

User-agent: Yandex

Правила записи будут задействованы для поискового робота Яндекса.

Обратите внимание: Записи указанные в вашем robots.txt - для поискового робота Яндекса являются правилами, а вот для поискового робота Google - только рекомендацией. 

Директива Disallow - это основная директива, которая и запрещает поисковым роботам индексировать определенные URL или разделы (папки) сайта. URL - может быть как полным, так и частичным и является регистрозависимым. Примеры:

Disallow: /                         #Запрещает индексировать весь сайт
Disallow: /download/ #Запрещает индексировать корневую папку "download" и все ее содержимое
Disallow: /fail.html #Запрещает индексировать корневой файл "fail.html"

Директива Allow - это нестандартная директива, которая разрешает доступ к определенному URL или папке сайта. Рассмотрим на примере:

User-agent: *
Allow: /spirit
Disallow: /

В нашем примере мы указываем, что для всех поисковых роботов запрещена индексация сайта, кроме страниц начинающееся с /spitit.

Примечание: Если одна страница подпадает под действие двух директив Disallow и Allow, то поисковый робот Яндекса будет учитывать, только ту директиву которая имеет более длинный префикс URL. Пример:

Disallow: /razdel
Allow: /
Allow: /razdel/statya

В нашем случае, все страницы начинающееся с "/razdel" - будут запрещены к индексации, а страницы начинающиеся с "/razdel/statya" - разрешены, так как префикс URL данной директивы длинней.

Директива Crawl-delay - данная директива используется, для задания временного интервала поисковым роботам, между концом закачки одной страницы и началом закачки следующей страницы с сервера. Основное применение данной директивы - уменьшение нагрузки на сервер. То есть поисковый робот скачивает одну страницу, далее ждет определенное время - потом скачивает следующую страницу. Использование директивы подходит для больших сайтов или сайтов со слабым хостингом.

Пример использования директивы Crawl-delay:

User-agent: *
Crawl-delay: 3 # задает таймаут в 3 секунды

Поисковые роботы Яндекса также поддерживают дробные значения директивы Crawl-delay, например 3.5.

Примечание: Директива используется в основном для роботов Яндекса, для Google не подходит. Для западных роботов можно использовать следующую директиву - Request-rate : 1/10 (интервал между загрузками равен 10 секунд).

Директива Clean-param - может использоваться, когда на вашем сайте присутствуют страницы с динамическими параметрами (например идентификаторы сессий, рефов, пользователей). Сами параметры состоят из различных переменных и цифр, которые в свою очередь добавляются к URL адресу страницы. Например:

http://max-joomla.ru/rezultaty-poiska?cx=partner-157

Данная директива относится к поисковому роботу Яндекса и вот для того, что бы робот не индексировал такие страницы с динамическими параметрами, и не нагружал сервер, можно использовать директиву Clean-param. 

Пример с результатами поиска:

Clean-param: rezultaty-poiska/   
#запрет на индексацию всех страниц URL содержащих в себе параметр rezultaty-poiska

Директива Sitemap - прописывается в файле robots.txt, для более быстрого индексирования вашего сайта. То есть данной директивой вы указываете поисковому роботу, где у вас расположена карта сайта в формате sitemaps.xml, в которой в свою очередь содержатся все URL адреса предназначенные для индексирования. Карта в формате sitemaps.xml предназначена только для поисковых роботов, для посетителей она не несет ни какой пользы. Если на сайте несколько карт в формате .xml - укажите все, каждая с новой строки.

Пример использования директивы Sitemap:

Sitemap: http://max-joomla.ru/index.php?option=com_xmap&view=xml&tmpl=component&id=1

Обратите внимание, данная карта сайта также в формате .xml, а генерируется она компонентом Joomla - Xmap. Если вы используете данный компонент у себя на сайте, то посмотреть URL адрес карты в формате .xml, можно зайдя в админ-панель -> Компоненты -> xmap -> и напротив нужной карты сайта нажать на [XML Sitemap], после чего в браузере откроется карта сайта предназначенная для поисковых роботов. URL карты будет такого вида:

http://domen.com/index.php?option=com_xmap&view=xml&tmpl=component&id=1

Данный URL и нужно указывать в файле robots.txt, а также в сервисах Google и Yandex webmaster.

карта сайта xmap  -формат xml

 

Директива Host - предназначена для поисковых роботов Яндекса, а основная ее задача является указание роботам главного зеркала вашего сайта. Главное зеркало вашего сайта и будет участвовать в поисковой выдачи Яндекса. Хотя директива Host не гарантирует выбор главного зеркала указанного в robots.txt, тем не менее директива имеет высокий приоритет.

Если вы установили главное зеркало в панели Яндекс вебмастера, то данное зеркало будет иметь высший приоритет по отношению к директиве Host.

Пример использования директивы Host:

Host: www.moe-glavnoe-zerkalo.ru

На примере выше мы указали яндексу, что главным зеркалом нашего сайта является www.moe-glavnoe-zerkalo.ru, а вот зеркало moe-glavnoe-zerkalo.ru будет другорядным. 

Внимание! Директиву Host нужно добавлять непосредственно в запись, которая начинается с директивы User-agent, сразу после директив 'Disallow'('Allow'). Аргументом директивы Host - является доменное имя (без использования http://). А вот директиву Sitemap - можно записать, после пустой строки от записи. Пример:

User-agent: *
Disallow: /
Allow: /pages/
Host: my-domen.ru

Sitemap: http://my-domen.ru/sitemap.xml

Специальный символ #

Символ "#" - указывает поисковым роботам, что все находящееся после символа "#" будет считаться комментарием до конца текущей строки.

Специальный символ *

Символ "*" - являет собой любую последовательность символов, в том числе и нулевую. Пример:

Disallow: /*id      #Все url адреса в которых будет встречаться параметр "id" будут заблокированы
Disallow: /*.pdf #Запрещает все файлы с окончанием .pdf
 

Специальный символ $

По умолчанию к каждому правилу прописанному определенной директиве в конце добавляется символ "*". Пример:

User-agent: *
Disallow: /page* #запрет на индексацию страниц начинающихся с /page
Disallow: /page # то же самое

Для того, что бы отменить символ * на конце правила, нужно использовать специальный символ "$". Вот допустим у нас есть категория  "car" ее нужно запретить к индексации, а все вложенные в нее статьи разрешить.

Disallow: /car$  #Запрещает domen.ru/car но не запрещает domen.ru/car/page1.html

Создаем правильный robots.txt для вашего сайта Joomla

Внимание! Перед тем, как вы решите скопировать представленный ниже robots.txt - внимательно просмотрите весь файл. Так как для каждого сайта - robots.txt является индивидуальным и может зависеть как от настроек, так и от сторонних расширений. Все представленные ниже директивы файла robots.txt - могут быть излишними для вашего сайта, но их может быть и недостаточно. 

Особенности robots.txt: родной SEF (ссылки без index.php) + включен mod_rewrite + переименован файл .htaccess :

User-agent: *      #К какому роботу обращаемся (по умолчанию ко всем)
Allow: /index.php?option=com_xmap&sitemap=1&view=xml #разрешаем доступ к карте сайта
Disallow: /administrator/ #Запрет доступа к админ панели
Disallow: /cache/ #Запрет доступа к кешу
Disallow: /components/ #Запрет доступа к компонентам joomla
Disallow: /includes/ #Запрещает доступ к папке inclodes
Disallow: /language/ #Запрет доступа к языковым пакетам
Disallow: /libraries/ #Запрет доступа к библиотекам
Disallow: /logs/ #Запрет доступа к логам
Disallow: /media/ #Запрет доступа к папке медиа
Disallow: /modules/ #Запрет доступа к модулям
Disallow: /plugins/ # Запрет индексации плагинов
Disallow: /templates/ #Папка с вашими шаблонами
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto #Запрет на индексацию формы отправки писем
Disallow: /*pop= #Запрет на индексацию всплывающих окон
Disallow: /*lang=ru #Запрет на индексацию дополнительных языков сайта
Disallow: /*format=
Disallow: /*print= #Запрет индексации ссылки вывода на печать
Disallow: /*task=vote #Голосования
Disallow: /*=watermark #Водяные знаки
Disallow: /*=download #Ссылки на скачивание
Disallow: /*user/ #Профили пользователей
Disallow: /404 #Запрет индексации 404 ошибки
Disallow: /index.php?
Disallow: /index.html
Disallow: /*? #ссылки содержащие данный знак индексироваться не будут
Disallow: /*% #ссылки содержащие данный знак индексироваться не будут
Disallow: /*& #ссылки содержащие данный знак индексироваться не будут
Disallow: /index2.php #Запрет дублей
Disallow: /index.php #Запрет дублей
Disallow: /*tag #Запрет индексации облаков тегов
Disallow: /*.pdf #Если есть на сайте pdf файлы (на ваше усмотрение)
Disallow: /*.swf #Если есть на сайте swf файлы - flash (на ваше усмотрение)
Disallow: /*print=1 #Запрет индексации ссылки на печать
Disallow: /*=atom #Запрещаем RSS
Disallow: /*=rss #Запрещаем RSS
Host: domen.ru #Указываем главное зеркало вашего сайта

Sitemap: http://domen.ru/sitemap.xml # Ваш URL адрес карты сайта в формате .xml

Скачать данный robots.txt (без комментариев):

Вложения:
Скачать этот файл (robots.txt)robots.txt[Готовый robots.txt]2 kB

!Примечания к файлу robots.txt:

  • Комментарии лучше удалить
  • Allow: /index.php?option=com_xmap&sitemap=1&view=xml  - карта сайта создана компонентом Xmap, URL - адрес у вас может быть другим.
  • Disallow: /*?  - также будет запрещена индексация пагинации блога категории. Например: domen.ru/?start=10, domen.ru/?start=20. То есть первую страницу блога категории будет индексировать, последующие нет.
  • Disallow: /*% - также запретит индексацию кириллических URL адресов. 

 Анализ и проверка файла robots.txt

Давайте проверим как робот Яндекса использует наш файл robots.txt, что индексирует, а что нет. Откройте в браузере ссылку - http://webmaster.yandex.ru/robots.xml

Сначала прописываем имя хоста, далее нажимаем "Загрузить robots.txt с сайта", потом "Проверить". После проверки Яндекс покажет - какие строки из файла используются его роботом.

Проверка файла robots.txt в Яндекс вебмастере

 

Теперь давайте проверим определенную страницу из нашего робота, на запрет или разрешение индексации. Для примера будет использоваться наша карта сайта, прописанная в директиве Allow.

Нажимаем на "Добавить", после чего появится дополнительное текстовое поле, куда нужно прописать полный URL нашей карты сайта. После нажимаем проверить.

Анализ файла robots.txt в Яндекс вембастер

 

Как видно с картинки выше, результат проверки нашей карты сайта - "разрешен". Таким образом вы можете проверять любые URL адреса вашего сайта. Также можно проверить и в Google.

Не забываем добавлять и проверять ваш robots.txt в панель вебмастера Yandex и Google.

Дополнительные сведения 

Чтобы получить больше информации по robots.txt, вы можете посетить следующие web-ресурсы:

Использование robots.txt Yandex :   http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml

Google robots.txt :   http://support.google.com/webmasters/answer/6062608?hl=ru&ref_topic=6061961&rd=1

Все о роботе:   http://robotstxt.org.ru/

 

З.Ы. Надеюсь статья вам помогла, если остались вопросы или дополнения пишите в комментариях.


Используйте кнопочки - буду очень благодарен!!!

Комментарии   

Дмитрий
0 # Дмитрий 15.04.2017 22:43
У меня из за этого Disallow: /*? #ссылки содержащие данный знак индексироваться не будут

весь сайт из индексации вылетел
Ответить | Ответить с цитатой | Цитировать
Super User
0 # Super User 15.04.2017 23:31
Естественно мог вылететь - если например ссылки сайта содержали знак "?".
Для избежания таких проблем - в конце статьи и указано, где стоит проверять ссылки, после изменения robots.txt - а в частности, речь идет о проверке на сервисе "Яндекс Вебмастер" - http://webmaster.yandex.ru/robots.xml или в Google Webmaster.

Поменяли робот - проверили основный страницы на запрет в роботе, если все нормально - оставляем.

Внимание: не стоит просто копировать выложенный robots.txt, для каждого сайта настройка индивидуальная.
Ответить | Ответить с цитатой | Цитировать
Олеся
0 # Олеся 07.02.2017 12:48
Спасибо за статью. У меня возник вопрос после прочтения ваших Примечании к файлу robots.txt::
Исключает ли
Disallow: /*?
индексирование карты сайта, если её тут же разрешить к индексации с такой ссылкой
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
?
Не закроет ли
Disallow: /*?
и разрешённую к индексации карту сайта и не будет ли конфликта?
Ответить | Ответить с цитатой | Цитировать
Admin
+1 # Admin 07.02.2017 22:19
В статье же показано, как разрешать карту сайта, в начале робота.
Насчет конфликта - просто проверьте разрешена ли карта сайта в яндекс вебмастере.
Ответить | Ответить с цитатой | Цитировать
Антон
0 # Антон 04.01.2017 15:25
Здравствуйте. Подскажите, для чего нужно убирать от индекса папку "templates"? Если папка с шаблоном не будет индексироваться, то не скажется ли это отрицательно на статьях и самом сайте, ведь получается что поисковый робот вообще не видит шаблон сайта, следовательно не видит как выглядит сайт внешне. Ведь так? Это негативно на сайте не отразится?
Ответить | Ответить с цитатой | Цитировать
Super User
+1 # Super User 04.01.2017 19:38
Закрывать однозначно, скажется только положительно!!! ;-)
Ответить | Ответить с цитатой | Цитировать
Антон
0 # Антон 05.01.2017 05:56
Напишите, если не трудно, статью о том, зачем нужно закрывать от индекса папку с шаблонами. Спасибо! :-)
Ответить | Ответить с цитатой | Цитировать
Super User
+3 # Super User 05.01.2017 10:04
Антон, статью писать на такую тему - это просто глупость и трата времени. Я вам здесь попробую ответить в комментарии:
Закрываем от индексации папку с шаблоном (templates) - так как эта папка не содержит в себе страниц с полезной информацией для пользователей - "технические страницы".
Технические страницы - это такие страницы, которые не несут ни какой полезной информации для пользователей: страница регистрации, версия для печати, профили пользователей, идентификаторы сессий, страница корзины товаров, метки и другие (файлы шаблонов сюда тоже относятся).

Давайте мыслить логически - что будет если вы не закроете от индексации папку с шаблонами?
1) Тут все просто, первый минус будет ухудшение поведенческих факторов (ПФ), на примере: проиндексировалась страница http://vash-sayt.ru/templates/vash-shablon/css/templates.css, пользователь зашел на нее через поисковик и что дальше, а дальше пользователь смотрит на css код в течении секунды и закрывает страницу - на лицо повышение процента "отказов".

2) Второй минус - возможность получения сторонними лицами нежелательной или конфиденциальной информации, ведь все файлы вашего шаблона, при успешной индексации будут в поисковой выдачи.

3) Увеличение в поисковой выдачи - "мусора", это вообще ни кому ни надо!!!

P.S. Если вы закроете от индексации папку с шаблоном, это не означает, что поисковый робот не сможет увидеть файлы в этой папке, а означает лишь одно - этих файлов (страниц) не будет в поисковой выдачи!!!
Ответить | Ответить с цитатой | Цитировать
Антон
0 # Антон 05.01.2017 13:26
Большое спасибо за доходчивое пояснение.

"Если вы закроете от индексации папку с шаблоном, это не означает, что поисковый робот не сможет увидеть файлы в этой папке, а означает лишь одно - этих файлов (страниц) не будет в поисковой выдачи!!!" - отлично, теперь понятно! :-)
Ответить | Ответить с цитатой | Цитировать
Алексей
0 # Алексей 03.12.2016 17:29
Вопрос такой, помогите пожалуйста. Как запретить просмотр robots.txt пользователям(шлакохакерам) которые прописывают https//ваш сайт/robots.txt. Тем самым сайт выдает полностью весь ваш robots.txt на странице. Как запретить просмотр данного файла пользователю НО оставить доступным для поисковых роботов. Напишите пожалуйста.
Ответить | Ответить с цитатой | Цитировать
Dmitriy
0 # Dmitriy 18.12.2016 00:20
Запрещать просмотр робота пользователям - не имеет смысла, все равно по движку сайта можно понять структуру сайта. 99% всех нормальных сайтов имеют открытый для всех робот, если нужна качественная защита сайта - обратите свое внимание на серверную защиту!
Ответить | Ответить с цитатой | Цитировать
Владимир
+1 # Владимир 06.10.2016 21:33
Обычно рекомендуют Robots для Яндекса отдельно и еще один для всех остальных. Некоторые рекомендуют еще и для Гугл отдельный Robots. Итого - три.
А как вы считаете правильно? И можно ли один на всех?
Ответить | Ответить с цитатой | Цитировать
Роман
0 # Роман 07.08.2016 21:17
Здравствуйте! Очень раскрытая и полезная статья про Роботс.
Подскажите пожалуйста, у меня на сайте стоит компонент widgetkit там в акардионах присутствует текст, который хотелось бы проиндексировать, но в роботс стоит запрет на индексацию компонентов, что делать?
Да и в других типа dj-imageslider тоже текст присутствует.
Ответить | Ответить с цитатой | Цитировать
Инна
0 # Инна 02.08.2016 11:38
Здравствуйте! А как запретить индексацию страниц вложений? Например, страниц c медиофайлами? Эти страницы имеют Url типа site.ru/nazvanie-stati.html/img_88.Плагины беспомощны.
Ответить | Ответить с цитатой | Цитировать
Super User
0 # Super User 02.08.2016 17:58
Disallow: /*img_
#Все url адреса в которых будет встречаться параметр "img_" будут заблокированы.
Ответить | Ответить с цитатой | Цитировать
Инна
0 # Инна 02.08.2016 19:53
Т. е., если вместо "img" картинка для удобства распознавания названа, к примеру, "parovoz". следующая ещё как-то, то единственный выход — каждую страницу вложения медиа-файла поимённо прописывать в robots.txt. Я правильно понимаю? :-?
Ответить | Ответить с цитатой | Цитировать
Super User
0 # Super User 03.08.2016 09:02
Причем здесь "картина" к примеру "parovoz". Я показал на вашем же примере, как запрещать страницы вложений. То есть у вас есть следующие страницы вложений:
site.ru/nazvanie-stati.html/img_88
site.ru/nazvanie-stati.html/img_89
site.ru/nazvanie-stati.html/img_90

В роботе прописываем следующую директиву:
Disallow: /*img_

Обратите внимание, что после img идет нижнее подчеркивание. Тем самым мы запрещаем к индексации все страницы, где присутствует параметр "img_".

P.S. Прописывать для каждой станицы вложения свою директиву - это ошибка, всегда можно придумать правильное решение. Неплохо было бы указать свой сайт, если он уже в сети.
Ответить | Ответить с цитатой | Цитировать
Инна
0 # Инна 03.08.2016 09:12
Это всё я понимаю. Но дело в том (тут сама виновата — не самый корректный пример привела), что большинство картинок имеют в своём названии или изображённый предмет, или производственный процесс.

Сайт не на Джумле (не думаю, что это принципиально. В общем, нужно запретить к индексации всё, что идёт после .html/
Вот примеры страниц вложения:
http://nkass.ru/remont-pereezdnoy-signalizatsii.html/remont-ps
http://nkass.ru/montazh-transportabelnyh-modulei-ec-tm-i-ec-tmp.html/modul-ec-tm
http://nkass.ru/preimushhestva-autsorsinga-zheleznodorozhnoj-avtomatiki-i-telemehaniki-na-putyah-neobshhego-polzovaniya.html/autsorsing-zhat-prom

И таких страниц вложений очень много. Чёртов плагин хоть и выдаёт в редакторе функции выставить noindex/nofollow, но по факту эти функции именно на страницах вложений не поддерживает. Правка самого плагина тоже не дала результата.
Ответить | Ответить с цитатой | Цитировать
Super User
0 # Super User 03.08.2016 10:09
Можно попробовать следующий вариант:
Disallow: /*.html/

Либо:
Disallow: /*.html/*

Потом проверить, закрыты ли нужные страницы от индексации и открыты ли остальные страницы, например в яндексе: http://webmaster.yandex.ru/robots.xml
Если ни чего не подходит - устраняйте причину возникновения данных страниц. Смотрите какой плагин их генерирует и исправляйте. В общем на сайте такие страницы в принципе не нужны, так как не несут ни какой смысловой нагрузки.
Ответить | Ответить с цитатой | Цитировать
Инна
0 # Инна 03.08.2016 10:20
Как раз нечто подобное вчера делала, но не сработало. Впрочем, я прописывала, как *.html/ и *.html/*.То есть не прописывала первый слеш. Благодарю! :-) Сейчас попробую и отпишусь.
Ответить | Ответить с цитатой | Цитировать
Инна
0 # Инна 03.08.2016 10:40
Цитирую Инна:
Сейчас попробую и отпишусь.
http://webmaster.yandex.ru/robots.xml в результате "Разрешены ли URL" показывает (плохо, что скрины прикрепить нельзя):
http://nkass.ru/remont-pereezdnoy-signalizatsii.html/remont-pereezda-2 /*.html/*
и
http://nkass.ru/stroitelstvo-modernizatsiya-tehnicheskoe-perevooruzhenie-scb-zhat.html/modernizacia-scb /*.html/*

Эти /*.html/* выделены красным.

Плагин эти страницы разрешает к индексации (т. е. запрета в robots.txt не видит в упор):

:oops:
Ответить | Ответить с цитатой | Цитировать
Super User
0 # Super User 03.08.2016 10:54
Что то я ни понял, что это:
http://nkass.ru/remont-pereezdnoy-signalizatsii.html/remont-pereezda-2 /*.html/*

Вы должны в robots.txt прописать следующую директиву:
Disallow: /*.html/*

И проверить следующие страницы:
http://nkass.ru/remont-pereezdnoy-signalizatsii.html - должно быть разрешено
http://nkass.ru/remont-pereezdnoy-signalizatsii.html/remont-pereezda-2 - должно быть запрещено.

Киньте сюда свой роботс!!!
Ответить | Ответить с цитатой | Цитировать
Инна
0 # Инна 03.08.2016 11:07
Плагин platinum seo pack в исходном коде пишет:
meta name="robots" content="noindex,nofollow
Ответить | Ответить с цитатой | Цитировать
Инна
0 # Инна 03.08.2016 11:08
Ae. чёрт, не ту страницу просмотрела:
Плагин platinum seo pack в исходном коде пишет:
meta name="robots" content="index,follow
Ответить | Ответить с цитатой | Цитировать
Super User
0 # Super User 03.08.2016 11:16
Плагин может указывать что индексация разрешена, но в роботсе она запрещена и страница индексироваться не будет!
Ответить | Ответить с цитатой | Цитировать
Инна
0 # Инна 03.08.2016 11:19
Ясно. Спасибо Вам огромное!!! А то я из-за разночтения между плагином и robots.txt весь мозг сломала.
Ответить | Ответить с цитатой | Цитировать
Andrey
0 # Andrey 24.03.2016 15:25
Статья действительно интересная и познавательная. Но у меня возник вопрос в другом... Все говорят про ЧПУ и т.д., но даже вверху этой страницы, адрес содержит цифру 107. Это как я уже понял цифра показывает в джумле кличество материалов, категория уроки, 107 статья... Как избавиться от этой цифры? Что нет никакой возможности?
Ответить | Ответить с цитатой | Цитировать
Super User
+1 # Super User 24.03.2016 18:53
Адрес с цифрой (107) - все ровно остается Ч
ПУ. Я намеренно не убираю - так как мне удобно пользоваться ссылками с идентификатором. Убрать цифры из адресов то можно, только возможны некоторые последствия.Как убрать можете почитать сдесь - http://joomlaforum.ru/index.php/topic,169326.0.html
Ответить | Ответить с цитатой | Цитировать
Kelter
0 # Kelter 24.03.2016 15:19
Спасибо огромное за столь подробное и понятное объяснение!
Ответить | Ответить с цитатой | Цитировать
александр
0 # александр 03.02.2016 20:02
Пользуюсь для отправки писем aiContactSafe как правильно запретить индексировать страницу отправки, то есть прописать директиву. Путь с вкл стандартным чпу джумлы site/kontakty.html, а без чпу site/index.php?option=com_aicontactsafe&view=messa ge&layout=message&pf=3&Itemid=137. Какая деректива будет правильная Disallow: /*com_aicontactsafe или
Disallow: /*kontakty
Ответить | Ответить с цитатой | Цитировать
Super User
+3 # Super User 04.02.2016 19:02
1) Используйте чпу!
2) Disallow: /kontakty.html
3) Проверьте - http://webmaster.yandex.ru/robots.xml
Ответить | Ответить с цитатой | Цитировать
Дмитрий
+3 # Дмитрий 22.07.2015 00:32
Спасибо тебе ! огромное сейчас 3 часа ночи сижу над РОБОТ.ТХТ и .htasses настраиваю по твоим знаниям и очень доволен результатом спасибо еще раз, очень полезные статьи и еще ждем новых !!!)))))) :-)
Ответить | Ответить с цитатой | Цитировать
Дмитрий
+3 # Дмитрий 18.07.2015 15:02
Отличная статья! Спасибо! Использовал полученную информацию у себя на сайте http://www.sinsystem.ru . Все работает!
Ответить | Ответить с цитатой | Цитировать
Сергей
-2 # Сергей 02.07.2015 06:55
Подскажите почему после перехода на joomla 3 и установке вашего робота возникли ошибки
Результаты проверки (6 ошибок)
Произошла внутренняя ошибка. Попробуйте повторить попытку позже.Превышено время ожидания ответа.
Неправильный адрес страницы
Строка 1: User-agent: *
Неправильный адрес страницы
Строка 2: Allow: /index.php?option=com_xmap&view=xml&id=1
Неправильный адрес страницы
Строка 3: Disallow: /administrator/
Неправильный адрес страницы
Строка 4: Disallow: /cache/
Неправильный адрес страницы
Строка 5: Disallow: /components/
Неправильный формат текста
Ответить | Ответить с цитатой | Цитировать
Андрей
+1 # Андрей 26.03.2015 08:19
Спасибо большое за помощь и хорошую статью!
Ответить | Ответить с цитатой | Цитировать

Добавить комментарий


Защитный код
Обновить