Robot.txt
Robot.txt
03.03.10 17:39

Рано или поздно оптимизаторы сталкиваются с проблемой дублей страниц сайтов или желанием отключить индексацию определенных папок, разделов или динамических ссылок с какой-нибудь переменной. Так вот все поисковые роботы при посещении сайта, в первую очередь, ищут файл robots.txt. Это текстовый файл, находящийся в корневой директории сайта, в нем записываются специальные инструкции для поисковых роботов. Рассмотрим наиболее востребованные примеры robot.txt, а также как правильно отключать индексацию ненужных страниц в joomla.

1. Запрет индексации папки cgi всеми поисковиками:

User-agent: * 
Disallow: /cgi/

2. Разрешаем индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots.txt):

User-agent: *
Disallow:

3. Запрещаем индексировать все страницы сайта всем поисковикам:

User-agent: *
Disallow: /

4. Разрешаем индексировать всем кроме Яндекса:

User-agent: Yandex
Disallow: /

5. Запрещаем индексировать всем поисковикам кроме Яндекса (примечание: обратите внимание на обязательную пустую строку между двумя инструкциями, без нее файл не будет воспринят правильно):

User-agent: Yandex
Disallow:

User-agent: *
Disallow: /

6. Яндексу запрещаем индексировать папки cgi и images, а Апорту файлы myfile1.htm и myfile2.htm в директории dir:

User-agent: Yandex
Disallow: /cgi/
Disallow: /images/

User-agent: Aport
Disallow: myfile1.htm
Disallow: myfile2.htm

7. Весьма актуальная проблема. Запрещаем индексировать динамические ссылки, пример (?ul=…) всем поисковикам:

User-agent: *
Disallow: /*?sl* 

8. Указание значения для Disallow без открывающего слеша приведет к тому, что робот пропустит не только папки с таким именем, но и файлы. В следующем примере, роботы не будут индексировать папку с именем myfile, а также все файлы, имеющие данное имя например myfile.php:

User-agent: *
Disallow: myfile

9. Запрет индексации папок cgi и images для всех поисковиков: 

User-agent: *
Disallow: /cgi/
Disallow: /images/

10. Запрет индексации файлов myfile1.htm и myfile2.htm для Google:

User-agent: Google
Disallow: myfile1.htm
Disallow: myfile2.htm

11. Запрет индексации файлов spisok.php и vsakaya-fignya.php для всех поисковиков:

User-agent: *
Disallow: spisok.php
Disallow: vsakaya-fignya.php

12. Запрет индексации динамических ссылок с переменной sl:

User-agent: *
Disallow: /*?sl*

Решение проблем с индексацией страниц на Joomla! CMS.

После попадания в индекс Яндекса некоторые обнаруживают неприятную особенность, которая заключается в индексировании всех страниц по ссылкам "Отправить на e-mail", часть печатных версий страниц (даже не смотр на то, что в админке глобальной конфигурации отключена индексация этих страниц), страницы из админки, куски из rss и т.д.

Исключаем страницы из индексации:

1. Для запрета индексации страниц "Отправить на e-mail":

Disallow: /index2.php?option=com_content&task=emailform

2. Для дополнительного запрета индексации печатных версий страниц, если включен встроенный SEF, то повредить эта строка не должна:

Disallow: /index2.php?option=com_content&task=view

2а. Или можно указать так:

Disallow: /index2.php?option=com_content

3а. Или так:

Disallow: /index2.php

4. Для запрета индексации страниц, связанных с авторизацией на сайте:

Disallow: /component/option,com_registration/

5. Если вы используете сторонние SEF-компонентов такая строка имеет право на жизнь. При использовании же встроенного SEF-а будет запрещена к индексации бОльшая часть сайта:

Disallow: /content/

p.s. Удачи с индексацией!

 

Комментарии  

 
0 #10 Александр 19.09.2011 22:49
Уважаемый Админ, видно, что Вы спец по robots.txt!
Подскажите пожалуйста, как можно закрыть от индексации определенный модуль, например "Последних новостей", который находится на всех страницах и часто Яндекс хватает заголовки от туда и индексирует их, а не нужную страницу.

Какой синтаксис для закрытия модуля в файле robots.txt в Joomla 1.5?

С уважение Александр
Цитировать
 
 
0 #9 Евгений 10.06.2011 18:34
Здравствуйте, подскажите, пожалуйста как можно запретить сразу все страницы, которые, к примеру, заканчиваются на pechat.html (http://zakazmotorov.ru/novosti/avtonovosti/shpionskie-fotografii-novoy-honda-civic-v-kuzove-hetchbek/pechat.html). Всяко уже пробовал никак не получается. Заранее благодарен.
Цитировать
 
 
0 #8 Алексей 03.05.2011 18:08
Спасибо, очень подробно и доступно!
Цитировать
 
 
+1 #7 One monk 08.07.2010 14:09
Disallow: /component/option,com_regi stration/ - это не правильно!
бороздя инет почти полдня нашел вот - можно даже скачать готовый: http://rabotaisam.ru/robotstxt/what-robotstxt.html
Цитировать
 
 
+1 #6 Ishta.Biz 03.04.2010 15:46
Цитирую ivolga:
А как запретить к индексации ленту новостей на сайте, не в курсе? Весь интернет перерыла.


# запрещаем индексацию трекбеков, rss-ленты
Disallow: /trackback
Disallow: /xmlrpc.php
Disallow: /author*
Цитировать
 
 
+2 #5 ivolga 29.03.2010 17:22
А как запретить к индексации ленту новостей на сайте, не в курсе? Весь интернет перерыла.
Цитировать
 
 
-7 #4 Натяжные потолки 19.03.2010 17:39
Состав натяжных потолков всецело отвечает требованиям пожарной и экологической безопасности. . история натяжных потолков Кроме того, в процессе установки натяжных потолков не бывает мусора. Натяжные потолки - это очень надежный и высокопрочный материал. http://vip-potolok.ru/index.php/statii/42-istoria-natyajnyh-potolkov2.html
Цитировать
 
 
+5 #3 grh 05.03.2010 19:00
наконец-то нашел, то что дохтур прописал! дубликаты в виде /контент/ уже задолбали, а потом яндекс, что ему взбредет в голову выкидывает из поиска и оставляет всякую хрень.
Цитировать
 
 
+6 #2 миха 04.03.2010 20:59
я на своем прописал Disallow: /index2.php проблем не было!
Цитировать
 
 
+5 #1 Олег 03.03.2010 18:18
Спасибо за статью! Как раз проблема с дубликатами урл-ов!!!
Цитировать
 

Добавить комментарий


Защитный код
Обновить

bannerslova505.png

Blog.News

Statistics

Просмотрено статей : 555899