RSS-лента

Лучшие CMS интернета бесплатно для создания сайта

Файл robots.txt


Иногда, веб-мастеру, может потребоваться закрыть от индексации часть сайта. Эта задача легко решается при помощи файла robots.txt. Вы наверное спросите: «А для чего веб-мастера закрываю часть своего портала от индексации роботами?» Некоторые страницы закрываются чтобы избежать плохой индексации роботами поисковиков, или чтобы не попасть под фильтры поисковиков (да да, и такое бывает) из-за не уникального контента…, а чаще всего, чтобы закрыть от индексации различный мусор в CMS такой к примеру как дубли страниц, админку, тему офорления.

Файл robots.txt  – это текстовый файл, находящийся в корневой директории на хостинге, в котором записываются специальные действия для страниц, записей, картинок и.т.д.

Файл robots.txt

Поисковые роботы при заходе на сайт сразу ищут файл robots.txt и рассматривают инструкции этого файла оставленные вебмастером для поисковых роботов.

Инструкции файла robots.txt могут

  • запрещать к просмотру страницы (каталоги) для всех поисковых роботов
  • запрещать к просмотру страницы (каталоги) для выделенных поисковых роботов
  • производить редирект на другую страницу при ошибке 404
  • указывать на местонахождение карты сайта
  • указывать время загрузки страниц для индексации

Файл robots.txt включает в себя две основные инструкции: «User-agent» и «Disallow» при помощи которых и описывается, что поисковым роботам индексировать, а что пропустить. Некоторые поисковые системы поддерживают еще и дополнительные инструкции. Так, например, поисковая система «Yandex» использует еще инструкцию «Host».

Давайте, подробно рассмотрим каждую инструкцию и записи, которые делают вебмастера после них в файле robots.txt

Инструкция файла robots.txt «User-agent»

Эта инструкция определяет для каких поисковых роботов производить запрет или разрешать индексировать страницы (каталога). Если мы хотим производить запрет или разрешать индексацию для всех роботов, то в файле robots.txt делается следующая запись:

User-agent: *

По сути, «*» означает разрешение для просмотра всеми поисковиками (Yandex, Google, Bing…). Если мы хотим, чтобы запрет производился только для google, то нужно сделать запись:

User-agent: googlebot

Инструкция файла robots.txt «Disallow»

Эта запись определяет, какие страницы (каталоги) нужно запретить к просмотру поисковиков в файле robots.txt.

Disallow: /

Если поставить просто » / «, то будет происходить запрет на все каталоги и страницы ресурса.

Disallow: /image/

Если сделать так, то происходит запрет на индексацию всего каталога «/image/«, то-есть всех вложенных папок.

Disallow: /page1-small.htm

Если, сделать такую запись произойдет запрет на индексацию отдельной страницы «/page1-small.htm«

Если, Вы не хотите вообще, делать запрет на какие-либо страницы и каталоги оставьте место для записи пустым:

Disallow:

Одно из важнейших правил правильной записи правил файла robots.txt — каждая новая инструкция пишется с новой строки.

Yandex инструкция файла robots.txt «Host»

Эта инструкция указывает yandexbot основное зеркало вашего сайта. В этой директиве файла robots.txt прописывается адрес с www или без www:

Host: www.goldserfer.ru

Не пишите http://ваш сайт.ru инструкция работать не будет.

Yandex инструкция файла robors.txt «Crawl-delay»

Эта инструкция robots.txt указывает минимальный интервал в секундах, между запросами на загрузку страниц сайта для индексации роботами (применяется для уменьшения нагрузки на сервер).

Crawl-delay: 5

Инструкция файла robots.txt «Visit-time»

Эта инструкция robots.txt указывает поисковым роботам время загрузки страниц сайта для индексации (с 1 утра до 3:45 по Гринвичу).

Visittime: 0100-0345 

По-моему, очень удобная штука! К примеру мы производим какие-то изменения, а тут притопал один из ботов — «не званный гость», и все слопал с нужными (не нужными) изменениями…. Сами понимаете, не есть хорошо. Поэтому, обязательно прописываем это правило для ботов с нужными временными рамками посещений.

Примеры файлов robots.txt.

 


User-agent: *

Disallow:

Для всех поисковых роботов сайт полностью доступен к индексации.


User-agent: *

Disallow: /images/

Disallow: /buttons/

Disallow: /themes/

Для все поисковых роботов на сайте запрещены к индексации каталоги » /images//buttons//themes/ «


Файл robots.txt для WordPress блога:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /search/
Disallow: /xmlrpc.php
Disallow: /wp-admin/
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /feed/
Disallow: /trackback/
Disallow: */trackback/
Disallow: */?s*
Disallow: */?p*
Disallow: */*.js*
Sitemap: http://ваш сайт/sitemap.xml
Crawl-delay: 5
Visit- time: 0200-0545
Host: ваш сайт.ru


Файл robots.txt для Joomla:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Disallow: /index2.php?option=com_content
Disallow: /index.php?option=com_content
 

Crawl-delay: 10
Request-rate: 1/10         

Visit-time: 0200-0545 
Host: ваш сайт.ru
Sitemap: http://ваш сайт/sitemap.xml


Файл robots.txt для Drupal:

User-agent: *
Disallow: /database/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profiles/
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /top-rated-
Disallow: /messages/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /aggregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*&
Disallow: /*%
Disallow: /*?page=0
Allow: /*?page=
Disallow: /*?
Visit-time: 0200-0545 
Host: ваш сайт.ru
Sitemap: http://ваш сайт/sitemap.xml


Файл robots.txt  для MODx Evo.

User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
 Visit-time: 0200-0545 
Host: ваш сайт.ru
Sitemap: http://ваш сайт/sitemap.xml


Файл robot.txt для MODx Revo.

User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Disallow: /?
Disallow: /*?id=
Visit-time: 0200-0545 
Host: ваш сайт.ru
Sitemap: http://ваш сайт/sitemap.xml


Спонсор показа статьи Seo-Sem. Сегодня поисковое продвижение сайта является одним из самых эффективных и выгодных способов рекламы ресурса. Вы не знаете с чего начать продвижение? Не беда! Компания Seo-Sem организует комплексное продвижение сайтов по доступным ценам и на высоком уровне.

вверх