1. Главная
  2. Статьи
  3. Вопрос-Ответ
  4. Новости
  5. Форум
  6. Вики
Вход   Регистрация

Биржа комментариев

СМС рассылки

Партнерские программы

Бесплатное продвижение сайтов

VPS хостинг

Кабель оптом

Качественный контент

Офисная мебель Проспект

Файл robots.txt – Правильный robots.txt для сайтов

Файл robots.txt является служебной инструкцией и некоторой информацией для поисковых систем. Перед тем как посетить Вам сайт или блог, воспитанный поисковый бот зайдет в первую очередь в этот файл и «прочитает» его. Если для вашего сайта используется система управления (CMS), то раздел администратора и для зарегистрированных пользователей стоит закрыть от индексации, поскольку на них, как правило, нет полезной информации.

Создать robots.txt можно в стандартном блокноте windows. Важно соблюдать правила и структуру файла.

Как создать robots.txt и его структура.

Существует множество сервисов и программ для автоматического создания файла robots.txt. Если нет желания копаться в настройках и что то писать самому, можно воспользоваться данными сервисами. Но лучше все проделать в ручном режиме. Поверьте ничего сложного в этом нет.

User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /_js/
Host: www.example.com

Правильный файл robots.txt Это и есть структура файла robots.txt. Атрибут User-agent: служит для указания имени поискового робота. Если ваш файл robots.txt служит для всех поисковых машин, то имя конкретного робота можно не указывать, а обозначить (*). В данном случае, указано, что все поисковые роботы должны игнорировать файлы и страницы из папок cgi-bin, admin, _js. Атрибут Disallow запрещает индексирование указанной директории или страницы.Host: указывает на основной домен сайта (необходим только для Яндекса). При наличии зеркал укажите какой домен является основным, иначе робот может вогнать в индекс дубли сайта, что плохо скажется на его рейтинге.


 User-agent: Yandex 

Данный файл указывает конкретно роботу Яндекс, как следует вести себя при индексации сайта.

Robots.txt может запретить индексацию сайта полностью. Будет полезно если ваш сайт находится на стадии наполнения контентом. Для этого в своем файле напишите следующее:

User-agent: * Disallow: /

Созданию robots.txt стоит отнестись с большим вниманием. Что бы поисковик хорошо относился к вашему сайту, закрывайте разделы содержание которых не устроит поискового робота. Если на вашем сайте есть дублированные страницы с одинаковым контентом их просто необходимо закрывать от индексации, поскольку поисковик (особенно Яндекс) очень негативно относится к дублям.

Правильный robots.txt для WordPress

WordPress является одним из самых распространенных блоговых движков. Блог на котором большое количество информации, скриптов, картинок, папок шаблонов — файл robots.txt просто необходим.

Файл robots.txt для wordpress на примере моего блога:

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.example.com

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

Sitemap: http://example.com/sitemap.xml 

Как видите все не нужные разделы для поисковика закрыты. Обратите внимание на поле Sitemap: он указывает роботу где находится файл карты сайта.

Перед составлением файла robots.txt проанализируйте на других сайтах, как они составлены. Для просмотра файла наберите в адресной строке http://www.example.com/robots.txt. Уделяйте больше внимания robots.txt и ваш сайт будет правильно индексироваться.

Атрибут Allow в robots.txt

Бытует ложное мнение, что необходимо использовать атрибут allow для разрешения индексации. Это одна из распространенных ошибок. Robots.txt ни чего не разрешает, он только запрещает индексацию тех или иных файлов сайта. Если вы удалите данный файл со своего сервера, то это не означает, что робот не будет сканировать ваш сайт. Наоборот это знак для него, что можно индексировать все.

Категория статьи: Веб-программирование | Просмотров: 2529 | Добавлена: 14.09.2013

Почему Вы еще не прокомментировали?
Оставьте свой комментарий! Весь Интернет уже заждался!

Ваше Имя Муж. Жен. Как Вас величать?
Антиспам защита

– Напишите название этого сайта по-русски
(если Вы не в курсе, сайт называется "РапидАп")

Текст комментария
 
О сайте ⋅  Контакты