| Вход Регистрация |
Файл robots.txt – Правильный robots.txt для сайтовФайл robots.txt является служебной инструкцией и некоторой информацией для поисковых систем. Перед тем как посетить Вам сайт или блог, воспитанный поисковый бот зайдет в первую очередь в этот файл и «прочитает» его. Если для вашего сайта используется система управления (CMS), то раздел администратора и для зарегистрированных пользователей стоит закрыть от индексации, поскольку на них, как правило, нет полезной информации. Создать robots.txt можно в стандартном блокноте windows. Важно соблюдать правила и структуру файла. Как создать robots.txt и его структура.Существует множество сервисов и программ для автоматического создания файла robots.txt. Если нет желания копаться в настройках и что то писать самому, можно воспользоваться данными сервисами. Но лучше все проделать в ручном режиме. Поверьте ничего сложного в этом нет. User-agent: * Disallow: /cgi-bin/ Disallow: /admin/ Disallow: /_js/ Host: www.example.com
User-agent: Yandex Данный файл указывает конкретно роботу Яндекс, как следует вести себя при индексации сайта. Robots.txt может запретить индексацию сайта полностью. Будет полезно если ваш сайт находится на стадии наполнения контентом. Для этого в своем файле напишите следующее: User-agent: * Disallow: / Созданию robots.txt стоит отнестись с большим вниманием. Что бы поисковик хорошо относился к вашему сайту, закрывайте разделы содержание которых не устроит поискового робота. Если на вашем сайте есть дублированные страницы с одинаковым контентом их просто необходимо закрывать от индексации, поскольку поисковик (особенно Яндекс) очень негативно относится к дублям. Правильный robots.txt для WordPressWordPress является одним из самых распространенных блоговых движков. Блог на котором большое количество информации, скриптов, картинок, папок шаблонов — файл robots.txt просто необходим. Файл robots.txt для wordpress на примере моего блога: User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Host: www.example.com User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Sitemap: http://example.com/sitemap.xml Как видите все не нужные разделы для поисковика закрыты. Обратите внимание на поле Sitemap: он указывает роботу где находится файл карты сайта. Перед составлением файла robots.txt проанализируйте на других сайтах, как они составлены. Для просмотра файла наберите в адресной строке http://www.example.com/robots.txt. Уделяйте больше внимания robots.txt и ваш сайт будет правильно индексироваться. Атрибут Allow в robots.txtБытует ложное мнение, что необходимо использовать атрибут allow для разрешения индексации. Это одна из распространенных ошибок. Robots.txt ни чего не разрешает, он только запрещает индексацию тех или иных файлов сайта. Если вы удалите данный файл со своего сервера, то это не означает, что робот не будет сканировать ваш сайт. Наоборот это знак для него, что можно индексировать все.
Категория статьи: Веб-программирование | Просмотров: 2529 | Добавлена: 14.09.2013
Почему Вы еще не прокомментировали? |
|
Это и есть структура файла robots.txt. Атрибут User-agent: служит для указания имени поискового робота. Если ваш файл robots.txt служит для всех поисковых машин, то имя конкретного робота можно не указывать, а обозначить (*). В данном случае, указано, что все поисковые роботы должны игнорировать файлы и страницы из папок cgi-bin, admin, _js. Атрибут Disallow запрещает индексирование указанной директории или страницы.Host: указывает на основной домен сайта (необходим только для Яндекса). При наличии зеркал укажите какой домен является основным, иначе робот может вогнать в индекс дубли сайта, что плохо скажется на его рейтинге.