1 Создание сайта. Часть 3. Правильное создание файлов Robots.txt и Sitemap.xml » 3domen.com - сайт Сергея и Марины Бондаренко
Регистрация  Напомнить пароль?
 Отправлено SergeyMarina 14 января 2014   

Создание сайта. Часть 3. Правильное создание файлов Robots.txt и Sitemap.xml Основная масса посетителей приходит на сайты с поисковых систем. Поэтому, создавая новый веб-ресурс, важно позаботиться о том, чтобы он был замечен поисковиками. Наполнение базы данных поисковых систем выполняется благодаря поисковому роботу. Он запрашивает страницы с сайтов и индексирует их (то есть, добавляет в базу). Робот также переходит по ссылкам на этих страницах и таким образом обнаруживает новые сайты.

Для общения веб-мастера с поисковыми системами используется два файла — Robots.txt и Sitemap.xml. Первый содержит инструкции относительно того, что индексировать не нужно, а второй, наоборот, подсказывает роботу, что на сайте есть новенького и интересного. О том, как создать такие файлы и как грамотно их использовать, мы расскажем в этой статье.





Назад Вперед

Читайте также:

Создание сайта. Часть 1. Регистрация домена. Перенос домена
Создание сайта. Часть 2. Выбор хостинга

************



На заре Интернета почти все сайты представляли собой набор html-страниц. Как правило, на сайте было меню навигации, при помощи которого можно было быстро попасть на любую страницу ресурса. Поисковым роботам ничего не стоило просканировать такой сайт — число страниц было невелико, и они были объединены ссылками.

С распространением CMS структура сайтов изменилась. Во-первых, существенно возросло число файлов на них. Для работы движка требуются сотни файлов, и большинство из них не содержат никакого контента, поэтому для индексации в поисковиках они не нужны. Текстовое содержимое сайта стало храниться в базе данных и выдаваться по запросу. Именно поэтому на современном сайте возможно наличие нескольких страниц с одинаковым контентом (например, главная страница со списком новостей, страница с полным текстом новости, страница с последними новостями из определенного раздела). Поисковому роботу часто бывает сложно разобраться в тысячах однотипных страниц, поэтому он может бросить сканировать сайт, не дойдя до конца. При этом важный контент может остаться непроиндексированным, а другой — попасть в индекс три раза на разных страницах.

Как этого избежать? Нужно помочь роботу определить, какие файлы на сайте сканировать не нужно, а какие страницы, наоборот, стоит добавить в индекс.

Как сообщить поисковому роботу о сайте

После появления сайта в Сети рано или поздно робот его обнаружит. Это произойдет быстрее, если ссылки на новый сайт появятся на других веб-ресурсах. Чтобы ускорить процесс индексирования, можно сообщить поисковым системам о новом сайте самостоятельно. Чтобы уведомить Яндекс о появлении нового сайта, зайдите на страницу webmaster.yandex.ua и укажите URL сайта. Если на сайте используется стандартный протокол http, в адресе его указывать не нужно. Введите код captcha и нажмите на кнопку Добавить.

Создание сайта. Часть 3. Правильное создание файлов Robots.txt и Sitemap.xml

Для того чтобы сообщить поисковой системе Google о новом сайте, перейдите на страницу google.com/webmasters/tools. Доступ к ней возможен только после входа в учетную запись Google. Укажите адрес ресурса в поле URL. Введите код captcha и нажмите на кнопку Отправить запрос.

Создание сайта. Часть 3. Правильное создание файлов Robots.txt и Sitemap.xml

Robots.txt — запреты и ограничения


Когда поисковый робот заходит на сайт, первым делом он ищет в корневой директории файл robots.txt. Это — простой текстовый файл, в котором хранятся указания для роботов относительно того, какие страницы сайта нужно индексировать, а какие — нет. Зачем роботу нужно давать эти указания? Во-первых, на сервере могут храниться некоторые конфиденциальные данные, попадание которых в поисковый индекс нежелательно. Во-вторых, на нем сохраняются логи, кеш, временные файлы, файлы движка, которые для всех, кроме веб-мастера, являются просто мусором. В-третьих, структура сайта может быть такова, что одно и то же содержимое может встречаться на разных страницах. Поисковые системы не любят повторений, поэтому лучше запрещать индексировать идентичный контент. Наконец, возможно, ваш сайт создан для ограниченной группы лиц, и вам не нужны гости из поисковиков. В таких случаях при помощи файла robots.txt можно вообще запретить его индексацию. Тогда в поисковой выдаче он не появится.

Для создания файла robots.txt можно использовать специализированные программы и сервисы, но даже если ни одного из подобных инструментов нет под рукой, его всегда можно сгенерировать в обычном текстовом редакторе. Подойдет как стандартный «Блокнот», так и, например, его более продвинутая версия для веб-мастеров Notepad++.

Создание сайта. Часть 3. Правильное создание файлов Robots.txt и Sitemap.xml

Файл robots.txt может появиться на вашем сервере автоматически вместе с установкой популярной CMS. Но его наличие еще не означает, что в нем учтены все особенности сайта. Скорее всего, разработчики CMS внесли в него запрет на доступ к тем каталогам, в которых содержатся служебные и временные файлы. Иными словами, часть работы они за веб-мастера выполнили, но доработать robots.txt предстоит для каждого сайта вручную. Кстати, в Интернете можно найти множество примеров этого файла для популярных CMS, в которых учтены особенности структуры таких сайтов.

Создание файла robots.txt вручную

Итак, откройте текстовый редактор, нажмите на кнопку Сохранить и введите название файла — robots.txt. Обратите внимание на то, что все буквы в его названии обязательно должны быть строчными. Если загрузить на сервер пустой файл или не загружать его вовсе, поисковый робот будет индексировать все документы, которые он обнаружит на сайте.

Для управления поведением поисковых роботов используются два главных оператора: User-Agent и Disallow. Первый указывает на то, для какой поисковой системы предназначены перечисленные ниже правила. Второй служит для создания этих правил. Например, если в robots.txt имеются две строки:

User-Agent: Yandex
Disallow: /cgi-bin/


То это означает, что для поискового робота Яндекса запрещено посещение директории cgi-bin. В синтаксисе файла robots.txt имеет значение все: использование прописных и строчных букв, слеши, пустые строки, поэтому при его создании вручную нужно быть предельно внимательным.

Оператор User-Agent


В файле robots.txt могут быть указаны общие правила для всех поисковых систем, а могут быть заданы отдельные правила для некоторых поисковиков. Для основных поисковых роботов используются такие названия:

Яндекс Yandex
Google GoogleBot
Bing bingbot
Mail.ru Mail.ru
Yahoo Slurp
Alexa la_archiver
Яндекс.Блоги YandexBlog



Если нужно задать правила для всех поисковых систем, то в файле нужно прописать User-Agent: *.

Что можно запрещать


При помощи оператора Disallow можно запрещать доступ к директориям, к отдельным файлам, к файлам и папкам, в названиях которых встречаются определенные символы. Вот некоторые примеры запретов:

Disallow: / запрет на индексацию сайта полностью
Disallow: /folder/ запрет на индексацию папки с названием folder
Disallow: /path/folder/ запрет на индексацию папки с названием folder, которая находится в папке под названием path
Disallow: /file.html запрет на индексацию файла file.html, который находится в корневом каталоге
Disallow: /folder/file.html запрет на индексацию файла file.html, который находится в папке folder
Disallow: /symbols запрет на индексацию файлов и папок из корневого каталога, в названии которых есть указанные символы
Disallow: /folder/symbols запрет на индексацию файлов и папок из директории folder, в названии которых есть указанные символы
Disallow: */feed/ запрет на индексацию всех адресов, которые заканчиваются на feed


Как правильно расставить все операторы


Запреты нельзя перечислять в одной строке. Для каждой папки, каждого файла и любого другого правила должен быть указан свой оператор с новой строки. Оператор Disallow всегда должен располагаться на строке, которая следует за оператором User-Agent. Если правил Disallow несколько, каждое новое располагается на следующей строке. При этом пустые строки между операторами Disallow недопустимы, так как для поискового робота они означают переход к следующему набору правил.

Если нужно задать одни и те же директивы для всех поисковых систем, то достаточно прописать

User-Agent: *
Disallow: /folder/


Если требуется задать свои директивы для разных поисковых систем, то наборы правил для каждой из них отделяются от предыдущей поисковой системы пустой строкой. Вот так:

User-Agent: Yandex
Disallow: /folder/

User-Agent: GoogleBot
Disallow: /file.html


Дополнительные директивы


Кроме основных операторов User-Agent и Disallow, используются также дополнительные. Часть из них понятна только некоторым поисковым роботам.

Директива Host


Директива Host нужна для того, чтобы при наличии зеркал сайта указать роботу на главный адрес ресурса. Самый простой пример зеркала — написание названия сайта с www и без него. Сайты site.ru и www.site.ru для поискового робота являются двумя разными ресурсами, поэтому стоит написать в файлe robots.txt, какой из них является основным. Например, так Host: www.site.ru. Эта строка должна следовать непосредственно за последней строкой Disallow. В ней недопустимо указывать IP-адреса, слеш в конце адреса, символы http:// в начале, два домена в одной строке.


Директива Crawl-delay


Директива Crawl-delay может быть полезна в тех случаях, когда нужно снизить нагрузку на сервер, которая непременно создается при закачке сайта роботом. С ее помощью можно задать минимальный период времени между концом загрузки предыдущей страницы и началом закачки следующей. Например, если в файле указать Crawl-delay: 2, то это будет означать, что интервал между загрузкой страниц равен двум секундам.

Добавление комментариев

Чтобы в файле robots.txt было проще разобраться, в нем допустимо добавление комментариев. Комментарии поисковыми роботами на обрабатываются. Перед текстом комментария используется символ #. Комментарий может выглядеть, например, так:

Disallow: /wp-admin/
#запрещен доступ к папке wp-admin


Комментарии можно помещать и на одной строке с операторами, но во избежание проблем с непониманием роботов рекомендуется писать их на следующей строке.

Автоматическое создание robots.txt

При создании файла robots.txt вручную возможно возникновение ошибок в синтаксисе, поэтому можно использовать онлайн-генератор. Конечно, его, скорее всего, придется затем дорабатывать вручную, однако основные директивы он пропишет. К примеру, можно использовать сервис mcanerin.com.

Создание сайта. Часть 3. Правильное создание файлов Robots.txt и Sitemap.xml

В списке Default - All Robots are: выберите одно из значений. Если поисковые роботы допускаются к сайту, выберите вариант Allowed, если же доступ нужно запретить — Refused. В списке Crawl-Delay укажите значение директивы отсрочки загрузки страниц, а в поле Sitemap напишите путь к карте сайта. Если требуется ограничить доступ к сайту некоторых поисковых роботов, выберите в списке напротив их названий вариант Refused. В разделе Restricted Directories укажите папки, к которым нужно закрыть доступ. В конце каждой папки должен быть символ /.

Нажмите на кнопку Create robots.txt, чтобы сгенерировать файл. Скопируйте результат из поля формы и вставьте в текстовый файл.


Создание сайта. Часть 3. Правильное создание файлов Robots.txt и Sitemap.xml


Что делать, если создать файл robots.txt невозможно

Как правило, владелец сайт имеет доступ к корневой директории сайта по FTP и может записать в нее файл robots.txt. Но если доступ к этой папке по каким-то причинам не предоставляется, можно запретить индексацию отдельных страниц сайта иным способом. Для этого в код страницы нужно включить тег META NAME=«ROBOTS» CONTENT=«NOINDEX». Если же включить тег META NAME=«ROBOTS» CONTENT=«NOFOLLOW», робот будет индексировать страницу, но проходить по ссылкам с нее не будет. Некоторые SEO-оптимизаторы даже рекомендуют использовать эти теги вместо запретов в robots.txt, поскольку они имеют больший вес для поисковых роботов. Содержимое файла robots.txt робот может проигнорировать, а вот такой тег обработает обязательно.

Проверка работоспособности robots.txt


Чтобы убедиться в том, что в файле robots.txt нет ошибок, и он воспринимается поисковыми роботами, можно проверить его на наличие ошибок. Это можно сделать, например, при помощи сервиса Яндекс.Вебмастер. Регистрация на сервисе для проверки файла robots.txt не требуется. Щелкните по ссылке Проверить robots.txt на заглавной странице. Проверка производится для робота с именем Yandex, а при его отсутствии — для всех роботов (User-Agent: *).

Введите адрес сайта в поле Имя хоста. Нажмите на кнопку Загрузить robots.txt с сайта. Содержимое файла отобразится в поле Robots.txt. Если ошибки будут обнаружены, они отобразятся в окне.


Создание сайта. Часть 3. Правильное создание файлов Robots.txt и Sitemap.xml


Назад Вперед








Еще по теме:

  • blekko — поиск в Интернете по-новому
  • Обновление архива файлов



  • Информация

    Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.

    Форум Топик Ответов
    Будьте в курсе новостей