Индексация сайта поисковыми системами. Правила Индексации

По Всемирной паутине бродит большое количество поисковых роботов, которые ищут для вас информацию на веб-сайтах. Самые основные поисковые роботы – это, конечно, роботы компании Google и Yandex, а также Yahoo и Bing, которые в большей степени распространены на западе.

Часто в рядах SEO-оптимизаторов можно услышать, что сайт попал в индекс или нет. Индексация сайта – это процесс, совершаемый поисковыми роботами, который добавляет ваш сайт в базу данных поисковой системы. Эту базу данных поисковик использует для определения поисковой выдачи на конкретный запрос пользователя. Для того чтобы поисковый робот зашёл на ваш сайт, его нужно зарегистрировать в так называемых каталогах поисковых систем. Вообще-то, регистрация в соответствующем каталоге не всегда даёт гарантии индексирования сайта, это просто как один из вариантов, который оповещает роботов о появлении нового веб-сайта в интернете. Даже если робот попадает на веб-ресурс, он не всегда индексирует все страницы сайта. В большинстве случаев в индекс попадает только определённая часть страниц сайта.

Итак, робот, заходя на сайт, начинает его индексировать, то есть собирать информацию с вашего сайта. Под индексацию подпадают как статьи и ключевые слова, изображения и описания, так и ссылки. Также возможна индексация даже документов и музыкальных фалов, находящихся на сайте. К тому же возможна даже индексация ftp-сервера и файлов, находящихся на нём. Как правило, на сайтах существует раздел для администратора или администраторская панель, с помощью которой владелец ресурса может управлять статьями, публикациями, пользователями и совершать другие манипуляции с сайтом. Зачастую такие разделы находятся в определённом каталоге на сервере (обычно /admin) и хранят все файлы, связанные с администраторской частью сайта. Такой раздел желательно скрыть от индексации поисковыми роботами, так как злоумышленник может найти ссылку на панель администратора в поисковой выдаче и попытаться незаконно получить доступ к вашему сайту. Такой исход событий, мягко говоря, не радует. Это значит, что нужно каким-то образом закрыть доступ поисковым роботам к администраторскому разделу сайта и тем самым закрыть его от индексации.

Также есть сайты, на которых существует «секретный раздел», куда допускаются только зарегистрированные посетители или те, кто оплатил подписку. Такой раздел должен быть доступен только определённому кругу пользователей. Логично, что такой раздел тоже должен быть исключён владельцем сайта из поисковой выдачи. Для того чтобы решить эту проблему и предназначен файл robots.txt.

Файл robots.txt – это простой файл текстового формата, содержащий в себе определённого рода инструкции для поисковых машин. Такие правила руководят роботами при индексировании ими сайта и разрешают либо запрещают индексировать разделы, каталоги, страницы или файлы. Этот файл должен располагаться на самом верхнем уровне в иерархии каталогов сайта для того, чтобы при посещении вашего ресурса роботом, он мог без проблем и в первую очередь найти robots.txt и прочитать его. После прочтения этого файла робот уже руководствуется правилами, в нём описанными, для своей дальнейшей работы.

Разрешить или запретить индексировать страницы сайта это не единственное задание файла robots.txt. Помимо этого можно:
1. Указать поискового робота.

2. Указать путь к файлу sitemap.

3. Указать основное зеркало сайта.

В файле robots.txt можно использовать следующие директивы:

1. User-agent: * – директива, указывающая поисковую машину, для которой должны применяться ниже описанные правила. Звёздочка означает, что следующие правила применяются ко всем поисковым роботам.

2. User-agent: YandexBot – такая директива означает, что правила предназначаются только для робота российского поискового гиганта.

3. User-agent: Googlebot – это означает, что правила будут использоваться только для робота «корпорации добра».

4. Disallow: / – с помощью этого правила можно запретить полностью индексирование вашего сайта.

5. Disallow: /secret – защита от индексации секретного раздела сайта, предназначенного для определённых людей.

6. Allow: / – противоположность директивы Disallow. Allow разрешает индексирование сайта роботами.

7. Sitemap – эта директива существует для того, чтобы указать путь к файлу карты сайта для робота.

8. Host: moyhost.ru или Host: www.moyhost.ru – директива такого вида указывает поисковым роботам ссылку на основное зеркало сайта.

Стоит отметить, что поисковые машины определяют moyhost.ru и www.moyhost.ru как два различных сайта.

Так как файл robots.txt – это обычный текстовый файл, то создать его не составит особого труда даже школьнику. Щёлкните правой кнопкой мыши на рабочем столе и выберите в меню пункт «создать текстовый файл». Именуем его как «robots.txt». Обратите внимание, что его название должно состоять только из символов нижнего регистра (используйте только маленькие буквы). Или откройте ваш любимый текстовый редактор типа блокнот или notepad++ и сохраните файл как с именем «robots.txt». Затем описываем все правила для поисковиков, устанавливаете все, интересующие вас директивы и жмите «сохранить файл». Также в интернете есть онлайн-ресурсы, которые помогают в автоматическом режиме сгенерировать этот файл, а вам останется только скачать его. Будьте внимательны, ведь файл robots.txt не должен превышать размер в 32 килобайта для корректной работы со всеми поисковыми роботами.

После того как сам файл создан или сгенерирован его нужно загрузить на сервер. Делается это либо с помощью файлового менеджера вашего хостинг провайдера, либо при помощи специальных программ, которые называются ftp-клиенты. Самые распространённые из них это такие клиенты, как FileZilla или TotalCommander. Загружаете файл в корень своего сайта и ждёте результатов посещения сайта поисковыми ботами.

Если у вас возникли проблемы с индексацией сайта, и вы не уверены в правильности своего файла robots.txt, вы можете обратится за помощью к нашей студии и мы вам обязательно поможем решить этот вопрос!