Про сайт и robots.txt

От wolf | 31.05.2007 | раздел - Статьи |

Доигрался. Один из сайтов, нормально индексировался, все страници были в индексе. И вот. В один прекрасный момент - страници начали потихоньку пропадать из индекса, и за 2 апа от 250 страниц осталось только 40. В свете последних событий, был весьма озадачен.
Определились довольно быстро. Сайт продвигался с www , ссылки ставились тоже с www, cms работало на конфигурации с www. Но доблестный зеркальщик Я. определил главным сайт без www.
Соответственно отвалились все страници сайта из индекса. Пошутковал.
А если честно - надоели эти шутки Яндекса и неадекватность его работы.
Что будем делать. Скорее всего ничего. Ставить редиректы и прописывать host в robots вроде как уже поздно, да и ждать когда бот по новой перезеркалит - не хочется. Просто переключил конфигурацию cms на работу без www. Посмотрим чем кончится.

Про редирект и роботс уже писал ранее. Да и сама директива host определяется только Яндексом, ))) как подпорка ему для корректировки работы его зеркальщика, что уже говорит о некорректной его работе.

Итак, чтобы было поменьше проблем в будущем, и вы уже определились, как будете представлять сайт с www или без, обязательно пропишите host в robots. Яндекс не рекомендует проводить редирект до зазеркаливания сайта, что может привести к некорректной либо вообще отсутствии
индексации сайта.

Немного о robots.txt и host

-Robots.txt — обычный файл текста, который находиться в корневой директории сайта.
-Robots.txt - содержит инструкции для роботов ПС и других.
-На сайте может быть только один файл “/robots.txt”.
-В записи должна быть хотя бы одна инструкция “Disallow:”

Общий принцип - бот заходит на сайт , ищет robots.txt , считывает инструкции, исследует сайт , руководствуясь инструкциями.
Принцип общий, поэтому не все боты подчиняются.

Что писать в файл robots.txt Общий вид

User-agent: *
Disallow:

Для Яндекса добавьте host для сайта

User-agent: Yandex
Disallow:
Host: myhost.com
В общем читается инструкция как, разрешить всем роботам (Яндексу) индексировать весь сайт ( для Яндекса - основной сайт myhost.com) Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы хотите.
Вот несколько примеров:
Запретить весь сайт для индексации всеми роботами

User-agent: *
Disallow: /

Разрешить всем роботам индексировать весь сайт

User-agent: *
Disallow:

Закрыть от индексации только несколько каталогов

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Запретить индексацию сайта только для одного робота

User-agent: Yandex
Disallow: /
НЕВЕРНО

User-agent: *
Host: www.myhost.com

- отсутствует Disallow:
User-agent: *
Disallow:

User-agent: Yandex
Disallow:
Host: myhost.com

как выяснилось такое расположение инструкций для Яндекса так же неверно, при таком расположении бот пробрасывает инструкции относящиеся к нему. Надо писать-

User-agent: Yandex
Disallow:
Host: myhost.com

User-agent: *
Disallow:

Регулярные выражения и символы подстановки так же нельзя использовать.
«Звездочка» (*) в инструкции User-agent означает «любой робот».
Инструкции вида «Disallow: *.gif» или «User-agent: Ya*” не
поддерживаются.

Каждая инструкция пишется на одной строке без переносов.
Для каждого файла или папки вписываемой в роботс должна быть своя инструкция ( коллективные не обрабатываются).

Подписка без комментария.

Отзывов 3 на “Про сайт и robots.txt”

  1. От errror 13 Янв 2008 | Ответить


  2. От wolf 13 Янв 2008 | Ответить

    Я тоже так думаю )))

  3. От Денис 23 Фев 2008 | Ответить


Оставить отзыв


О сайте

Наше направление - помощь новичкам в интернет, тем кто решил создать свой сайт и даже может быть уже сделал свой первый шаг в сети. Поговорим обо всем понемногу, о создании сайтов, продвижении сайтов, оптимизации информации. Поговорим о установке и настройке Esyndicat, Vamshop, PHP Pro Bid и др.     »» Далее

Найти :