четверг, 10 февраля 2011 г.

Индексация без проблем в seznam.cz. Часть 1


С индексацией в сезнаме многие имеют проблемы. И это при том, что за последние пол года seznam ввел ряд изменений, которые ускорили не только индексацию, но и обновление индекса. В первой части проберем старые известные методы и разберем использование на практике этих методов.
Как оповестить seznam о новом сайте?

Как оповестить seznam о новом сайте?

Если вы закончили разработку нового сайта и начинаете кампанию по линкбилдингу, то стоит начать с добавления сайта в сезнамовскую аддурилку. Этим вы добавите свой сайт в очередь на первое посещение сезнамботом.

Seznambot

Seznambot – это сканер сезнама, который проходит главную и внутренние страницы cайта. Робот ведет себя достаточно спокойно, он не насканит гигабайты информации. Об этом не стоит беспокоится. Его интересует лишь html, css, javascript и, конечно, сам текст. Css и javascript скачивает лишь при подозрениях, которые могут привести к санкциям. Т.е. в целом можно сказать, что сканируется лишь html и текст. Кто-то мне говорил, что просматриваются еще и параметры документов и медиафайлов. Правда не знаю, на сколько это утверждение верно.
Seznambot идентифицируется как один из:
SeznamBot/2.0 (+http://fulltext.sblog.cz/robot/)
SeznamBot/2.0 (+http://fulltext.seznam.cz/)
Чаще всего приходит с этих IP:
77.75.73.123
77.75.72.115
77.75.73.50
77.75.77.123
77.75.76.115
77.78.116.30

Стоит облегчить сезнамботу доступ к сайту. Лучше облегчить странички, чтобы они могли быстро и легко загрузиться. Если вы еще работаете над проектом и он содержит ссылки на страницы с 404 ошибкой, то лучше подождать с индексацией. Следует обратить внимание и на файл .htaccess. Несуществующие странички лучше перенаправить на главную, но это так же не есть хорошо.
Seznambot должен видеть тоже самое, что видит посетитель сайта. Давно уже не сталкивался с таким, но некоторые CMS иногда отдают роботам и посетителям разные странички (пускают роботов и в «серую зону», т.е. куда посетитель может попасть лишь после регистрации). У гугла с этим проблем нет, но я встречал такую проблему на форуме, запущенном на PHPbb 2.x. В данные момент seznambot и PHPbb уже не конфликтуют, но будьте зорки и бдительны по отношению к самописным CMS.
C помощью robots.txt можно управлять поведением сезнамбота.
User-agent: Seznambot // определено для сезнамбота
Request-rate: 10/1m 0600-1459 // 10/1m означает, что за 1 минуту робот может скачать лишь 10 страниц
Request-rate: 30/1m 1500-0559 // от 17 часов и до 8 утра разрешено скачивать 30 страниц за минуту.
Allow: /blog/ //разрешено индексировать все из адреса blog
Disallow: /admin/ //запрещена индексация админки
Это лишь основные команды (наиболее употребляемые). Seznambot поддерживает расширенные стандарты для роботов, которые можно изучить здесь.

Еще несколько заметок, касающихся сезнама:

seznambot посетит страницу на основании того, что там уже когда-то был и на основании того, насколько большая очередь на индексацию. Это должно произойти не позже, чем через 7 дней (это рекорд, обычно быстрее),
при первом посещении seznambot игнорирует nofollow ссылки в рамках сайта, но позже все равно их посетит,
seznambot имеет проблемы с переадресацией с помощью javascript,
если у вас сайт со слишком сложной структурой, и робот может на нем потеряться (или если могут появиться дубли), используйте файл sitemap.xml, на который дайте ссылку в robots.txt. Это единственный верный способ, который гарантирует сканирование роботом всех нужных страничек,
очень важно иметь качественный хостинг, который в случае ошибки не заменит вашу страничку своей или страничкой с рекламой. Хороший хостинг вместо неработающей ссылки вернет страницу с ошибкой (идеально с 503 ошибкой – сервер временно недоступен, дальше 302, в худшем случае 404 – страничка не найдена). Остальное может привести к негативным последствиям. Поэтому стоит выбирать надежный качественный хостинг, который не перенаправляет на свою страницу и не показывает рекламу. Seznambot в случае неудачи попробует посетить страничку чуть позже. В случае, если он попадет на страницу хостинга, то последующее посещение может быть отложено (просто потеряете время).
Что будет дальше?

Как только ваш сайт будет просканирован сезнамботом, придет черед поискового алгоритма сезнама. Что именно он будет будет делать, не так то просто узнать. Можно лишь предполагать. Верно лишь то, что сайт будет проанализирован. Как только анализ будет завершен, каждой страничке будет присвоен S-rank. У меня практически всегда он
сразу был 10 (прим. переводчика: раньше S-rank измерялся в диапазоне от 0 до 100, теперь от 0 до 10). Теперь сайт должен быть доступен в сезнаме с поисковым запросом
site:domen.tld. После должна пройти еще примерно неделя до того, как сайт можно будет найти по ключевым словам. Это процесс постепенный.

На сегодня достаточно. В следующей публикации посмотрим на то, как можно избежать ненужных санкций со стороны поисковика и как после индексации не
потерять сразу множество позиций.
Перевод статьи от Drago. Который пишет в своем блоге о продвижении в чешском интернете. Адрес оригинальной статьи.

0 коммент.:

Отправить комментарий