За консультации денег не берём

Логотип - Ликорн

Как работает поисковый робот Google?

 Как работает поисковый робот Google?

Специалисты из компании JetOctopus проанализировали поведение поисковых ботов и выделили некоторые особенности работы веб-краулеров.

Содержание статьи:

  1. Как понять попадает ли твой ресурс в поисковую выдачу?
  2. DFI

Как понять, попадает ли твой ресурс в поисковую выдачу?

Для получения такой информации необходимо проверить сайт на индексацию. Если сайт содержит несколько миллионов страниц, то проверка каждой из них в итоге обойдется в крупную сумму.

Вместо этого, специалисты прибегли к краулингу - процессу, при котором поисковой бот (краулер) посещает ваш сайт, переходит по всем ссылкам и добавляет их в очередь на индексацию. При этом происходит сравнение списка  URL-страниц с теми, которые уже есть в индексе. Если необходимо, то бот производит обновление. Затем он решает, какие из страниц индексируются.

Специалисты скраулили сайт так же, как это делает робот поисковой системы. Затем производился анализ логов. По ним можно увидеть, посещал ли поисковый бот сайт вообще, определить частоту и время посещений. Если бот не был на странице, то и в индекс она не попадет. Если был неоднократно, то на такую страницу следует обратить особое внимание. Важно учесть, что это справедливо именно для многостраничных ресурсов. Если на сайте меньше, чем 50 000 страниц, то бот, вероятно, со временем посетит каждую из них.

У  краулера имеется краулинговый бюджет. Так называют определенный запас ресурсов, который Googlebot тратит на сканирование вашего сайта. Он необходим, чтобы определить приоритеты в том, что и когда сканировать и сколько ресурсов для сканирования может выделить хостинг, размещающий ваш сайт.

Размер краулингового бюджета зависит от:

  • Скорости генерации страниц;
  • Частотности и объема запросов;
  • Размера сайта;
  • Структурных факторов.

Если сайт состоит из более, чем 100 000 страниц, то краулер экономит бюджет и посещает не все из них. В итоге могут быть пропущены важные для индексации страницы, а проиндексированы те, о которых давно позабыли владельцы сайта. Цель поисковой системы состоит в то, чтобы с минимальными затратами отвечать на вопросы пользователей.

Анализ нескольких сотен миллионов страниц и наблюдения за поисковым ботом позволили специалистам выделить несколько важных факторов.

DFI

DFI (distance from index) показывает расстояние в кликах от просматриваемой страницы до главной. Важно, что дальность измеряется количеством кликов от главной страницы, а не вложенностью каталогов. Исследования показывают, что интерес бота к конкретной странице сайта снижается в зависимости от ее удаленности от главной страницы. Например, если удаленность составляет 5-6 кликов, то бот краулит уже примерно половину страниц.

Конечно, можно посоветовать избегать DFI выше пяти, более тщательно прорабатывать структуру сайта, внимательнее относиться к процессу перелинковки и т.д. Однако, если сайт содержит более 100 000 страниц, то соблюсти эти рекомендации будет довольно сложно. Если на таком ресурсе вы обнаружили страницу с высоким DFI, то определите степень ее важности и посмотрите, какое место занимает она в поисковой выдаче. У страниц с высокой позицией в выдаче имеется отличный потенциал.

Для увеличения посещаемости какой-либо страницы можно поставить на нее ссылки с соседних страниц, то есть выполнить перелинковку. Исследования показывают, что для достижения эффекта ссылок должно быть не меньше десяти. Чем больше сайт, тем большее значение имеют ссылки.

Если на сайте имеется более миллиона страниц и на какую-то из них ведет слишком мало ссылок, то проверьте сначала степень ее качества. Решите, нужна ли она вам. На те страницы, которые считаете важными, начните понемногу добавлять ссылки. Результат своих действий рекомендуется регулярно отслеживать через логи.

Имеет значение и размер контента. Чем он больше, тем лучше. В большинстве случаев страница, на которой содержится менее пятисот слов, не несет никакой принципиально важной информации и является мусорной. Если вы считаете такую страницу важной для развития сайта, то добавьте на нее определенное количество контента.

Еще одним важным параметром является скорость загрузки страницы. Бот ждет загрузки, как и любой пользователь, затрачивая на это часть своих ресурсов. Ему выгоднее потратить по одной секунде на загрузку пяти страниц, чем пять секунд на загрузку одной страницы.  Это проблема чисто технического характера, и ее решение требует индивидуального анализа и профилирования.

Важным фактором является соотношение полезного контента и шаблона страницы. Например, сайт с кличками для собак содержит малое количество полезного контента, поэтому нет смысла создавать такой ресурс по сложным шаблонам.

Еще один важный фактор – «сиротские страницы», о которых не знают поисковики. Это наглядно показано на рисунке.

Отмеченные синим цветом страницы знает только поисковик. На крупных сайтах их количество может превышать 1 000 000. Получается, что поисковая система знает о сайте больше, чем его владелец. Бот может посещать удалённые страницы, страницы с JavaScript или AJAX, страницы неактуального редиректа. Разумеется, на все эти переходы тратится краулинговый бюджет. Такая проблема имеет два пути решения. Во-первых, можно произвести перелинковку и ссылками присоединить «сиротские страницы» к остальным. Во-вторых, можно  обрать список URL этих страниц, проверить, рабочие ли они, и если да, то сгенерировать из них карту сайта и отправить в Google и «Яндекс». Обратите внимание, что проиндексируется в этом случае примерно половина страниц.

 

Рейтинг: 0/5 - 0 голосов