Бот гугл: Взгляните на свою страницу глазами робота Googlebot / Блог компании Google Developers / Хабр

Содержание

Взгляните на свою страницу глазами робота Googlebot / Блог компании Google Developers / Хабр

Уровень подготовки веб-мастера: любой

Функция «Просмотреть как Googlebot» в Инструментах для веб-мастеров позволяет понять, как ваша страница выглядит для роботов Googlebot. Заголовки серверов и код HTML помогают выявить ошибки и последствия взлома, но иногда разобраться в них бывает затруднительно. Веб-мастера обычно хватаются за голову, когда им приходится заниматься решением таких проблем. Чтобы помочь вам в подобных ситуациях, мы усовершенствовали эту функцию, и теперь она может показывать страницу с помощью того же алгоритма, который использует робот Googlebot.

Как отображается просканированная страница
При обработке страницы робот Googlebot ищет и импортирует из внешних источников все связанные с ней файлы. Обычно это изображения, таблицы стилей, элементы JavaScript и другие файлы, встраиваемые с помощью CSS или JavaScript. Система использует их для отображения страницы так, как ее видит робот Googlebot.
Функция Просмотреть как Googlebot доступна в разделе «Сканирование» вашего аккаунта Инструментов для веб-мастеров. Обратите внимание, что обработка страницы с ее последующим показом может занять достаточно продолжительное время. После ее завершения наведите указатель мыши на строку, в которой указан нужный URL, чтобы просмотреть результат.

для обычного робота Googlebot

для робота Googlebot для смартфонов

Обработка ресурсов, заблокированных в файле robots.txt

При обработке кода робот Googlebot учитывает инструкции, указанные в файле robots.txt. Если они запрещают доступ к тем или иным элементам, система не будет использовать такие материалы для предварительного просмотра. Это произойдет и в том случае, если сервер не отвечает или возвращает ошибку. Соответствующие данные можно найти в разделе Ошибки сканирования вашего аккаунта Инструментов для веб-мастеров. Кроме того, полный перечень таких сбоев отобразится после того, как будет создано изображение страницы для предварительного просмотра.

Мы рекомендуем обеспечить Googlebot доступ ко всем встроенным ресурсам, которые есть на сайте или в макете. Это упростит работу с функцией «Просмотреть как Googlebot», позволит роботу обнаружить и правильно проиндексировать контент вашего сайта, а также поможет вам понять, как выполняется сканирование ваших страниц. Некоторые фрагменты кода, такие как кнопки социальных сетей, скрипты инструментов аналитики и шрифты, обычно не определяют оформление страницы, а значит их сканирование не обязательно. Подробнее о том, как Google анализирует веб-контент, читайте в предыдущей статье.

Надеемся, что наше нововведение поможет вам решить проблемы с оформлением сайта и обнаружить ресурсы, которые Google по тем или иным причинам не может просканировать. Если у вас есть вопросы, свяжитесь с нами в сообществе для веб-мастеров на Google Plus или поищите ответ на справочном форуме Google для веб-мастеров.

Новый агент пользователя Googlebot для смартфонов / Блог компании Google Developers / Хабр

Уровень подготовки веб-мастера: высокий

Google индексирует контент, оптимизированный для обычных мобильных телефонов и смартфонов с широким набором функций и возможностей, с помощью разных поисковых роботов. Но мы заметили, что, так как они оба называются Googlebot-Mobile, это нередко вызывает путаницу. Например, веб-мастера, намереваясь запретить сканирование и индексацию сайта для простых мобильных телефонов с ограниченными техническими возможностями, по ошибке запрещают сканирование сайта для всех устройств. Конечно, все это отрицательно сказывается на посещаемости веб-сайта.

Новый Googlebot для смартфонов

Чтобы веб-мастерам было проще разобраться в настройках, через 3–4 недели мы переименуем агент пользователя в нашем поисковом роботе для смартфонов. Название Googlebot-Mobile будет заменено на Googlebot с добавлением слова mobile в строку агента пользователя. Вы можете сравнить отличия ниже.

Googlebot – новый агент пользователя для смартфонов:

Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible;<b>Googlebot</b>/2. 1; +http://www.google.com/bot.html)

Googlebot-Mobile – старый агент пользователя для смартфонов, который вскоре будет заменен:

Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Эти изменения касаются только Googlebot-Mobile для смартфонов. У обычного робота Googlebot останется тот же агент пользователя, а у двух оставшихся поисковых роботов Googlebot-Mobile в строке агента пользователя по-прежнему будут указаны телефоны среднего класса. Как это выглядит, смотрите ниже.

Агент пользователя у обычного поискового робота Googlebot:

Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)

Агенты пользователя у двух поисковых роботов Googlebot-Mobile для телефонов среднего класса:

SAMSUNG-SGH-E250/1. 0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

DoCoMo/2.0 N905i(c100;TB;W24h26) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Проверить, смогут ли эти поисковые роботы проиндексировать ваш сайт, можно с помощью функции «Просмотреть как Googlebot» в Инструментах для веб-мастеров. Полный список наших поисковых роботов опубликован в Справочном центре.

Сканирование и индексирование

Обратите внимание, что после смены поискового агента новый Googlebot для смартфонов будет руководствоваться правилами в robots.txt, метатеге robots и HTTP-заголовках, которые касаются Googlebot, а не Googlebot-Mobile. Вот, например, правило в robots.txt, запрещающее сканировать сайт как обычному роботу Googlebot, так и новому роботу Googlebot для смартфонов:

User-agent: Googlebot
Disallow: /

А такое правило в robots. txt запретит сканирование поисковым роботам Google для простых мобильных телефонов:

User-agent: Googlebot-Mobile
Disallow: /

По нашим подсчетам, это обновление затронет менее 0,001% веб-страниц, но при этом позволит веб-мастерам точнее управлять сканированием и индексацией их контента. Если у вас возникнут вопросы, вы можете:

10 способов думать, как Googlebot и улучшить ваше техническое SEO

Пытаетесь преодолеть очередную планку роста органического
трафика? Высококачественный контент и ссылки безусловно помогут вам в этом, но
не стоит забывать о техническом SEO.
Один из наиболее важных навыков в технической оптимизации сайтов, который вы
можете приобрести в 2019-м – научиться думать, как Googlebot.

Прежде чем приступить к содержательной части, необходимо понять, что вообще из себя представляет этот Гугл-бот, как он работает и для чего нам всё это знать.

Что такое Googlebot

Googlebot – это веб-краулер (робот, паук), который собирает
данные с веб-страниц. Всего лишь один из многих. У каждой поисковой системы
есть свои фирменные пауки. В мире SEO их ещё называют «агентами
пользователя». Вот наиболее известные:

Yandex – Яндекс
Googlebot – Google
Bingbot – Bing
Slurp Bot – Yahoo
Alexa Crawler – Amazon Alexa
DuckDuckBot – DuckDuckGo

Как работает Googlebot

Мы не можем начать оптимизировать сайты под Googlebot, пока не поймём, как он обнаруживает, читает и оценивает веб-страницы.

Как робот Google находит веб-страницы

Краткий ответ:
ссылки, карты сайтов и запросы на обход.

Длинный ответ:
самый быстрый способ заставить Google просканировать ваш сайт, это зайти в Search
Console и добавить ссылку на карту вашего сайта. Однако это ещё не всё.

Несмотря на то, что карты сайта являются отличным способом заставить Google сканировать ваш сайт, этот метод не учитывает PageRank. Внутренние ссылки – это рекомендуемый способ сообщить Google, какие страницы связаны и имеют ценность. В Интернете опубликовано много замечательных статей о Google PageRank и внутренних ссылках, поэтому я не буду сейчас вдаваться в подробности.

Google также может обнаружить ваши веб-страницы, благодаря
профилю «Google Мой бизнес», каталогам и ссылкам с других сайтов. Это упрощённая
версия того, как работает робот Google. Чтобы узнать больше, вы можете
прочитать официальную документацию Google по их пауку.

Как робот Google читает веб-страницы

Google прошёл долгий путь в рендеринге сайтов. Основная
задача бота Гугла – прочитать страницу сайта так, как это сделал бы обычный
пользователь. Чтобы проверить, как Google просматривает вашу страницу,
воспользуйтесь инструментом проверки URL в Search Console. Так вы сможете сравнить страницу глазами посетителя
и Googlebot.

Технические факторы ранжирования

Как и в традиционном SEO, в техническом SEO нет волшебной
таблетки. Все 200+ факторов ранжирования важны!

Если вы являетесь техническим специалистом, думающим о
будущем SEO, то самые значимые факторы ранжирования, на которые стоит обратить
внимание, сосредоточены вокруг пользовательского опыта.

Зачем нам думать, как Googlebot

Когда представители поисковых систем говорят нам делать
качественные сайты, они как раз вот это и имеют в виду. Все эти размытые
формулировки являются в то же время очень точными.

Если вы можете удовлетворить пользователей интуитивным и
полезным веб-сайтом, соответствующим требованиям Googlebot, то в итоге получите
больше органического трафика.

Пользователи или роботы

На кого больше обращать внимание при создании сайта? На
пользователей или на роботов?

Краткий ответ: на
тех и на других.

Длинный ответ: это острый вопрос, который может вызвать напряжённость между дизайнерами интерфейсов, веб-разработчиками и SEO-специалистами. Тем не менее это даёт нам возможность поработать вместе и лучше понять баланс между поведением пользователей и ботов.

UX-дизайнеры отдают предпочтение в работе пользователям. SEO-специалисты – краулерам. Посередине находятся веб-разработчики, пытающиеся взять лучшее из обоих миров.

Опытный сеошник должен понимать важность пользовательского
опыта. Поэтому необходимо оптимизировать сайты и под людей, и под роботов,
одновременно. К счастью, Google изо всех сил старается ориентироваться на живых посетителей
сайтов.

Следующие 10 советов по оптимизации под Гугл-бота позволят
вам ублажить сразу обоих: дизайнера и разработчика.

1. Robots.txt

Robots.txt – это текстовый файл, который находится в корневом каталоге веб-сайта. Это одна из первых вещей, которую ищет робот Googlebot при сканировании сайта. Настоятельно рекомендуется добавить robots.txt на ваш сайт и включить в него ссылку на sitemap.xml.

Есть много способов оптимизировать файл robots.txt, но важно соблюдать осторожность. Разработчик может закрыть индексацию для всех роботов во время технических правок и забыть открыть её при внедрении на действующий сайт. В результате даже после устранения проблемы могут потребоваться недели на возврат органического трафика.

Существует множество советов и руководств по оптимизации
файла robots. txt. Тщательно разберитесь в вопросе, прежде чем что-то внедрять
на свой сайт. И не забывайте отслеживать результаты правок.

2. Sitemap.xml

Карты сайтов являются ключевым способом обнаружения новых страниц на ваших проектах ботом Гугла и считаются важным фактором ранжирования.

Вот несколько советов по оптимизации карты сайта:

У вашего сайта должна быть только одна карта.
Страницы блога и основные страницы сайта должны быть разделены на разные файлы, а затем объединены в общую карту.
Не устанавливайте высокий приоритет для каждой отдельно взятой страницы.
Удалите из карты сайта страницу для 404-ошибки и 301 редиректы.
Отправьте файл sitemap.xml в Google Search Console и следите за обходом.

3. Скорость сайта

Быстрота загрузки стала одним из важнейших факторов ранжирования, особенно для мобильных устройств. Если скорость загрузки вашего сайта слишком низкая, робот Google может понизить ваш рейтинг.

Самый простой способ выяснить, считает ли робот Google, что
ваш сайт загружается слишком медленно, – это проверить скорость с помощью любого
из бесплатных инструментов. Многие из этих инструментов предоставляют
рекомендации, которые вы можете отправить вашим разработчикам.

4. Микроразметка Schema

Добавление структурированных данных на ваш сайт поможет роботу Google лучше понять контекст отдельных веб-страниц и веб-сайта в целом. Однако важно, чтобы вы следовали рекомендациям Google.

Для наибольшей эффективности лучше использовать JSON-LD при реализации разметки структурированных данных. Сам Google отметил у себя в рекомендациях, что JSON-LD является предпочтительным языком разметки.

5. Канонизация

Большой проблемой для крупных сайтов, особенно в секторе
электронной коммерции, является дублированный контент. Есть множество
практических причин для дублирования контента, например, мультиязычность сайта.

Если вы используете сайт с дублированным контентом, крайне важно указывать основные страницы при помощи тега rel=canonical и атрибута hreflang.

6. Таксономия URL

Наличие чёткой и понятной структуры URL, как показывает практика, приводит к более высоким позициям в поисковой выдаче и помогает пользователям лучше ориентироваться на сайте. Настройка родительских страниц позволяет роботу Google понимать взаимосвязь каждой страницы.

Однако, если у вас есть старые страницы, которые имеют
хорошие позиции, Джон Мюллер из Google не рекомендует менять их URL. Грамотная
таксономия URL-адресов – это то, что нужно установить с самого начала
разработки сайта.

Если вы абсолютно уверены, что оптимизация URL-адресов поможет сайту, убедитесь, что настроили правильные 301-редиректы и обновили свой sitemap.xml.

7. Загрузка JavaScript

Несмотря на то, что со статичными HTML-страницами проще работать в плане SEO, динамический контент,
созданный с помощью JavaScript, позволяет сделать ваш веб-сайт интереснее для
пользователей. В 2018 году Google потратил много ресурсов на улучшения
взаимодействия с JavaScript.

Во время недавней сессии
вопросов и ответов с Джоном Мюллером, последний заявил, что Google планирует
продолжить фокусироваться на JavaScript в 2019 году. Если ваш сайт сильно
зависит от динамического рендеринга с помощью JavaScript, убедитесь, что ваши
разработчики следуют официальным рекомендациям Google.

8. Изображения

Google давно намекает на важность оптимизации изображений, но в последние месяцы особенно много говорит об этом. Оптимизация изображений поможет роботу Google контекстуализировать, как ваши картинки связаны и улучшить ваш контент.

Если вы хотите быстро оптимизировать изображения, я
рекомендую:

Имя файла
изображения: опишите, что это за изображение, используя как можно меньше
слов.
ALT-текст: можно
скопировать имя файла и использовать дополнительные слова для описания
изображения.
Структурированные
данные: вы можете добавить schema-разметку для описания изображений на
странице.
Карта картинок
сайта: Google рекомендует добавить отдельную карту для ваших изображений.

9. Неработающие ссылки и зацикленные редиректы

Все мы знаем, что битые ссылки – это плохо, некоторые оптимизаторы утверждают, что они могут потратить впустую бюджет на обход сайта. Однако Джон Мюллер заявил, что неработающие ссылки не уменьшают этот бюджет.

Я полагаю, что, учитывая неоднозначность имеющейся информации, мы должны быть осторожны и убирать все неработающие ссылки. Используйте Google Search Console или ваш любимый инструмент для сканирования, чтобы найти неработающие ссылки на сайте!

Зацикленные редиректы – ещё одна характерная черта старых проектов. Такое явление обычно возникает, когда в цепочке редиректов присутствует несколько этапов.

Пример выше: третий вариант первоначальной страницы перенаправляет
пользователя на второй вариант, который, в свою очередь, перенаправляет опять
на третий вариант. Получается замкнутый цикл.

Поисковые системы часто испытывают трудности при
сканировании циклов перенаправления и потенциально могут завершить обход сайта.
Лучшее решение здесь – заменить исходную ссылку на каждой странице финальной
ссылкой.

10. Заголовки страниц и мета-описания

Для многих SEO-профессионалов подобная информация может показаться устаревшей, но на практике доказано, что хорошо оптимизированные заголовки страниц и мета-описания могут улучшить ранжирование и CTR в поисковой выдаче.

Да, это самые основы поисковой оптимизации, но Googlebot читает их (title, description), поэтому не стоит пренебрегать дополнительной возможностью. Есть много различных теорий по поводу правильных meta-тегов, но общие рекомендации довольно просты:

Лучше использовать вертикальные чёрточки (|) вместо дефисов (-) в качестве разделителя, хотя боту Гугла без разницы.
В заголовок главной, страницы контактов и «о компании» включите название вашего бренда. В большинстве случаев другие типы страниц не имеют большого значения.
Не увлекайтесь длиной.
Для вашего мета-описания скопируйте первый абзац текста и отредактируйте его так, чтобы он соответствовал диапазону, который в данное время Google рекомендует использовать для тега description. Если это в результате не совсем точно описывает вашу страницу, то вам следует подумать о том, чтобы поработать над содержанием.
Проверьте! Использует ли Google ваши собственные заголовки и описания.

Подведём итог

Когда дело доходит до технического SEO и оптимизации под поисковых
роботов, есть много вещей, на которые стоит обратить внимание. Многие из них
требуют практических исследований, и я рекомендую попросить ваших коллег
поделиться опытом, прежде чем вносить изменения в сайт.

Хотя новаторская тактика является захватывающей, она может
привести к снижению органического трафика. Хорошее правило – проверить эту
тактику, подождав несколько недель между изменениями. Это даст Googlebot
определённое время, чтобы он смог разобраться с нововведениями на сайте и
соответственно повысить вас в выдаче.

Автор оригинала: Джон
Макалпин – руководитель SEO-департамента в Cardinal
DIgital Marketing. Джон разрабатывает общую SEO-стратегию для CDM – SEO-агентства из Атланты, которое специализируется
на обслуживании компаний, работающих в сфере здравоохранения на всей территории
США. В настоящее время он живёт в Далласе, активно участвует в местном и
национальном SEO-сообществе, имеет большой опыт в области технического SEO,
веб-разработки и стратегии цифрового маркетинга.

Источник: www.searchenginejournal.com.

ПОНРАВИЛСЯ ПОСТ? ПОДЕЛИСЬ ССЫЛКОЙ С ДРУЗЬЯМИ!

СТАТЬИ ИЗ РУБРИКИ:

Что нужно знать, чтобы Googlebot не убил ваш сайт

Технический директор JetOctopus

На сегодняшний день уже многие SEO-специалисты признают, что индексируемость сайта имеет решающее значение для увеличения органического трафика. Они делают все возможное, чтобы оптимизировать краулинговый бюджет, и получают огромное удовольствие от роста посещаемости сайта ботом Google. Однако наш случай говорит об обратном.

В июне 2020 года к нам обратился клиент с весьма необычной проблемой: Google стал крайне активно краулить его интернет-магазин. Обычно владельцы сайтов радуются, когда увеличивается краулинговый бюджет на сайте, но в данном случае сервер был перегружен и сайт практически перестал работать.

Первый вопрос, который принято задавать в подобных ситуациях: что меняли на сайте? Но клиент уверил, что никаких изменений не было.

Первичный анализ и наши действия

Первым делом мы сделали краул сайта. И очень удивились – на сайте меньше 100 тыс. страниц, 80 % которых закрыто от индексации. При этом Googlebot краулил в среднем 500 тыс. страниц в сутки!

Сам сайт состоит из двух частей: интернет-магазина и форума. Обычно подозрения падают в первую очередь на форум, но в данном случае он работал корректно.

Взглянув в логи, мы обратили внимание на страницы с параметром PageSpeed=noscript.

Сопоставили данные – оказалось, что на такие страницы было сделано больше 8 млн запросов от Googlebot. Очевидно, что это не нормальные URL, которые должен генерировать сайт.

Мы добавили в robots.txt Disallow: *PageSpeed=noscript* – это частично решило проблему, но бот все равно сканировал много лишних страниц.

Дальнейший анализ показал, что бот ходит по пересечениям фасетных фильтров, которые генерируют практически бесконечное количество страниц. Такие URL не были заблокированы в robots.txt, а на странице находится тег

Это еще больше усугубляло ситуацию.

В итоге мы добавили еще строчку в robots.txt Disallow: *?*.

Количество запросов от Googlebot снизилось, сайт вернулся к нормальной работе.

У нас появилось время заняться анализом причины этой ситуации.

Поиски причины

В компьютерных системах ничего не ломается само по себе, всегда есть причина. Она может быть не очевидна, часто бывает сложная цепочка причин. Но суть работы компьютера в том, что если у него есть задача взять X, прибавить к нему Y и поместить это в Z, он будет это делать практически бесконечное количество времени.

В случае с нашим кейсом клиент утверждал, что никаких изменений или действий на сайте не выполнял. Из практики мы знаем, что у разных людей разное понимание слов «мы ничего не делали», но в нашем случае это было действительно так.

Мы решили подойти с другой стороны – изучить поведение Googlebot. За последние несколько лет было не так много изменений, о которых говорилось публично. Основные – это обновление версии Chrome внутри бота и переход на evergreen.

Изначально наше внимание привлекли параметры PageSpeed=noscript в URL. Их генерирует mod pagespeed, для Apache и Nginx в случае, когда у клиента отключен JS. Этот модуль предназначен для оптимизации страниц и был весьма популярен несколько лет назад. На данный момент целесообразность его использования под вопросом.

Давайте еще раз посмотрим на скриншот из GSC:

Последний скачок, который начался в районе 20 мая, привел к колоссальному росту краулинга ботом.

И тут мы вспоминаем, что 19-20 мая произошло отключение старого Chrome/41 внутри Googlebot.

Является ли это причиной этой ситуации? Нельзя сказать на 100 %, т. к. у нас нет исторических клиентских логов за май, которые бы могли полностью прояснить ситуацию. Но скорее всего, именно обновление Chrome внутри Googlebot могло привести к краулингу большого количества ненужных страниц, которые в старой версии не обрабатывались.

Так что же делать?

Проанализировав этот кейс, можно сделать несколько выводов:

Метатег noindex, follow работает как follow, и Googlebot нужно достаточно много времени, чтобы он стал трактоваться как nofollow. В данном случае 40 дней было недостаточно.

Googlebot потребовалось около 17 часов, чтобы применить новые правила robots.txt для блокировки PageSpeed=noscript, и в то же время блокировка “?” сработала в течение часа.

Эвристика внутри бота не так быстра, в данном случае сайт начал ощутимо тормозить, время загрузки страниц – 2-5 секунд, но Googlebot только наращивал объем краулинга.

Cобирайте логи. Это в дальнейшем может очень помочь в поиске проблем и анализе сайта. Современные хранилища весьма дешевы, можно складывать данные даже в Dropbox стоимостью 10 USD/mo за 2 ТБ данных. Если же у вас большой сайт с огромными объемами трафика, напомните вашему devops про Amazon Glacier, где за те же 10 USD/mo можно хранить 25 TБ данных. Поверьте, этого хватит на многие годы.

Как найти и обезвредить фейкового гуглбота, как определить бота

Выпускающий редактор SEOnews

В прошлом месяце агентство Incapusla Security представило отчет о состоянии гуглботов и их вредоносных близнецов. И надо сказать, для тех, чей бизнес зависит от статистики сайта, новости не очень хорошие.

Из 24 посещений сайта гуглботами одно обязательно совершает фейк. При этом более 34% фейковых гуглботов используются для DDoS-атак, взломов, спама и других вредоносных действий.

Методология

Эксперты Incapusla проанализировали:

«… более 400 млн посещений роботами поисковых систем 10 тысяч сайтов, в результате которых было проиндексировано 2,19 млрд страниц в течение 30 дней.

Информация о гуглботах-самозванцах (фейковых гуглботах) получена вследствие проверки более 50 млн посещений гуглботов-самозванцев, а также из отчета DDoS Threat Landscape, опубликованного ранее в этом году».

Выводы Incapusla

Когда Incapusla обратили внимание на стандартного гуглбота, то заметили некоторые интересные моменты.

Для начала следует отметить, что гуглботы сканируют больше страниц, чем роботы всех других поисковых систем вместе взятые, — 60,5%.

То, что Incapusla обнаружили при анализе этих посещений, также было немного неожиданно:

Yahoo выбыл из топ 5 поисковых роботов.

Majestic 12 Bot, или бот WebCrawler Majestic SEO, занял четвертое место.

Google не оказывает никому покровительства.

Нет практически никакой разницы между размером площадки и:

Частотой индексации,

Показателем индексации,

Глубиной индексации,

SEO-продуктивностью.

Известно, что Google — крупнейший генератор посещений ботов и что эти посещения инициируются чем-то иным, нежели активностью сайта или SEO, и что он прислушивается к мнению пользователей.

В целом, довольно неплохо. Но беспокойство вызывает не Google, а его «злые» близнецы, с которыми следует быть осторожнее (их очень много — и некоторые их них отлично сделаны).

Юзер-агенты

Чтобы узнать, какие боты посещают наш сайт необходимо посмотреть сведения о них в лог файлах . Когда мы видим соответствующий юзер-агентагент пользователя, мы знаем, из какой поисковой системы, с какого компьютера или браузера произошло посещение. Например, юзер-агент может выглядеть следующим образом:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:30.0) Gecko/20100101 Firefox/30.0

Эта информация говорит, что кто-то использует Mozilla/Firefox 30 на MacIntoch с операционной системой Mavericks. Она также может рассказать о пауках, программах и ботах, то есть о тех, кто «бегает» по нашим сайтам.

Имитация Google — жизнь бота

В ходе исследования Incapusla обнаружили, что «более 4% ботов, представляющихся гуглботом, на самом деле им не являются». И здесь победителем становится Бразилия с долей фейковых гуглботов почти 14%.

Плохие боты

Зачем кому-то создавать фейковых гуглботов?

Это что-то вроде того, как иметь поддельные документы в 18 лет. Иногда вы просто хотите потусоваться, но чаще они нужны вам, потому что вы делаете что-то такое, о чем лучше не знать вашей маме.

Не все боты плохие

Примите во внимание, что не все боты плохие и созданы со злым умыслом. Иногда фейковых гуглботов используют только для того, что посмотреть на ваш сайт глазами Google.

Поэтому прежде чем блокировать бота, обратите внимание на его поведение. Может, он всего лишь просматривает сайт? Заходит ли он снова и снова, имеют ли его перемещения случайный характер?

И только после того как вы определите, что это плохой бот, можно закрыть ему доступ. Будьте осторожны, так как вы можете заблокировать доступ и для роботов Google.

Как узнать, что посещения фейковые?

Одним из ключевых показателей, указывающих на то, что есть проблемы с фейковыми гуглботами, является страна происхождения бота.

На американские сайты чаще всего заходят боты из 6 стран, показанных на картинке справа. А вот боты, чья родина указана на изображении слева, должны заставить владельца ресурса насторожиться. Однако если вы работаете со странами из списка слева, то нет ничего странного в том, что ваш сайт будут посещать их гуглботы.

Если вы увидели что-то подозрительное, то не забудьте просмотреть логи сервера и юзер-агенты и проверить, совершаются ли на вас атаки. Если это так, и у вас нет доступа к серверам, свяжитесь с компанией, которая может заблокировать их за вас.

Определить плохого бота не слишком трудно

Хорошей новостью является то, что идентифицировать плохого бота не так уж сложно. И как только это будет сделано, вы можете заблокировать его и больше не пускать на свой сайт. Но это в том случае, если у вас есть такие возможности, права и доступы. У большинства владельцев сайтов всего этого нет, и им приходится полагаться на свою хостинговую компанию, поэтому очень важно выбрать надежного и осведомленного подрядчика.

Если у вас есть доступы, вы можете предпринять необходимые меры, чтобы убедиться, что боты действительно осуществляют какую-то деструктивную деятельность, а затем заблокировать их.

Как определить плохого бота?

Иногда выявить плохих ботов может быть достаточно проблематично: некоторые из них очень сложно устроены, особенно, те, которые имитируют Google. Вот некоторые шаги, которые помогут определить фейковых ботов.

Incapusla исходя из собственного опыта сформулировала 4 шага для выявления фейковых ботов:

Шаг 1. Посмотрите на данные в заголовке

Даже если боты использовали юзер-агент Google, остальные данные заголовка будут совсем «не как у Google». Этого достаточно, чтобы забить тревогу, но не торопитесь блокировать его, потому что зарегистрированы случаи, когда Google отклоняется от обычной структуры заголовка.

Шаг 2. Проверка IP и ASN

Далее проведите проверку IP и ASN. Здесь стоит обратить внимание на несколько моментов, в том числе на личности владельцев IP-адресов и ASN, которые производят подозрительный трафик.

В случае с фейковыми гуглботами ни IP, ни ASN не будут связаны с Google. Таким образом, с помощью параллельной проверки этой информации и сомнительных заголовков можно с высокой степенью уверенности сказать, что мы имеем дело с потенциально опасными двойниками.

Шаг 3. Контроль действий

Тем не менее «потенциально опасный» это не всегда «злой». Например, некоторые SEO-инструменты пытаются выдать себя за гуглботов, чтобы получить «гуглоподобное» видение контента сайта и ссылочного профиля.

Именно поэтому следующий пункт поиска — поведение посетителей. Оно поможет нам понять их намерения, ключ к которым часто лежит в самом запросе, так как они представлены в WAF (Web Application Firewall). В этом случае самого показателя посещений достаточно, чтобы завершить картину, сразу определив DDoS-атаки и повысив автоматизированную защиту от них.

Шаг 4. Репутация IP и новая низкоуровневая подпись

Хотя Incapusla регулярно сталкивается с гуглботами, вариант подписи, появившийся во время последней атаки, отраженной системой, не был частью существующей базы данных. После смягчения атаки собранные данные использовались, чтобы создать новую запись низкого уровня, которая затем будет добавлена к десятимиллионному пулу записей и разведена через сеть, чтобы защитить всех клиентов Incapusla.

В результате при следующем посещении этими ботами сайта они будут немедленно заблокированы. Более этого, репутация атакующих IP также будет записана и добавлена в другую базу данных, где хранятся потенциально опасные адреса.

Проще говоря, вы должны знать, что юзер-агенты могут быть фейками, IP-адреса могут быть подделаны, а заголовки реконструированы и т.д. И для обеспечения безопасности, нужно раскрыть «истинное лицо» и намерения посетителей.

Итоги

Следите за своим органическим трафиком, особенно за страной его происхождения. А когда кто-то или что-то путешествует по вашему сайту, узнайте, каковы его намерения, и не держите в страхе «хороших ребят».

Недавно для обеспечения удобства пользователей Google Analytics запустил фильтр ботов и пауков. Подробнее об этом можно прочитать здесь.

Использование Google Analytics для отслеживания Googlebot

Как правило, веб-серверы ведут журнал (так называемый «log») каждого отдельного запроса, полученного в log-файле. Log-файлы веб-сервера содержат записи о каждом файле, передаваемом веб-клиенту, включая страницы, обслуживаемые Googlebot’ом, и дают уникальную информацию о том, как поисковые системы сканируют веб-сайт.

Однако, log-файлы часто сложны для доступа и обработки.

Лайфхак использования Google Analytics для того, чтобы отслеживать Googlebot! Альтернативный способ анализа того, как поисковик сканирует сайт, без постоянной работы с log-файлами или сервисами. Без абонентской платы и танцев с бубнами.

Введение в log-файлы
веб-сервера

Каждый раз, когда файл запрашивается с веб-сервера (когда
пользователь заходит на страницу через браузер или поисковая система сканирует
URL-адрес), в log-файл
добавляется текстовая запись.

В текстовой записи указывается время и дата, когда был
сделан запрос, IP-адрес запроса, запрошенный URL/контент и user agent из браузера:

188.65.114.122 –[30/May/2019:08:07:05 -0400] “GET /resources/whitepapers/ retail-whitepaper/ HTTP/1.1” 200 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

Обычно, новый log-файл каждый день создается с новым именем.

Как используются log-файлы

Комбинируя запросы от одного и того же IP-адреса и User agent’а, можно объединить отдельные посещения одного пользователя. Программное обеспечение имеет возможность обрабатывать информацию из log-файлов и может создавать отчёты об активности вплоть до просмотра отдельных страниц. До изобретения сторонних аналитических пакетов, этот тип данных был основным источником информации для веб-аналитики.

В дополнение к пользовательской активности, анализ log-файла предоставляет
уникальную информацию об активности поискового робота на отдельных страницах.

Просмотры страниц роботами не записываются с помощью обычного аналитического программного обеспечения. Log-файлы предоставляют, недоступные где-либо ещё, данные о сканировании поисковой системой на уровне URL. Это полезно при оптимизации архитектуры сайта для максимально рационального и эффективного его сканирования роботом.

Анализ log-файлов
также удобен при поиске как малополезных, так и высокоактивных роботов, что
позволяет блокировать их и снизить затраты на сервер. Обратный поиск DNS по
IP-адресам необходим для проверки подлинности ботов, поскольку поле user agent’а может быть подделано.

Хоть это и полезно, у анализа log-файла есть много сложностей.

Сложности, связанные с анализом log-файлов

Размер: log-файлы пропорциональны активности и могут достигать размера в несколько гигабайт, что делает их загрузку продолжительной, а хранение неудобным.
Доступ: требуется FTP-доступ к серверу, что снижает общую безопасность системы.
Форматы: с переменными форматами может быть сложно работать, а каждый веб-сервер использует свой формат.
CDN: сторонние службы кэширования обычно не предоставляют log-файлы и не могут быть легко объединены в один набор.
Проверка: поскольку User-agent может быть подделан, роботы поисковых систем должны проверяться с использованием «Обратного поиска DNS».

Хитрость, связанная с Google Analytics

Эта универсальная фишка, связанная с Analytics, использует Протокол
передачи статистических данных для хранения информации log-файла в учетной записи Google
Analytics, к которой можно получить доступ в режиме реального времени.

Однажды внедрив её, вы полностью избавляетесь от необходимости снова иметь дело с log-файлами. Однако это требует от вас навыков программиста и запуска собственного простого скрипта на веб-сервере и отслеживания каждого запроса.

Большинству людей не хватает навыков, необходимых для
разработки и установки скрипта веб-сервера – вы можете обратиться к
администратору сервера за помощью в реализации этого.

Первый вариант – хранение данных в новом представлении

Если User agent’ом является Googlebot, скрипт может сгенерировать HTTP-запрос к серверу Google Analytics, сохраняя ту же информацию, которая обычно поступает в log-файл, кодируя ее в URL-запрос:

http://www.google-analytics.com/collect?uip=127.0.0.1&cs=page+title&tid=
UA-1234567810&dp=%2Ftest&dt=127.0.0.1+%28Mozilla%2F5.0+%28Macintosh
%3B+Intel+Mac+OS+X+10_9_5%29+AppleWebKit%2F537.36+%28KHTML%2C+
like+Gecko%29+Chrome%2F44.0.2403.157+Safari%2F537.36%29&dh=
example.com&cid=316c4790-2eaf-0133-6785-2de9d37163a1&
t=pageview&v=1

Это позволит записать информацию в Google Analytics как «просмотр
страницы».

Более подробная информация о протоколе передачи
статистических данных доступна на
сайте разработчиков Google.

Вы должны хранить информацию в отдельной учётной записи Google Analytics (представлении).

На вкладке «просмотры страниц» вы можете просмотреть уровень активности вплоть до просмотра каждой страницы:

Google Analytics в режиме реального времени ограничивает поля, которые можно отображать и фильтровать. Для получения данных сканирования в режиме реального времени включите информацию о User agent’е в поле заголовка.

Также бывает полезно включать IP-адреса запроса, поскольку это
позволит распознать активность настоящего робота Google – его адрес начинается
на 66.249.

Включите другую информацию, такую как время запроса, в собственные
измерения.

Второй вариант – создание событий

Второй вариант реализации отслеживания – это создание событий в GA по каждому обращению Googlebot к странице.

Категория события – Googlebot
Действие по событию – URL страницы
Ярлык события – данные Googlebota

Действие по событиюЯрлык события

Таким образом, у вас будет информация какой бот, какие страницы и как часто посещает прямо в GA.

Использование

Использование Google Analytics для отслеживания Googlebot позволяет делать более эффективный метод анализа робота поисковой системы, поскольку это устраняет необходимость возиться с log-файлами.

Имея событие с данными, вы сможете прямо в GA накладывать данные по трафику и посещению ботами страницы.

В статье использованы материалы: deepcrawl.com.

Полезные материалы

Googlebot — Vikipedi

Googlebot , Google tarafından kullanılan bir arama botudur. Bu bot web’deki dokümanları toplar ve Google Arama Motoru için aranabilir bir içerik listesi (index) oluşturur. Eer site yöneticiyseniz ve sitenizin Google aramalarında ya da herhangi bir arama motoru botunun indeksleme işleminde çıkmasını istemiyorsanız sitenizin dizininde bir robots.txt adlı dosya yaratarak ^[1]
, ya da sadece Googlebot için aşağıdaki meta etiketini kullanarak botların indekslemesini engelleyebilirsiniz.

Googlebot’un indeksleme yapabilmesi için, sunucularda «googlebot.com» içeren bir web sitesi (адрес хоста) ve içinde Googlebot kelimesinin geçtiği bir пользовательский агент kodlu metine ihtiyaç duyarlar. ^[1] Bakınız: robots.txt

Googlebot’un iki sürümü vardır: «Derinbot» ( deepbot ) ve «yenileyici bot» ( свежий бот ).

Deepbot Web’de bulunan bütün bağlantıları takip etmeye çalışır ве birçok sayfayı Google indeksleyicisine indirir.Бу işlemi ayda бир кез япар ве тамамлар.
Freshbot веб-сайт sayfalarındaki yenilenmiş içerikleri tarar. Sıklıkla yenilenen web sitelerini değişme sıklıklarınıa bağlı olarak tarar, değişikleri kontrol eder. Yalnız Googlebot HREF ve SRC linkleri takip eder. ^[1]

Googlebot bir sayfayı, o sayfa üzerinde bulunan bütün bağlantıları ziyaret ederek işler, sonra da o bağlantılardan başka web sayfalarına geçer. Bu nedenle ayrıca yeni web sayfaları indekslenmek için başka bilinen web sayfalarından ulaşılabilmelidir.

Сайт yöneticileri, Googlebot’un tarama yaptığı sırada siteye ayrılan bant genişliğinin çoğunu kullandığını ve bu nedenle web sitelerinin zaman zaman bant genişliği limitlerini belmeçtıkıın ol. Bu durum özellikle onlarca gigabyte veri barındıran yansıma — ayna- (англ. Зеркало) siteler için sorun olmaktadır. Сайт Google ayrıca yöneticilerini tarama (indekslenme) oranlarını yükseltmek için çeşitli yolların anlatıldığı bir Инструменты для веб-мастеров sayfasına sahiptir.^[2]

Руководство по поисковому роботу Google

Что такое Googlebot?

Googlebot — это поисковый робот, используемый Google.
Он используется Google для поиска и извлечения веб-страниц.
Информация, собранная роботом Googlebot, используется для обновления индекса Google.

Робот Googlebot посещает миллиарды веб-страниц и постоянно посещает страницы по всей сети.

Что такое веб-краулер?

Веб-сканеры (также известные как боты, роботы или пауки) — это тип программного обеспечения, предназначенного для перехода по ссылкам, сбора информации и последующей отправки этой информации куда-нибудь.

Что делает Googlebot?

Робот Googlebot извлекает содержание веб-страниц (слова, код и ресурсы, из которых состоит веб-страница).
Если полученный контент содержит ссылки на другие объекты, это отмечается.
Затем он отправляет информацию в Google.

Googlebot и ваш веб-сайт

Информация, которую Googlebot отправляет обратно на компьютеры Google, обновляет индекс Google.

В индексе Google сравниваются и оцениваются веб-страницы.

Чтобы ваши веб-страницы можно было найти в Google, они должны быть видны роботу Googlebot.
Для оптимального ранжирования ваших веб-страниц все ресурсы веб-страницы должны быть доступны для робота Googlebot.

Разница между роботом Googlebot и индексом Google

Googlebot

Googlebot получает контент из Интернета.
Робот Googlebot ни в коем случае не оценивает контент, а только извлекает его.
Единственное, что беспокоит Googlebot, — это «Могу ли я получить доступ к этому контенту?» и «Могу ли я получить доступ к дополнительному контенту?»

Индекс Google

Индекс Google принимает контент, полученный от робота Google, и использует его для ранжирования страниц.

Первый шаг в рейтинге Google должен быть получен роботом Googlebot.

Обеспечение доступа робота Googlebot к вашим страницам

Так как Googlebot — это способ, которым Google обновляет свой индекс, очень важно, чтобы Googlebot мог видеть ваши страницы.

Основные первые вопросы, которые должен задать веб-мастер:

Может ли робот Googlebot «видеть» мои страницы?
Может ли робот Googlebot полностью получить доступ ко всему моему контенту и ссылкам?
Может ли робот Google получить доступ ко всем ресурсам моей страницы?

Давайте рассмотрим каждого из них поближе …

1.Может ли робот Googlebot «видеть» мои страницы?

Чтобы получить представление о том, что Google видит на вашем сайте, выполните следующий поиск в Google …

Помещая «site:» перед доменным именем, вы запрашиваете у Google список страниц, проиндексированных Google для вашего сайта.

Совет: при этом убедитесь, что между «site:» и вашим доменным именем нет пробелов. Вот пример использования этого сайта …

Если вы видите меньше страниц, чем ожидалось, вам, вероятно, нужно убедиться, что вы не блокируете Googlebot с помощью своих роботов.txt (файл robots.txt обсуждается далее на этой странице).

2. Может ли робот Googlebot полностью получить доступ ко всему моему контенту и ссылкам?

Следующий шаг — убедиться, что Google правильно видит ваш контент и ссылки.

То, что робот Googlebot может видеть ваши страницы, не означает, что Google имеет полное представление о том, что это за страницы.

Бот Google не видит веб-сайт так же, как люди. На изображении выше есть веб-страница с одним изображением.Люди могут видеть изображение, но робот Googlebot видит только код, вызывающий это изображение.

Робот Googlebot может получить доступ к этой веб-странице (html-файлу), но не сможет получить доступ к изображению, найденному на этой веб-странице, по разным причинам.

В этом случае индекс Google не будет включать это изображение, а это означает, что Google не полностью понимает вашу веб-страницу.

Как робот Googlebot «видит» веб-страницу

Робот Googlebot не видит веб-страницы целиком, он видит только отдельные компоненты этой страницы.

Если какой-либо из этих компонентов недоступен для робота Googlebot, он не будет отправлять их в индекс Google.

Чтобы использовать наш предыдущий пример, здесь робот Googlebot видит веб-страницу (html и css), но не видит изображение.

Это не просто изображения. На веб-странице много частей. Чтобы Google мог оптимально ранжировать ваши веб-страницы, Google нужна полная картина.

Существует множество сценариев, когда робот Googlebot не может получить доступ к веб-контенту, вот несколько наиболее распространенных.

Ресурс заблокирован файлом robots.txt
Ссылки на страницы не читаются или неверны
Чрезмерное использование Flash или других технологий, с которыми веб-сканеры могут испытывать проблемы
Неверный HTML или ошибки кодирования
Чрезмерно сложные динамические ссылки

Большинство из этих вещей можно быстро проверить с помощью инструмента рекомендаций Google.

Если у вас есть учетная запись Google, используйте инструмент «выборка и рендеринг» в консоли поиска Google. Этот инструмент предоставит вам живой пример того, что Google видит для отдельной страницы.

3. Может ли робот Google получить доступ ко всем ресурсам моей страницы?

Если файлы CSS и javascript заблокированы вашим файлом robots.txt, это может вызвать серьезные недоразумения относительно содержания вашей веб-страницы (гораздо хуже, чем просто отсутствующее изображение).

Все чаще становится правдой то, что веб-страница может фактически отличаться или иметь другое содержимое, если ресурсы страницы не загружены.

Примером, иллюстрирующим это, может быть мобильная страница, которая использует CSS или javascript для определения того, что показывать в зависимости от того, какое устройство просматривает страницу.Если робот Googlebot не может получить доступ к CSS или Javascript этой страницы, он может не понимать, что страница может быть мобильной.

В этом и других подобных сценариях Google «увидит» вашу страницу и может даже понять ее, но может не знать ее достаточно, чтобы понять, что ее можно ранжировать во многих других сценариях, помимо того, что представляет только HTML.

Это также можно проверить с помощью инструмента рекомендаций Google.

Могу ли я управлять роботом Googlebot?

Да.

Робот Googlebot следует инструкциям, полученным от роботов.txt и даже имеет расширенные способы управления, специфичные для Google.

Некоторые способы управления роботом Google:

Использование файла robots.txt
Включение инструкций робота в метаданные ваших веб-страниц
Включение инструкций по роботам в заголовки
Использование файлов Sitemap
Использование консоли поиска Google

Самый распространенный способ — использовать файл robots.txt

Что такое robots.txt файл?

Файл robots.txt контролирует, как пауки поисковых систем, такие как робот Google, видят ваши веб-страницы и взаимодействуют с ними.

Короче говоря, файл robots.txt сообщает роботу Googlebot, что делать, когда он посещает ваши страницы, путем перечисления файлов и папок, к которым вы не хотите, чтобы робот Googlebot имел доступ.

Подробнее об этом читайте в моем руководстве к файлу robots.txt.

Чтобы просмотреть файл robots.txt (или узнать, есть ли он у вас), вы можете ввести URL-адрес (например, вашу домашнюю страницу) в инструмент ниже, и он покажет вам его прямо здесь, на этой странице.

Вот несколько ресурсов от Google, которые говорят об инструкциях роботов:

Карты сайта и робот Googlebot

Sitemap — это способ помочь роботу Googlebot понять ваш веб-сайт, или, как говорит Google …

«Карта сайта — это файл, в котором вы можете перечислить веб-страницы своего сайта, чтобы сообщить Google и другим поисковым системам об организации содержания вашего сайта. Сканеры поисковых систем, такие как Googlebot, читают этот файл, чтобы более разумно сканировать ваш сайт».

Google утверждает, что карты сайта лучше всего использовать в определенных сценариях…

Ваш сайт действительно большой.
На вашем сайте есть большой архив страниц с содержанием, которые изолированы или плохо связаны друг с другом.
Ваш сайт новый, на него мало внешних ссылок.
На вашем сайте используется мультимедийный контент, он отображается в Новостях Google или использует другие аннотации, совместимые с картами сайта.

Карты сайта сейчас используются для многих целей, но, что касается робота Google, карты сайта в основном создают список URL-адресов и других данных, которые робот Googlebot может использовать в качестве руководства при посещении ваших веб-страниц.

Google объясняет здесь, как создавать карты сайта.

Робот Googlebot и консоль поиска Google

Еще одним местом, где вы можете управлять роботом Googlebot, является консоль поиска Google.

Если робот Google слишком быстро обращается к вашему веб-серверу, вы можете изменить скорость сканирования.

Вы также можете просмотреть обзор того, как робот Googlebot получает доступ к вашему веб-сайту, протестировать файл robots.txt, увидеть ошибки сканирования роботом Googlebot и выполнить запросы «выборки и обработки», которые помогут вам понять, как Google видит ваши веб-страницы.

Сколько существует роботов Google / сканеров Google?

Существует девять различных типов поисковых роботов Google.

Googlebot (поиск Google)
Google Смартфон
Google Mobile (обычный телефон)
Изображения робота Googlebot
Googlebot Video
Новости Googlebot
Google AdSense
Google Mobile AdSense
Google Adsbot (проверка качества целевой страницы)

Если вы хотите получить подробную информацию о каждом из них, обязательно посетите страницу справки для поисковых роботов Google, предоставленную Google (на ней перечислены сведения о каждом используемом веб-сканере).

Что такое пользовательский агент Googlebot?

Так как роботов Google несколько, то User-agent для роботов Googlebot несколько, рассмотрим основные из них:

Googlebot (веб-поиск Google)

Имена пользовательских агентов: Googlebot

Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html)

Googlebot Смартфон

Имена пользовательских агентов: Googlebot

Mozilla / 5.0 (iPhone; CPU iPhone OS 8_3, например Mac OS X) AppleWebKit / 600.1.4 (KHTML, например Gecko) Версия / 8.0 Mobile / 12F70 Safari / 600.1.4 (совместимый; Googlebot / 2.1; + http: //www.google .com / bot.html)

Изображение робота Googlebot

Имена пользовательских агентов: Googlebot-Image (Googlebot)

Googlebot Video

Имена пользовательских агентов: Googlebot-Video (Googlebot)

Справочная страница сканеров Google предоставляет информацию об агентах пользователя обо всех веб-сканерах Google и является местом, где вы должны искать самую последнюю и надежную информацию.

Googlebot и языки / местоположения

Если на ваших страницах отображаются разные языки или контент в зависимости от местоположения или языка запроса, робот Googlebot не всегда может видеть весь ваш контент (они рекомендуют использовать hreflang).

Но эта статья о Googlebot, и то, что Googlebot начал делать для контента на основе языка и местоположения, интересно.

Давайте посмотрим …

Когда пользователи посещают вашу страницу и у вас есть решение на основе местоположения или языка для различного контента, тогда пользователь в Италии увидит контент на итальянском языке, а пользователь в Америке будет видеть контент на английском языке.

Googlebot базируется в Америке, так как это работает? Как робот Google увидит этот итальянский контент?

Сканирование с учетом локали роботом Googlebot

Робот Googlebot использует два основных метода (о которых нам сообщает Google) для создания сканирования с учетом локали …

Гео-распределенное сканирование: Робот Googlebot, похоже, использует IP-адреса, находящиеся за пределами США, в дополнение к давно используемым IP-адресам, которые Googlebot использует, по всей видимости, из США.
Сканирование в зависимости от языка: Робот Googlebot сканирует с полем Accept-Language, установленным в заголовке HTTP.

Другими словами, Googlebot использует методы для сканирования Интернета в качестве пользователя из любого места, но (и это большое «но») Google по-прежнему рекомендует использовать hreflang.

Всегда проверяйте страницу сканирования робота Googlebot с учетом региональных настроек на официальных справочных страницах Google, чтобы принимать решения !.

Поиск официальных страниц справки Google

Большинство ссылок в этой статье ведут на официальные страницы справки Google.

Хороший способ узнать все, что Google сказал о Googlebot (или любом другом предмете), — это использовать инструмент «Спросить Google» на этом сайте. Выполняется поиск только в официальной документации Google.

Вот результаты для Googlebot — статьи Googlebot от Google.

Патрик Секстон

Google обновит агент пользователя GoogleBot

Google объявил, что, начиная с декабря, Google обновит пользовательский агент Google, чтобы представить версию Chrome, на которой работает GoogleBot.Важно обновить любой имеющийся у вас код, который может использовать пользовательский агент GoogleBot для поддержки этого изменения в будущем.

Новый пользовательский агент. Когда Google запустил Evergreen GoogleBot, Google намеренно сохранил старый пользовательский агент. Это было сделано для того, чтобы любой, кто мог жестко запрограммировать какие-либо методы обнаружения для GoogleBot, не имел проблем с новым Evergreen GoogleBot.

Новый пользовательский агент скоро изменится, чтобы показать текущую версию Chrome, которую GoogleBot использует при сканировании вашего веб-сайта.

До . Вот как выглядит пользовательский агент GoogleBot на мобильных устройствах и компьютерах:

Mobile:
Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, например Gecko) Chrome / 41.0.2272.96 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: / /www.google.com/bot.html)

Desktop:
Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html)

ИЛИ

Mozilla / 5.0 AppleWebKit / 537.36 (KHTML, например Gecko; совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) Safari / 537.36

После: Вот как пользовательский агент GoogleBot будет выглядеть после изменения в декабре. В следующих строках пользовательского агента «W.X.Y.Z» будет заменено версией Chrome, которую использует Google. Например, вместо W.X.Y.Z вы увидите что-то похожее на «76.0.3809.100»:

Mobile:
Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, например, Gecko) Chrome / W.X.Y.Z Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html)

Desktop:
Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html)

ИЛИ

Mozilla / 5.0 AppleWebKit / 537.36 (KHTML, как Gecko; совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) Chrome / W.X.Y.Z Safari / 537.36

На что обращать внимание. Если у вас есть сценарии обнаружения пользовательских агентов, жестко запрограммированные для GoogleBot, вы должны убедиться, что поддерживают этот новый шаблон пользовательских агентов.Google сказал: «Мы провели оценку, поэтому уверены, что большинство веб-сайтов не пострадают от изменений». «Если ваш сайт ищет определенного пользовательского агента, это может повлиять на него. Вы должны использовать обнаружение функций вместо сниффинга пользовательского агента. Если вы не можете использовать обнаружение функций и вам нужно обнаружить Googlebot через пользовательский агент, то поищите «Googlebot» внутри пользовательского агента », — добавил Google.

Как это проверить. Вот как протестировать, чтобы убедиться, что ваши страницы поддерживают это, после того, как вы внесете изменения в свой код или в режиме разработки.Вы можете переопределить свой пользовательский агент в Chrome, следуя этим инструкциям.

Почему нам не все равно. GoogleBot получает новый пользовательский агент, и это здорово. Но это может повлиять на ваш сайт, если у вас есть какие-либо методы обнаружения пользовательского агента для GoogleBot. Обязательно проверьте свой сайт, чтобы увидеть, поддерживает ли он новый пользовательский агент. Большинству сайтов, вероятно, не нужно беспокоиться об этом, но вы сделали какие-либо советы по обнаружению GoogleBot, вам может потребоваться принять меры для обновления этих скриптов.

Об авторе

Google Bot | Пользовательские агенты

Google Bot — это бот, разработанный Google Inc.

Последние версии Google Bot:

Поддерживаемые платформы Google Bot:

Устройства, поддерживаемые Google Bot:

Архитектура Google Bot:

Последние пользовательские агенты (если вы ищете полный список, загрузите его здесь):

Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, например, Gecko) Chrome / 86.0.4240.96 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com /bot.html) [ip: 213.32.4.81]
Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, например, Gecko) Chrome / 86.0.4240.96 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com /bot.html) [ip: 213.32.4.95]
Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 86.0.4240.96 Mobile Safari / 537.36 ( совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) [ip: 213.32.4.245]
Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537 .36 (KHTML, например Gecko) Chrome / 86.0.4240.96 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) [ip: 213.32.4.211]
Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 86.0.4240.96 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com/ bot.html) [ip: 213.32.4.247]
Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 86.0.4240.79 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) [ip: 66.249.66.40]
Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google .com / bot.html) [ip: 213.32.4.245]
Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, например Gecko) Chrome / 86.0.4240.79 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) [ip: 66.249.73.90]
Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google .com / bot.html) [ip: 213.32.4.95]
Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) [ip: 213.32.4.81]
Mozilla / 5.0 (Linux; Android 6.0.1 ; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 86.0.4240.96 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) [ip: 66.249.73.92]
Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, например Gecko) Chrome / 86.0.4240.96 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) [ip: 66.249.73.90]
Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) [ ip: 213.32.4.247]
Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) [ip: 213.32.4.102]
Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) [ip: 213.32.4.211]
Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, например Gecko) Chrome / 86.0.4240.96 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) [ip: 173.252.127.117]
Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit /537.36 (KHTML, как Gecko) Chrome / 86.0.4240.96 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html), gzip (gfe)
Mozilla / 5.0 ( Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 86.0.4240.96 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com / bot.html) [ip: 66.249.72.48]
Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, например Gecko) Chrome / 86.0.4240.96 Mobile Safari / 537.36 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) [ip: 66.249.72.44]

Google Botları Nasıl alışır »SEO Hocası

Pek çok kişi arama motorları nın gizemli olduklarını düşünür. Hâlbuki bu böyle değildir. Ее ne kadar kullanılan algoritmada yüzlerce faktör hesaba katılarak işlem yapılsa da içerikte başarı için oldukça basit, anlaşılır bir sistemi vardır.

İnsanlar arama motorları nı istedikleri bilgiyi elde etmek amacıyla kullanır. Hedef bilginin yer aldıı site ise daha fazla hit toplamak ve kitlesini genişletmek ister. Bunun olması için arama motorları nda üst sıralarda yer alması gerekir. İşte burada da devreye basit bir SEO bilgisi giriyor.

Eminim siz bu satırları okurken en iyi arama motoru olan Google’ı düşünüyorsunuz. O yüzden bu makalemde size Google’ın işleyişinden bahsederek webmaster arkadaşlara bilgiler vereceğim.

Google içeriğinizi nasıl tarar?

Google sisteminde akıllı botlar bulunmaktadır. Bu botları bütün dünyaya yayılmış bir virüs gibi düşünebilirsiniz. O tamamen gördüğü içeriği taramaya ve Google verilerine raporlamaya programlanmıştır. Bu botlar içeriğinizin farkına vardığında içerisindeki linkleri, resimleri; kalın, italik, altı çizili halde belirtilmiş kelimeleri ve «h» etiketiyle girilen başlıkları öncelikli okur. Daha sonra yazıyı ve varsa yorumları okur.Bunları analiz eder ve eğer kaliteli bir içerik ise arama motorlarında üst sıralarda olmamanız için hiçbir neden yoktur demek.

Botların sitenizi ziyaret etme sıklığı sitenizin kalitesine bağlıdır. Google botunun sitenize en son ne zaman geldiğini öğrenmek için Google arama motoruna şunu yazmanız yeterlidir:

кеш: http: //www.sitenizinlinki.com

Google botları içeriği üst sıralara nasıl taşır?

Google Arama motoru botu, veritabanında indexlenmiş bulunan yazılar içerisinde öncelikle konu içerisindeki bütünlüğü ele alır.Яни ситенин хитап эттиги китле-ичерик уюму, башлык-ичерик уюму, ичерик-анахтар келимелер уюму; konu içerisindeki metin ile ilgili kalın, italik, altı çizili gösterilen kelimeler… gibi bunları sıralayabiliriz. Bunların sonucunda eğer iyi bir uyum çizgisi yakaladıysanız zaten başarı kaçınılmaz.

Создайте бота с нулевым кодированием в Google Таблицах | Итамар Мула

Большинство руководств по ботам предназначены для людей, умеющих программировать, поэтому, если у вас нет разработчиков или сотрудников, у которых есть дополнительное время, ваши индивидуальные потребности могут не быть удовлетворены.Для создания бота требуются технические ресурсы, такие как серверы для выполнения логики, хранилище для хранения точек данных и разработчики, в общем, для программирования. До настоящего времени. В этом руководстве мы покажем, как создать бота для опроса прямо из таблицы Google.

Вместо использования сервера для запуска логики бота (что на самом деле легко, но требует обслуживания), используйте Google в качестве среды хостинга от вашего имени и используйте Google Таблицы, чтобы отслеживать ответы на опрос!

Google Apps Script — это язык сценариев на основе JavaScript, который позволяет добавлять функциональные возможности в ваши Google Apps.Это облачный язык, который интегрируется со всеми другими службами Google, включая Gmail, Google Диск, Календарь, Google Формы, Таблицы и другие. Apps Script невероятно универсален. Он позволяет:

Добавлять пользовательские меню, диалоговые окна и боковые панели в Документы, Таблицы и Формы Google.
Создавать пользовательские функции для Google Таблиц. Например, получение дополнительных данных из внешних служб или даже построение сложных диаграмм
Публикация веб-приложений — автономных или встроенных в Сайты Google
Взаимодействие с другими службами Google, включая AdSense, Analytics, Календарь, Диск, Gmail и Карты

https: // docs.google.com/spreadsheets/d/187abmrkYlgoDZrYPChgQZiG2btfi98YPWrYYMF42UpQ/edit?usp=sharing

В Google Таблицах нажмите Файл 000> 9007 943, вы должны создать копию.

Примечание: Не стесняйтесь изменить имя Copy на все, что захотите, это не повлияет на результат.

токен доступа - используйте токен доступа, который вы получили при создании общедоступной учетной записи.
Имя бота - Будьте изобретательны!
URL аватара бота - URL аватара опроса. Размер аватара не должен превышать 100 кб. Рекомендуемый 720x720
Сообщение «Добро пожаловать в опрос» - это приветственное сообщение, которое пользователь получит от бота для опроса.
Кнопка «Приветствие» запуска - Вызов пользователя, чтобы начать взаимодействие с ботом
Сообщение о завершении опроса - Это сообщение бот пришлет в конце опроса. Обычно это сообщение «Спасибо».
Сообщение «Не понимаю» - это сообщение будет отправлено, если пользователь введет недопустимый ввод (изображение, наклейку и т. Д.))
Следует ли использовать на клавиатуре случайные цвета - должен ли бот использовать случайные цвета для различных вариантов ответов в опросе или нет. Допустимые значения: true или false
Цвет варианта клавиатуры по умолчанию - если вы не хотите использовать случайный цвет, вы можете установить здесь цвет по умолчанию. Используйте только формат Color Hex . Например, # 999999

В этом разница между клавиатурой с определенными цветами и клавиатурой со случайными цветами:

`Типы вопросов`

Наш бот для опроса поддерживает три (3) разных типа вопросов: диапазон , клавиатура и текст :

диапазон - просит пользователя ввести допустимое значение из настраиваемого диапазона. No related posts.

Октябрь 2025
Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Бот гугл: Взгляните на свою страницу глазами робота Googlebot / Блог компании Google Developers / Хабр

Взгляните на свою страницу глазами робота Googlebot / Блог компании Google Developers / Хабр

Уровень подготовки веб-мастера: любой

Новый агент пользователя Googlebot для смартфонов / Блог компании Google Developers / Хабр

Уровень подготовки веб-мастера: высокий

Новый Googlebot для смартфонов

Googlebot – новый агент пользователя для смартфонов:

Googlebot-Mobile – старый агент пользователя для смартфонов, который вскоре будет заменен:

Агент пользователя у обычного поискового робота Googlebot:

Агенты пользователя у двух поисковых роботов Googlebot-Mobile для телефонов среднего класса:

Сканирование и индексирование

10 способов думать, как Googlebot и улучшить ваше техническое SEO

Что такое Googlebot

Как работает Googlebot

Как робот Google находит веб-страницы

Как робот Google читает веб-страницы

Технические факторы ранжирования

Зачем нам думать, как Googlebot

Пользователи или роботы

1. Robots.txt

2. Sitemap.xml

3. Скорость сайта

4. Микроразметка Schema

5. Канонизация

6. Таксономия URL

7. Загрузка JavaScript

8. Изображения

9. Неработающие ссылки и зацикленные редиректы

10. Заголовки страниц и мета-описания

Подведём итог

Что нужно знать, чтобы Googlebot не убил ваш сайт

Первичный анализ и наши действия

Поиски причины

Так что же делать?

Как найти и обезвредить фейкового гуглбота, как определить бота

Методология

Выводы Incapusla

Юзер-агенты

Имитация Google — жизнь бота

Плохие боты

Не все боты плохие

Как узнать, что посещения фейковые?

Определить плохого бота не слишком трудно

Как определить плохого бота?

Итоги

Использование Google Analytics для отслеживания Googlebot

Введение в log-файлы веб-сервера

Как используются log-файлы

Сложности, связанные с анализом log-файлов

Хитрость, связанная с Google Analytics

Первый вариант – хранение данных в новом представлении

Второй вариант – создание событий

Использование

Полезные материалы

Googlebot — Vikipedi

Руководство по поисковому роботу Google

Что такое Googlebot?

Что такое веб-краулер?

Что делает Googlebot?

Googlebot и ваш веб-сайт

Разница между роботом Googlebot и индексом Google

Обеспечение доступа робота Googlebot к вашим страницам

1.Может ли робот Googlebot «видеть» мои страницы?

2. Может ли робот Googlebot полностью получить доступ ко всему моему контенту и ссылкам?

Как робот Googlebot «видит» веб-страницу

3. Может ли робот Google получить доступ ко всем ресурсам моей страницы?

Могу ли я управлять роботом Googlebot?

Что такое robots.txt файл?

Карты сайта и робот Googlebot

Робот Googlebot и консоль поиска Google

Сколько существует роботов Google / сканеров Google?

Что такое пользовательский агент Googlebot?

Googlebot и языки / местоположения

Сканирование с учетом локали роботом Googlebot

Поиск официальных страниц справки Google

Google обновит агент пользователя GoogleBot

Об авторе

Google Bot | Пользовательские агенты

Последние версии Google Bot:

Поддерживаемые платформы Google Bot:

Введение в log-файлы
веб-сервера

`Типы вопросов`

`Добавить комментарий Отменить ответ`