Развитие поискового краулера от Google не стоит на месте и он постоянно улучшается. Раньше части сайта завязанные на ajax могли быть не доступны роботу гуглы, но недавно это изменилось.

В 2008 году Googlebot начал сабмиттить GET формы, а этим летом исполнять JavaScript. Сейчас дело дошло до передачи данных серверу методом POST.

Веб-мастер сайта thumbtack.com показал примеры таких запросов в логах Apache за сентябрь-октябрь 2011 года. Запросы идут с адресов, которые действительно принадлежат краулеру Google: 66.249.71.47, 66.249.72.198, 66.249.72.207.

 

66.249.71.47 - - [04/Sep/2011:04:53:52 +0000] "POST /act/site/clienterror HTTP/1.1" 200 36 "http://www.thumbtack.com/ma/malden/dog-walking/dog-walking-and-pet-care-services" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"


66.249.72.198 - - [25/Sep/2011:04:27:50 +0000] "POST /act/site/clienterror HTTP/1.1" 200 36 "http://www.thumbtack.com/ca/solana-beach/wedding-photographers/photography-cary-pennington-photography" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"


66.249.72.207 - - [04/Oct/2011:09:53:08 +0000] "POST /act/site/clienterror HTTP/1.1" 200 36 "http://www.thumbtack.com/tx/san-antonio/painting/residential-commercial-construction-services" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

На сайте thumbtack.com эти POST-запросы генерирует скрипт мониторинга ошибок, который пытается сообщить о них на сервер. Запросы от Google тоже содержат такую информацию, судя по всему, роботу удалось проанализировать скрипт. Данное поведение краулера не причиняет никакого вреда сайту, так что его можно считать нормальным. Однако, интеллектуальное поведение бота удивляет.