31.177.83.38 - - [29/Feb/2013:00:31:02 +0400] "HEAD /wp-admin/ HTTP/1.1" 404 0 "-" "Mozilla/5.0 (compatible; Web-Monitoring/1.0; +http://monoid.nic.ru/)"

— что это?

Система мониторинга распространенности веб-технологий на сайтах

HTTP-запросы с IP-адреса 31.177.83.38 и с идентификатором Mozilla/5.0 (compatible; Web-Monitoring/1.0; +http://monoid.nic.ru/), отправляемым в поле заголовка User-Agent, осуществляются специализированным программным обеспечением (роботом, «пауком») системы мониторинга, используемой департаментом информационно-аналитических исследований компании RU-CENTER.

Предназначение мониторинга и вопросы информационной безопасности

В круг задач мониторинга входят количественная оценка и отслеживание тенденций изменения во времени показателей распространенности технологических решений, применяемых на практике разработчиками веб-сайтов. Анализируются десятки характерных признаков и показателей, относящихся к сферам веб-технологий стороны сервера и стороны клиента. Их количество расширяется по мере развития системы. Примерами важных составляющих предметной области мониторинга могут служить: наиболее общеупотребительные CMS и конструкторы сайтов; типы и версии веб-серверов; кодировки, объемы HTML-кода и длительности загрузки индексных страниц веб-узлов; заданные конструкции HTML-кода индексных страниц веб-узлов, наличие или отсутствие которых позволяет в той или иной мере судить о степени соответствия сайта важным концепциям современных веб-стандартов. Исследуются как российские, так и зарубежные веб-узлы. Накапливается и систематизируется интересная статистика, публикуемая в открытом доступе и озвучиваемая на профильных конференциях.

Целью мониторинга является детализация исследования структуры рынка веб-разработки в технологическом разрезе. Описываемый робот не занимается поиском уязвимостей на веб-узлах и не проводит каких бы то ни было атак. Сведения о технических решениях, обнаруживаемых на конкретных отдельных сайтах, не публикуются.

RU-CENTER — одна из старейших российских интернет-компаний, выросшая вместе с Рунетом из РосНИИРОС и Курчатовского института. Компания обладает всеми необходимыми профильными сертификатами и лицензиями.

Нагрузка, создаваемая роботом на исследуемые веб-узлы

За один визит на сайт описываемый робот осуществляет серию HTTP-запросов, состоящую из одного GET-запроса ресурса / (корневого каталога дерева документов веб-сервера) и нескольких десятков HEAD-запросов ресурсов с адресами, совпадающими со служебными URL ряда популярных CMS.

В процессе GET-запроса ресурса / обрабатываются возможные редиректы (с ограничением их максимального количества пятью) при условии неизменности адреса хоста, типа прикладного протокола и номера TCP-порта.

Интервалы между HTTP-запросами в структуре такой серии — не менее 1 секунды.

Таким образом, нагрузка от одного визита робота сопоставима с той, которую создает реальный посетитель сайта, открывший главную страницу сайта (с каковой в обычных ситуациях связано несколько файлов изображений, CSS- и JS-файлов) и тут же ушедший с сайта. Следует напомнить на всякий случай, что в ответ на HEAD-запросы сервер отправляет клиенту только служебный заголовок, относящийся к запрошенному ресурсу, но не содержимое данного ресурса, поэтому HEAD-запросы менее обременительны для сервера, чем GET-запросы.

Опросы каждого исследуемого веб-узла производятся не чаще нескольких раз в месяц. (Как правило — один-два раза, но в любом случае никак не более десяти.)

Фильтрация

Для того, чтобы исключить какой-либо сайт из множества исследуемых веб-узлов, излишне осторожному администратору следует на уровне конфигурации веб-сервера или файлов управления доступом (обычно они называются .htaccess) запретить любые HTTP-запросы с IP-адреса 31.177.83.38. (Абсолютной гарантии того, что данный IP-адрес не изменится когда-либо по техническим или организационным причинам, дать невозможно. Но намерений специально производить его частую смену у разработчиков сервиса нет.)

Файлы robots.txt текущей версией системы мониторинга не обрабатываются.