Антиспам Яндекса: кого и за что?

В Яндексе научились определять спам на страницах и понижать их в ранжировании или вовсе исключать из поисковой выдачи. Эти алгоритмы работают наравне с фильтрами различных АГС, между тем, до сих пор не существовало работающей методики определения "спамности" для Яндекса.

Что такое для Яндекса "спам" на страницах сайта?

Яндекс определяет спам следующим образом:

Это сайты, веб-страницы или элементы страниц, которые создают для обмана поисковых систем и манипулирования результатами поиска. Например, чтобы сайт появлялся в результатах поиска как можно чаще, на странице ресурса размещают мелкий, нечитаемый текст с популярными запросами. Посетители его не замечают, зато поисковая система видит и индексирует.
К распространенным видам спама можно отнести текстовый спам (невидимый, нечитаемый или бессмысленный текст), а также дорвеи (от англ. doorway — дверной проём, вход) — промежуточные странички, которые перенаправляют посетителей на целевой сайт, который нужно раскрутить.
Если алгоритмы Яндекса определили спам на страницах, то последние исключаются из результатов поиска. Вебмастер может не получить извещений и недоумевать о причинах "проседания позиций", "плохом индексировании", "исключения из поиска" и т.д.
Дорвеи в Яндексе
Пример дорвеев в поисковой выдаче Яндекса

Как работает антиспам Яндекса?

Антиспам Яндекса работает на Матрикснете (Яндексовский метод машинного обучения, отвечающий в том числе и за формулу ранжирования Яндекс.Поиска), с постоянным обновлением алгоритмов, последствия работы которого остаются зачастую не афишированными.

Впрочем, не так давно, я получил извещение в Панели Вебмастера, что некоторые страницы моего сайта исключены из поиска, так как содержат скрытый текст. Проанализировав перечисленные страницы, к своему удивлению, такового я не обнаружил, с чем и обратился в поддержку, с просьбой уточнить сомнительные моменты для алгоритма антиспама Яндекса. В ответ меня лишь поблагодарили с заверением, что работу алгоритма проверят и внесут соответствующие коррективы, если обнаружится ошибка. И уже через пару дней страницы были возвращены в индекс.

Работу алгоритмов антиспама Яндекс описывает следующим образом:

Разработка алгоритмов начинается с работы асессоров — специалистов по оценке качества поиска. Асессоры смотрят, насколько результаты поиска соответствуют запросу, находят среди найденных веб-страниц спам и классифицируют его.

Затем для каждого типа спама выделяются признаки, по которым можно отличить спам-страницу от качественного документа. Важно, чтобы признак был измеримым – например, таким признаком может быть процент содержания в документе какого-то определённого слова или сочетания слов.

Дальше для каждого типа спама составляется обучающая выборка. В неё входят две группы документов: страницы или сайты с данным видом спама и страницы или сайты, не содержащие спам. На обучающей выборке и выделенных признаках машина учится находить спам, вычисляя, при каком значении каждого из признаков можно отделить cпам от нормальных веб-страниц.

Например, машина берет признак «доля на странице слова „скачать”», определяет значение этого признака для всех страниц из выборки и рассчитывает, при каком значении признака можно провести границу между страницами из выборки, содержащими спам, и нормальными веб-страницами.

Поскольку выделять спам только на основании одного признака нельзя (может быть много ошибок), машина учится сразу на множестве признаков. В результате на основе набора признаков и их значений машина составляет алгоритм, позволяющий находить определённый вид спама. Перед внедрением алгоритм проверяется ещё на одной выборке документов.

В Яндексе не исключают того, что алгоритмы могут ошибаться и выкидывать хорошие страницы из поиска:
В таких случаях можно (и нужно) обращаться в службу поддержки. Сотрудники Яндекса проверят, действительно ли на сайте содержится спам. Если ресурс исчез из результатов поиска по ошибке, он появится уже через несколько дней. Но только в том случае, если алгоритм действительно ошибся.

Как определить фильтр антиспама Яндекса?

Каким образом владельцу сайта определить фильтр антиспама, который Яндекс накладывает на страницы сайта? Первым сигналом служит резкое проседание позиций или исключение их из поиска. Проверьте на этих страницах наличие невидимых блоков с текстом, наличие текстов и ссылок с цветом фона (невидимый или очень мелкий для пользователя текст), наличие спойлеров, содержащих большое количество текста, напичканного ключевыми словами, другие элементы, которые могут ввести пользователя в заблуждение. Часто владельцы сайтов стараются искусственно повысить позицию своего ресурса в результатах поиска, прибегая к таким махинациям, а иногда это происходит случайно, по не знанию. В самом худшем случае, Ваш сайт взломали, напичкав содержание страниц сомнительным рекламным текстом.

Контрольным методом проверки работы антиспам-фильтра служит обнуление XML-лимитов (XML-лимиты Яндекс начисляет для всех сайтов, их количество зависит от качества самого сайта, проверить их можно по ссылке). XML-биржи (выкупающие лимиты у владельцев сайтов) 22 ноября 2015 года зафиксировали апдейт, в результате которого обнулились XML лимиты по большому количеству сайтов. В Яндексе подтвердили, что алгоритм вычисления количества лимитов теперь задействует данные антиспама!

Кстати, если вы не используете XML-лимиты, начисляющиеся для всех сайтов (подтвержденных в Панели.Вебмастера Яндекса), их всегда можно продать без какого-либо ущерба. А заодно, вы будете всегда извещаться об аномальных колебаниях количества XML-лимитов. Я рекомендую биржу XML Stock (продавайте и покупайте XML-лимиты).

Оцените материал:
Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (2 голоса, рейтинг: 5,00 из 5)
Загрузка...

Вячеслав - типичный интернетчикВячеслав Скоблей (ака files) - типичный интернетчик. Скитаюсь интернетом, пишу на PHP, увлекаюсь созданием веб-сайтов на Wordpress, решаю многочисленные проблемы, которые до появления интернета не существовали...

Специализируюсь на безопасности сайтов: защищаю сайты от атак и взломов, занимаюсь лечением вирусов на сайтах и профилактикой...

Наверняка у Вас есть вопросы, просьбы или пожелания. Не стесняйтесь спросить, я отвечаю всегда быстро...

2 комментарий

  1. Интересно, что Яндекс XML действительно каким-то странным образом начисляет сайтам разное число лимитов. На моих сайтах: от 20 до 1500. Ещё одна пузомерка от Яндекса?

    1. Вячеслав Скоблей says:

      Совершенно верно. Число XML-лимитов для домена зависит от качества самого сайта. Яндекс не разглашает алгоритм подсчета, но можно заметить, что он не зависит от какого-либо конкретного показателя (посещаемость, тИЦ, количество страниц в индексе и т.д.), а некой совокупностью факторов, по которым исчисляется полезность домена для людей. Проще говоря, чем больше у домена XML-лимитов, тем больше он нравится Яндексу и у сайта хорошие перспективы для развития.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *