Как автоматически определить тематику сайта?

Тематика сайта играет немаловажную роль в его создании и продвижении. Есть прибыльные и менее прибыльные тематики при монетизации, есть узконаправленные или малоконкурентные, коммерческие и обо всем. Правильно выбранная тематика - залог успешного продвижения в поисковых системах (важно выбрать востребованную и денежную тематику при создании сайта для заработка, выбрать доноров для покупки ссылок на тематических сайтах, прибавить процентов к цене продаваемого сайта и т.д.).

Если сайт удается отнести к какой-либо тематике, он считается "тематическим", такой сайт имеет больший вес в глазах поисковых систем, нежели сайты не понятно о чем или обо всем на свете.

Определение тематики сайта: кому это нужно?

Начнем с того, что поисковые системы давно научились определять тематику сайта, и это, безусловно, используется ими в ранжировании (мы это увидим ниже). Определять тематичность веб-ресурса важно и для рядовых веб-мастеров, ситуации бывают самые различные:

  • Для покупки тематической ссылочной массы на родственных сайтах;
  • Для создания тематических сателлитов, доров (даже в 2017 году этим еще занимаются);
  • Для построения правильной структуры собственного сайта (определение статьи к нужной категории);
  • Для выработки и моделирования стратегии продвижения сайта (если ваша цель исключительно - монетизация, трафик и т.д.)

Про "конкурентов" и "похожие сайты" мы уже говорили. Там схожесть ресурсов определяется в большей мере по пересечению семантического ядра. Но эти родственные сайты никак не каталогизируются по тематике, мы можем лишь самостоятельно определить, например, при преобладании слов "стоматолог", "стоматология",  что сайт можно отнести к тематике "Здоровье". Впрочем, тематику сайта можно определить и по беглому просмотру главной страницы сайта. На практике, естественно, продвинутому вебмастеру требуется автоматическое определение тематики, поскольку:

  • Иногда требуется пакетная обработка сайтов (никто не будет определять тематику сотни сайтов в ручную);
  • Зачастую бывает сложно определить визуально, к какой именно тематике вообще относится сайт;
  • Оценка тематичности сайта роботом и человеком может отличаться;

Как и где в интернете определить к какой тематической группе относиться тот или иной сайт?

Сервисы для определения тематики сайта

Казалось бы, учитывая востребованность, в интернете можно отыскать множество онлайн-сервисов по определению тематики сайтов. На практике, их можно сосчитать на пальцах одной руки:

ExTheme.ru

exTheme.ru - очень хороший, старый, но практически мертвый онлайн сервис определения тематики сайтов. Определял как тематику текста по ссылке, так и любой текст. Имел api и плагины, брал мзду, но видимо что-то пошло не так, сайт практически в недееспособном состоянии, как и linkfeedator.ru (еще один алгоритм определения тематичности сайтов или один и тот же, в настоящее время вытесненный более пикантной тематикой) - проект того же Бориса Кохова.

Cfilter.ru

cfilter.ru - второй мертвый сервис автоматического определения только русскоязычных страниц, сайтов и текстов (тематика страниц определяется по тексту с использованием оригинального самообучающегося алгоритма). Придумал и реализовал некто Олег, 1986 г.р.

Определение тематики сайта в сервисе cfilter.ru
Определение тематики сайта в сервисе cfilter.ru

Наиболее вероятная тематичность для сайта "seo-zona.ru" по мнению сервиса - "Компьютеры и интернет" (определено на момент написания статьи - когда сервис работал).

MegaIndex.com

Автоматическое определение тематики текстов и сайтов есть в MegaIndex. Для определения рубрики текстов система использует собственный алгоритм и базу данных, собранные собственным роботом. Анализируется качество контента с точки зрения робота, предлагается три максимально подходящие тематики по совпадению содержимого.

https://ru.megaindex.com/a/tcategories

Тематика сайта в MegaIndex
Определение тематики сайта в MegaIndex

Как видим на примере сайта "seo-zona.ru" c вероятностью почти в 95% робот определил тематику как "Hi-Tech/Безопасность/Защита от спама".

Определение тематики сайта в Яндексе

Яндекс для собственных нужд определяет тематику сайтов. Рубрикация используется из Яндекс-Каталога. Если мы найдем сайт в Яндекс-Каталоге (если он там есть), то сможем узнать тематику :)

Также можно обнаружить, что тематичность Яндекс присваивает и для сайтов, находящихся вне своего каталога. Обычно это происходит в таких случаях:

  • Сайт имеет популярность и тИЦ;
  • Сайт добавлялся в сервис контекстной рекламы "Яндекс-Директ";

Если Яндекс присвоил тематику для анализируемого домена, то иногда говорят, что сайт приняли в "скрытый Яндекс-Каталог". Как узнать, какую тематику и присвоил ли ее Яндекс для домена?

Информацию можно получить в так называемом Яндекс.Баре. Не буду объяснять что это, можно просто открыть в браузере ссылку вида:

http://bar-navig.yandex.ru/u?show=31&url=https://google.ru

где https://google.ru - адрес анализируемого сайта, и увидим примерно следующее:

<urlinfo>
<url domain="https://www.google.ru">
<![CDATA[ / ]]>
</url>
<yaca url="https://www.google.ru"/>
<tcy rang="6" value="30000"/>
<topics>
<topic title="Тема: Поисковые системы" url="http://yaca.yandex.ru/yca/"/>
</topics>
<textinfo>
Тема: Поисковые системы Регион: Россия Источник: Официальный
</textinfo>
<r1>
bwoxxvhviuhcwjdfcxbikwkvftdvjrjdxlbpwarnlswkxmcblqugysvtoyutpvjuodcoikxnocapslfkbgshimsfpqcrgvgschmo724e1a0210342e978637472ff75abf9a
</r1>
</urlinfo>

В значении параметра title в теге topic будет присвоенная Яндексом тематичность сайта. В нашем случае - "Тема: Поисковые системы". В textinfo - расширенное описание: "Поисковые системы Регион: Россия Источник: Официальный".

Определение тематики сайта в Google

Если вы внимательно посмотрите на работу поискового алгоритма, то иногда заметите, что менее известный и популярный ресурс может оказаться выше в выдаче по определенному поисковому запросу. При внимательном рассмотрении можно обнаружить, что именно тематичность стала решающим фактором вытеснения сильного слабым.

Большой брат следит за тематикой сайтов, но считает, что этот параметр не играет никакой роли для вебмастеров и нигде его не афиширует. Как и пресловутый Page Rank (PR), который взяли и сделали невидимым.

Но такая утечка информации есть в инструменте определения доступности сайта в мобильных сетях (может и еще где-то, но я обнаружил лишь там):

https://testmysite.withgoogle.com/intl/ru-ru

При проверке моего сайта "seo-zona.ru" получаем определение тематики как "Интернет и телекоммуникации", что не так уже далеко от истины.

Тематика сайта в Google
Определение тематики сайта в Google

Заканчивая свой беглый обзор существующих на сегодня возможностей определения тематик сайтов, мы видим отсутствие каких-то общих правил (каждый сервис или поисковая система делает рубрикацию сайтов по темам согласно своим собственным алгоритмам и согласно своей иерархии тематик) при анализе, как и отсутствие повышенного спроса среди интернет-аудитории к сервисам подобного плана. Впрочем, этого не скажешь о веб-мастерах и интернет-маркетологах. Для них подобный инструмент всегда будет востребован по причине описанных в начале этой статьи.

Оцените материал:
Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (5 голоса, рейтинг: 5,00 из 5)
Загрузка...

Вячеслав - типичный интернетчикВячеслав Скоблей (ака files) - типичный интернетчик. Скитаюсь интернетом, пишу на PHP, увлекаюсь созданием веб-сайтов на Wordpress, решаю многочисленные проблемы, которые до появления интернета не существовали...

Специализируюсь на безопасности сайтов: защищаю сайты от атак и взломов, занимаюсь лечением вирусов на сайтах и профилактикой...

Наверняка у Вас есть вопросы, просьбы или пожелания. Не стесняйтесь спросить, я отвечаю всегда быстро...

3 комментарий

  1. Artmix says:

    Спасибо за аналитическую статью! Будем изучать. Солидные сервисы. Мегаиндекс особенно хорошо работает, правильно и быстро определяет, и без капчи.

  2. Спасибо за статью. Больше всех понравился http://cfilter.ru/test/get_url_subject/. Интересно возможно там проверять больше чем один сайт!? Буду проверять.

  3. says:

    Из всех проанализированных сервисов работают только три: Мегаиндекс, cfilter, и яндекс (наверное).
    Моего сайта нет даже в скрытом каталоге.
    Определенная этими сервисами тематика моего сайта вызвала некоторый шок.
    Мегаиндекс пишет:
    Тематика: Hi-Tech/Интернет/Хостинги
    Совпадение: 91.2%
    Тематика: Справки/Поиск людей
    Совпадение: 91%
    Тематика: Hi-Tech/Безопасность/Защита от спама
    Совпадение: 90.7%

    Особенно : Тематика: Справки/Поиск людей????

    Гугл молчит как рыба в пирожке, exTheme вообще какой то поломатый не известно как себя там вести.

    Спасибо за обзор.

Добавить комментарий

Ваш адрес email не будет опубликован.