Компания Google анонсировала новый алгоритм, который существенно повлияет на ранжирование информационных сайтов. Алгоритм Knowledge-Based Trust (KBT) основан на достоверности информации, которую предоставляет сайт своим читателям. В первую очередь он затрагивает сайты, наполненные информационными статьями и новостных сайтов.
Прогнозируется такое развитие алгоритма, что со временем он будет набирать вес, постепенно вытесняя традиционное ссылочное ранжирование.
Новый алгоритм будет определять информационную достоверность сайта (Knowledge-Based Trust или KBT), указывая то, насколько можно доверять фактам, изложенным на этом сайте. Чем меньше ложных фактов приводится на сайте, тем выше уровень доверия.
Главная задача поисковых алгоритмов — точно определить, насколько полезна страница сайта для посетителей, то есть качество оценки web документа выходит на первое место. Традиционные внешние факторы (ссылочная масса, история просмотров и подобные сигналы) указывают лишь на популярность сайтов, независимо от достоверности информации.
Современная проблема поисковых систем в том, что с одной стороны популярные сайты могут иметь высокие значения PR и других метрик, но при этом содержать сплетни, утки и разного рода непроверенную информацию. Другая же сторона этой проблемы, что менее известные сайты с низким PR могут публиковать очень точную информацию, но так и не занимать должного места в поисковой выдаче.
Именно поэтому для новой метрики, основанной на KBT, фундаментальным становится вопрос оценки достоверности веб-источника.
Сайты с небольшим количеством фактической информации не будут подвергаться санкциям этого фильтра до тех пор, пока их информация корректна.
В оценку включено корректное значение фактов, например, известные факты. Алгоритм способен извлекать из текста логические триплеты (три логически связанных утверждения) вида субъект-предикат-объект.
Простейший пример логического триплета: Рим столица Италии.
Корректность информации определяется путем сопоставления фактов, извлеченных из базы знаний (Knowledge Vault), однако нельзя гарантировать абсолютную точность этой базы.
История базы знаний Кnowledge Vault уходит корнями в проект Freebase, который активно наполнялся энтузиастами, а теперь переносится в Wikidata. То есть, используя базу Freebase, Google разрабатывает свою базу Кnowledge Vault (KV).
На сегодняшний день вся база фактов Кnowledge Vault содержит около 16% информации в категории «неопровержимые факты», возможно, что остальные данные играют вспомогательную роль.
В процессе разработки алгоритма самые большие вычислительные проблемы возникали, когда требовалось сравнивать большое число фактов в их разных комбинациях.
Не углубляясь в сложные формулы, отметим, что разработчикам удалось существенно улучшить оценку достоверности фактов за счет использования более эффектиного и масштабируемого алгоритма для оценки достоверности источников фактической информации.
Новая многослойная вероятностная модель, в которой анализируются пересекающиеся факты в упрощенном виде позволяет определять главный источник ошибки: некорректные факты вебдокумента или же неточность в базе знаний Кnowledge Vault.
Прогнозируется, что модель Knowledge-Based Trust может пойти настолько далеко, что поможет в синтезе знаний на базе имеющихся фактов.
Стоит отметить, что степень достоверности сайта обеспечивает дополнительный сигнал о качестве сайта. Очевидно, что в скором времени эта метрика будет участвовать в ранжировании сайтов наряду с показателем PR или даже выйдет на первое место. Поэтому достоверность статей для информационных сайтов становится крайне важной.
Разумеется, что в первую очередь алгоритм KBT затронет англоязычные информационные сайты и только потом станет актуальным для рунета.