Значительная часть пользователей поисковой системы Яндекс формулирует свои поисковые запросы так, что они могут неоднозначно восприниматься. К примеру, по запросу «Цезарь» кто — то может искать рецепт салата, а кто – то биографию древнеримского полководца. Без конкретики и уточнения запроса понять пользователя достаточно сложно.
Технология Спектр была внедрена системой Яндекс в конце 2010 года. Основная ее цель состоит в разнообразии ТОПа поисковой выдачи по запросам, которые предполагают разнообразные потребности у интернет-пользователей. Спектр учитывает эти неоднозначные запросы и выдает адекватные ответы.
Работа Спектра основывается на статистическом исследовании поисковых запросов. Во время обработки запросов система выделяет отдельные объекты и относит их к разным категориям. К примеру, объект «Лермонтов» может относиться к категориям «поэты» и «города». Всего Спектр может выделять примерно шестьдесят категорий.
При поиске технология учитывает и потребности, ожидания пользователей. Каждой категории соответствуют определенные намерения. Например, для категории «сказки» в число потребностей может быть включены «купить», «посмотреть онлайн». Каждая категория может иметь 2-3 или 10-20 потребностей.
С учетом принадлежности объекта к определенной категории и характера запросов Спектр оценивает удельный вес пользователей, которые интересуются объектом с любой, вероятной целью. Потом эта информация используются при ранжировании итогов поисковой выдачи по неоднозначным запросам. Веб — ресурсы выстраиваются таким образом, чтобы спектры вопросов и ответов максимально соответствовали друг другу.
Анализ запросов поисковой системы производится в автоматическом режиме, для актуальности данных процесс запускается многократно в течение недельного периода. Также Спектр использует справочную и энциклопедическую информацию.
Технология Спектр максимально приближает поисковую систему к пользователю, персонализирует поиск нужной информации, делает его более корректным для конкретного пользователя.
Одним из методов определения спектральной примеси является ее отсутствие при добавлении в окончании первоначального запроса @.
Альтернативным способом, позволяющим идентифицировать спектральную примесь, является аналитическое исследование ХМL выдачи. При наличии спектральной примеси в поле name параметра <categ> показывается URL документа. Если при этом подмешивается главная страница веб — сайта, то по сравнению с записью имени домена, которая используется для органики, запись главной страницы примеси будет содержать в конце слэш.
Недавние результаты распознаются по датированию документа, которое указывается в параметре <modtime> . Если по сравнению с текущей указанная дата не превышает ее более чем на 3 дня, можно сделать вывод, что примесь быстроботовская.
Для мобильных приложений идентификация производится по значению поля ID параметра doc. В таком случае значение поля будет иметь вид <doc id=»84-«>.
К недостаткам такого способа идентификации относится возможное несовпадение XML выдачи с той, которую интернет-пользователь видит в браузере.