Яндекс Yati

Яндекс Yati

Yati (Yet Another Transformer with Improvements) - еще один преобразователь с улучшениями. Смысл тот же - устанавливаются связи между целевой страницей и запросом пользователя, но текст обрабатывается нейронной сетью иначе и обучение сети проходит в два этапа. Это нововведение считается самым значимым событием в поиске рунета за последние десять лет.

Задача поисковика - выдать релевантный ответ на запрос пользователя. Он может посчитать количество вхождений запроса в тексте, также, может взять историю поиска и оценить, какой из ресурсов пользователи выбирали чаще, а какой вообще не получил кликов или же имел высокий показатель отказов. Т.е алгоритм высчитывает все математически, но никак не может понять текст и его смысл. Соответственно алгоритм предполагает, что запрос и результат близки по смыслу, если в них есть одинаковые слова или строки. И на множестве этих данных и расчетов выстраивается модель, как бы понимания текста. С помощью аудита сайта можно посмотреть количество различных вхождений слов и оценить релевантность страницы запросу.

Ранее нейронные сети парсили текст, трансформировали каждое отдельное слово в вектор и полученные векторы складывали в один семантический вектор. Сети обучаются на огромном количестве примеров. Основным недостатком такой модели является то, что клик и переход на страницу не всегда доказывает релевантную связь, точно так же, как и отсутствие его не говорит о том, что документ не имеет смысловой связи. Но нейронные сети постепенно дорабатываются и дообучаются экспертами и пользователями. Обучение системы трансформеров с нуля выгоднее, чем дообучение уже существующих BERT решений. Дообучение использует сначала данные из Толоки (дешевые), а затем оценки экспертов (дорогие).

Сети-трансформеры работают немного иначе. В них векторы элементов не объединяются в один, а обрабатываются отдельно. Но тут и возникает основная проблема - отсутствие достаточных вычислительных мощностей. Этот метод занимает намного больше времени: 10 лет вместо одного часа для текущих технических способностей.

Если начать применять только данные модели и даже отключить все остальные существующие факторы ранжирования, то предполагается, что качество выдачи контента снизится на 4-5 процентов.

Также важная информация, что Яндекс YATI, кроме контента страницы из HTML учитывает и рендерит текст из JS, но это применяется не для всех страниц.