вернуться на основной сайт

Новый поисковой алгоритм «Палех» с нейронными сетями

Яндекс запустил новый «умный» алгоритм по поиску веб-страниц. В нем задействованы не только ключевые слова, но и смысл запроса, набранного пользователем. (Читайть в блоге Яндекса)

Сопоставлением смысла запроса и соответствующего документа занимается поисковая модель, основанная на нейронных сетях. Расскажем немного о том, как она работает.

Точный поиск по «длинным хвостам»

Алгоритм на нейронных сетях позволяет поиску Яндекса более точно отвечать на сложные, но довольно частые запросы из «длинного хвоста».

Ежедневно поисковик Яндекс отвечает на более, чем 250 миллионов запросов. Многие из них уникальны и не повторяются. Но самое удивительное, что такие низкочастотные запросы составляют весомую часть всего поискового потока. В то время как список самых популярных запросов ограничен, хотя и встречаются они в поисковой строке Яндекса чаще.

Другими словами, пользователи предпочитают искать нечто конкретное, уточненное и «со смыслом», оставляя абстрактные запросы в прошлом. Есть несколько категорий пользователей, которые любят задавать сложные запросы из «длинного хвоста». К примеру, дети или взрослые, которые запамятовали название книги, либо фильма (вводят в строку поиска фразу, либо фрагмент кинофильма).

Безусловно, что поисковику сложнее воспринимать запросы из «длинного хвоста». И введенные в длинном запросе слова могут просто запутать поисковую систему, которая выдаст совершенно не тот по значению результат.

Для этого Яндексом и были привлечены нейронные сети.

Как работают нейронные сети и что такое семантический вектор?

Нейронная сеть по принципу искусственного интеллекта легко обучается распознаванию звука, текстовой информации и изображений. Нейросеть в состоянии различить положительные и отрицательные результаты, найти нужные объекты и дифференцировать их по заданным признакам.

В случае с поисковым алгоритмом речь идет о текстовой информации, так называемой паре, состоящей из запроса и заголовка веб-страниц. Примеры их соответствия подбираются с помощью статистики, накопленной в поиске. Так, нейросеть обучается, находя смысловые соответствия между парами.

Поскольку компьютерной системе более понятен язык цифр, специалисты Яндекс научили нейрсеть переводить множество заголовков и веб-страниц в числовые значения. В итоге вся документация базы данных Яндекса получила координаты в трехсотмерном пространстве.

Провести подобные расчеты для человека практически невозможно. Поэтому не будем углубляться в решение этой задачи. Уточним только, что и поисковой запрос, и веб-страница могут располагаться в одном пространстве координат. И чем ближе они будут друг к другу, тем точнее найденная страница соответствует запросу.

Подобный способ обработки поискового запроса и его совпадение с ответами в Яндексе назвали семантическим вектором.

Такой подход идеален для запросов из «длинного хвоста». Поскольку семантические векторы подыскивают ответы на самые сложные запросы. Мало того, изображение запроса и веб-страницы в виде вектора в трёхсотмерном пространстве, позволяет получить самый точный результат выдачи. В него попадают и те веб-страницы, которые не связаны с запросом общими словами, а только лишь смыслом.

Семантический вектор используется не только Яндексом, но и сервисом «Картинки», когда находит в интернет-сети изображения, отвечающие введенному текстовому запросу.

У технологии семантического вектора большое будущее. Смысловой «умный» поиск в интернете сегодня намного актуальнее, чем бессмысленные запросы-роботы. Поэтому и от веб-ресурсов требуют содержательного и познавательного контента.

Обучайтесь со смыслом, узнавайте новое с «GUSAROV».

04.11.2016
6 queries in 0,518 seconds.