Панду Наяк, вице-президент, Google Поиск
Как модель MUM помогает улучшить Google Поиск по запросам, связанным с вакцинами от COVID-19
Даже в одном языке одни и те же вещи могут называться по-разному: например, «лавка» и «скамейка», «брюки» и «штаны», «эстакада» и «виадук». Это и следствие устройства самого языка, и культурных тенденций, и локальных особенностей того или иного региона.
Один из актуальных примеров — COVID-19. Пользователи со всего мира ищут информацию по этой теме, и для нас было важным научиться распознавать самые разные формулировки, которые люди использовали для обозначения ранее неизвестной коронавирусной инфекции. Это позволило нам вовремя предоставлять пользователям качественную информацию от таких надежных источников в сфере здравоохранения, как ВОЗ. Прошел год, и перед нами стоит похожая задача. Она связана с названиями вакцин. Только теперь нам помогает новый инструмент — многозадачная унифицированная модель (Multitask Unified Model, MUM).
Интерпретация поисковых запросов о вакцинах
AstraZeneca, CoronaVac, Moderna, Pfizer, «Спутник V» и другие широко распространенные вакцины имеют разные названия. Поэтому в качестве поискового запроса пользователи могут набирать "Coronavaccin Pfizer", "mRNA-1273", "CoVaccine" и так далее.
Способность идентифицировать все эти обозначения играет решающую роль в предоставлении актуальной и корректной информации. Однако вручную процесс распознавания занял бы очень много времени — сотни часов.
С помощью MUM мы за несколько секунд смогли распознать более 800 вариантов названий вакцин более чем на 50 языках. После проверки результатов MUM мы перенесли полученные знания в Google Поиск, чтобы люди могли находить актуальную и достоверную информацию о вакцинации от COVID-19.
Обмен знанием на разных языках
С задачей, которая должна была занять несколько недель, модель MUM справилась за секунды, поскольку не ограничивалась при поиске языком запроса. Модель способна извлекать знания из контента более чем на 75 языках и предоставлять результаты поиска на языке пользователя. Иными словами, представьте, что вы полиглот и читаете книгу. Вам не составит труда пересказать ее содержание на всех языках, которыми вы владеете, ведь смысл книги не определяется языком текста или перевода.
По той же причине MUM не нужно осваивать новые функции на каждом новом языке: модель может передавать данные между языками, таким образом помогая нам масштабировать улучшения даже при недостатке обучающих данных. Отчасти это объясняется тем, что модель MUM эффективна для различных выборок. Это означает, что по сравнению с более ранними моделями ей требуется гораздо меньше исходных данных, чтобы выполнить ту же задачу. В случае с вакцинами модель MUM, получив совсем небольшую выборку официальных названий, смогла на ее основе быстро распознать варианты этих названий на других языках.
Как модель MUM может улучшить Google Поиск для пользователей
Впервые применив MUM, мы смогли оперативно предоставить пользователям по всему миру критически важную информацию. Мы продолжим использовать эту модель, чтобы сделать Google Поиск еще более удобным для пользователей в будущем. Ранние тестирования показывают, что MUM сможет не только улучшить многие аспекты наших существующих систем, но также поможет создать совершенно новые способы поиска и изучения информации.