Джефф Дин, старший научный сотрудник и вице-президент Google Research
За последние несколько десятилетий я стал свидетелем больших изменений, которые произошли в машинном обучении (ML) и информатики. Думаю, результатом этого долговременного прогресса станет ряд научных прорывов, которые мы увидим уже в ближайшие несколько лет. Эти достижения в конечном итоге принесут пользу миллиардам людей и окажут большое влияние на наши жизни. В этом материале я выделю пять направлений, на которые серьезно повлияет ML.
Тренд 1. Более мощные модели ML общего назначения
Сейчас исследователи работают с более крупными, мощными моделями машинного обучения. К примеру, в сфере лингвистики несколько лет назад модели с миллиардами параметров тренировались на десятках миллиардов сегментов данных. Сегодня на триллионах сегментов данных тренируются модели с сотнями миллиардов или даже триллионами параметров (например, разреженные нейросети, такие как наша модель GShard с 600 млрд параметров). Рост объема данных и размеров самих моделей способствовал существенному увеличению точности выполнения различных языковых задач.
Многие из таких передовых моделей показали удивительную способность к генерализации, которая позволяет выполнять новые языковые задачи. В качестве примера можно рассмотреть нашу технологию LaMDA, в которой модель демонстрирует нетривиальную способность вести открытый диалог, не теряя нити беседы даже при многократной смене темы.
Модели-трансформеры играют большую роль в области распознавания изображений, видеоматериалов и речи. Как прогнозировалось в работе о закономерностях масштабирования моделей Vision Transformer, модели-трансформеры существенно выигрывают при их масштабировании. Трансформеры, распознающие изображения и классифицирующие видео, лидируют по многим показателям. Мы ранее демонстрировали, что добавление изображений к видеоматериалам при тренировке моделей по распознаванию может повысить эффективность их работы, особенно при сравнении с моделями, которые тренировались только на видеоматериалах. Были разработаны механизмы разреженного осевого внимания для трансформеров, работающих с изображениями и видео, что позволило более эффективно использовать вычислительные мощности. Также были усовершенствованы методы токенизации изображений для моделей Vision Transformer, и теперь мы лучше понимаем принципы функционирования моделей Vision Transformer благодаря сравнительному анализу их работы со сверточной нейронной сетью. Внедрение в трансформеров сверточных операций позитивно сказалось на способности этих моделей выполнять задачи по распознаванию визуальных образов и речи.
Качество выходных данных у генеративных моделей также существенно улучшается. За последние несколько лет эти модели достигли значительных успехов, научившись создавать реалистичные изображения лишь на основании описания (например, «ирландский сеттер» или «трамвай»). Они даже могут «додумывать» изображение с низким разрешением, создавая вполне естественный экземпляр высокого разрешения («Компьютер, улучши качество!») или создавать «бесконечную природу» — генерировать природные панорамы из одного изображения. Также изображения могут быть преобразованы в последовательность из отдельных фрагментов, которые затем можно синтезировать с высокой четкостью, используя авторегрессионную генеративную модель.
Мы видим в этих разработках не только мощный потенциал, но и большую ответственность, поэтому мы тщательно отбираем возможные сценарии использования таких моделей в соответствии с принципами применения искусственного интеллекта.
Кроме передовых одномодальных моделей начинают появляться и крупномасштабные мультимодальные. На сегодняшний день это одни из самых совершенных нейросетей, поскольку они способны не только понимать разные модальности (например, язык, изображения, речь, видео), но и выдавать в них результат: например, генерировать изображения на основе предложений или параграфа или давать понятное описание визуальной составляющей изображения. Это невероятно интересно, ведь, как и в обычной жизни, многие вещи легче воспринимать сразу в нескольких форматах (например, гораздо эффективнее не только почитать о чем-либо, но и просмотреть презентацию об этом). Поэтому сопровождение текста изображениями может помочь при извлечении мультиязычной информации, а более четкое понимание того, как сочетать текст и изображения на этапе ввода, улучшит подписи изображений. Похожим образом использование для тренировки одновременно графических и текстовых данных может улучшить точность и надежность выполнения задач по визуальной классификации, в то время как совмещение обучения на графических, видео- и аудиоматериалах повышает способность модели к генерализации всех модальностей. Помимо этого, существуют предположения, что естественный язык используется для осуществления манипуляций с изображениями, для обучения роботов взаимодействию с миром и для контроля программных систем. Вполне возможно, что в разработке пользовательских интерфейсов грядут изменения.
Все это указывает на то, что вскоре мы сможем тренировать высокопроизводительные модели общего назначения, способные обрабатывать несколько модальностей данных и решать тысячи или миллионы задач. Добиться более высокой эффективности мультимодальных моделей можно, если обеспечивать в них разреженность, чтобы для выполнения конкретной задачи активировались только наиболее подходящие части модели. В течение следующих нескольких лет мы реализуем это видение в новой архитектуре искусственного интеллекта — Pathways. Мы ожидаем значительный прогресс в этой области, поскольку будут объединены многие идеи, которые до сих пор разрабатывались относительно независимо.
Тренд 2. Повышение эффективности машинного обучения
Повышение эффективности, обусловленное достижениями в разработке компьютерного оборудования, совершенствования алгоритмов ML, а также исследованиями в области метаобучения, расширяют возможности моделей машинного обучения. Многие аспекты процесса разработки ML — от оборудования, на котором обучается и выполняется модель, до отдельных компонентов архитектуры МО — можно сделать более эффективными, при этом сохранив или даже повысив общую производительность модели. По сравнению с предыдущими годами, сейчас удается тратить на каждый аспект меньше ресурсов, а также уменьшать выбросы в эквиваленте CO2 (CO2e). Повышение эффективности позволило осуществить ряд прорывных достижений, которые открыли дорогу к дальнейшей оптимизации МО. Это позволит разрабатывать еще более масштабные, качественные и доступные модели с меньшими финансовыми затратами. Я считаю это направление исследований очень перспективным.
Продолжение работы над улучшением производительности ускорителей ML
Каждое новое поколение ускорителей машинного обучения лучше предыдущего. Чипы становятся производительнее, а масштабы систем увеличиваются. В прошлом году было анонсировано четвертое поколение тензорных процессоров TPUv4, которые в 2,7 раз производительнее TPUv3 в тестах MLPerf.
Совершенствование компиляции и оптимизация рабочих задач ML
Даже если аппаратное обеспечение не претерпело изменений, улучшения в компиляторах и другие оптимизации системного программного обеспечения ускорителей МО могут привести к значительному повышению эффективности. Например, в работе «Гибкий подход к автонастройке многопроходных компиляторов машинного обучения» показано, как применять ML при выполнении автонастройки параметров компиляции, чтобы без изменения аппаратной конфигурации получить прирост производительности набора программ ML на 5–15% (иногда с повышением производительности в 2,4 раза). Система автоматического распараллеливания на основе компилятора XLA GSPMD способна масштабировать большинство сетевых архитектур глубокого обучения, не ограничиваясь объемами ускорителя МО. Применение такой системы в крупных моделях, например GShard-M4, LaMDA, BigSSL, ViT, MetNet-2 и GLaM позволило достичь выдающихся результатов в различных сферах применения ML.
Наши активные поиски возможностей совершенствования архитектуры и алгоритмов моделей ML, включающие обучение с подкреплением и эволюционные техники, вдохновили других специалистов проводить исследования в своих сферах деятельности. Чтобы помочь им в этом, мы открыли свободный доступ к платформе Model Search, которая позволяет выполнять поиск параметров моделей в других областях.
Внедрение разреженности
Разреженность подразумевает, что при обучении на примере либо на фрагменте данных или при выполнении определенной задачи активируется лишь наиболее подходящая для этого часть высокоемкой модели. Это важное алгоритмическое усовершенствование может значительно повысить производительность. Проект GLaM показал, что путем объединения трансформеров и технологии комбинации узкоспециализированных слоев можно создать модель, которая в среднем превосходит по точности нейросеть GPT-3 в 29 эталонных тестах и при этом использует в 3 раза меньше энергии для обучения, а для вывода ей требуется произвести в 2 раза меньше вычислений.
Тренд 3. Машинное обучение становится все более полезным как для человека, так и для общества в целом
Ряд новых разработок стал возможными благодаря инновациям в области МО и новым полупроводникам мобильных устройств, которые стали лучше воспринимать контекст и ощущать окружающую среду. Они стали доступнее и проще в эксплуатации, а их вычислительная мощность возросла. Это важный фактор в развитии популярных функций, таких, как мобильная фотография, живой перевод и другие. Примечательно, что последние технологические достижения стали более персонализированными, при этом были усилены меры по обеспечению конфиденциальности.
Как никогда много людей сегодня используют камеры телефонов в жизни и творчестве. Правильное применение машинного обучения в вычислительной фотографии продолжает расширять возможности телефонных камер. Их использование становится проще, повышается производительность. Все это позволяет делать более качественные изображения. Такие функции, как улучшенный HDR+, съемка при слабом освещении, обработка портретов, а также стремление сделать камеры более универсальными, чтобы они могли работать с любыми оттенками кожи, позволяют получать фотографии, которые выглядят профессионально, точнее передают детали объекта фотосъемки и видение фотографа. Эти снимки могут быть дополнительно усовершенствованы с помощью мощных инструментов на основе ML, которые стали доступны в Google Фото, например, фото с киноэффектом, подавление шума, уменьшение размытости и волшебный ластик.
Для коммуникации в режиме реального времени с носителем другого языка или с человеком на расстоянии многие используют функцию мгновенного перевода в мессенджерах и возможности автоматических субтитров во время телефонных звонков. Точность распознавания речи продолжает расти благодаря таким методам, как обучение с самоконтролем и обучение в режиме «шумное занятие студентов». Во многих языках улучшилось восприятие речи с акцентом, а также в шумных условиях и с наложением другого голоса. Функция перевода живой речи в приложении Google Переводчик стала лучше благодаря стабилизации переведенных фраз, сгенерированных мгновенно. Новые проекты по внедрению технологий ML в традиционные методы речевого кодека Lyra и аудиокодека SoundStream позволили повысить качество передаваемой речи, музыки и других звуков при использовании гораздо более низкого битрейта.
Благодаря технологиям МО реализованы новые методы обеспечения безопасности отдельных пользователей и целых сообществ. Например, функция оповещений о подозрительных сообщениях предупреждает о возможных фишинговых атаках, а безопасная навигация позволяет избежать применения экстренного торможения, предлагая альтернативные маршруты в обход небезопасных участков.
Тенденция 4. Растущее влияние машинного обучения на науку, здравоохранение и экологию
В последние годы растет влияние машинного обучения на развитие фундаментальных наук — от физики до биологии. В смежных областях открываются новые, удивительные перспективы применения ML, например в области возобновляемой энергетики и медицины. Технология становится все более совершенной, надежной и доступной, помогая нам искать решения самых острых глобальных проблем.
Широкомасштабное применение компьютерного зрения
Достижения в области компьютерного зрения за последнее десятилетие позволили использовать компьютеры для решения самых разных задач. В неврологии методы автоматизированной реконструкции могут воспроизвести нервную соединительную структуру тканей головного мозга, основываясь на изображениях тонких срезов ткани головного мозга, полученных с помощью электронной микроскопии высокого разрешения. Ранее совместно с научным сообществом, мы смогли воссоздать структуру мозга плодовой мушки, мыши и певчей птицы. В прошлом году вместе с лабораторией Лихтмана Гарвардского университета мы проанализировали крупнейший визуализированный и реконструированный образец мозговой ткани и провели первое крупномасштабное исследование синаптических связей в коре головного мозга человека, охватывающее несколько типов клеток. Цель этой работы — создать новый ресурс, который поможет ученым в изучении ошеломляющей сложности строения человеческого мозга.
Технология компьютерного зрения активно используется и для решения глобальных проблем. Метод прогнозирования погоды, основанный на глубоком обучении на основании спутниковых, радиолокационных изображений в сочетании с другими атмосферными данными, дает более точный прогноз погоды и осадков на ближайшее 12 часов, чем традиционные физические модели. При этом такой прогноз составляется гораздо быстрее, что во время экстремальных погодных условий может иметь решающее значение.
Исследование возможностей автоматического моделирования
Еще один подход, показавший отличные результаты — это способность алгоритма ML изучить и смоделировать пространство для последующего автоматического поиска решений. Так, например, вариационный автокодировщик обучился созданию эстетически привлекательных и практичных макетов документов по принципу трансформера. Этот же подход можно использовать для создания эскизов мебели. В другом эксперименте модель МО применили для автоматического поиска возможностей усовершенствования дизайна компьютерной игры с целью улучшить ее играбельность и другие атрибуты игрового процесса.
Применение ML в области здравоохранения
Помимо влияния на развитие фундаментальных наук, машинное обучение также может сыграть ведущую роль в развитии медицины и здравоохранения. Идея использовать достижения в этой области существует уже давно. Одной из первых наших задач стала разработка программного обеспечения, которое помогало анализировать эпидемиологические данные. Но постепенно мы открываем новые возможности ML и, конечно же, ставим новые задачи.
Возьмем, к примеру, область геномики. С момента возникновения этой науки компьютерные технологии играли важную роль в ее развитии. Появление машинного обучения разрушило старые парадигмы и подарило новые возможности. Мы запустили бесплатное программное обеспечение DeepConsensus, а позже в сотрудничестве с UCSC выпустили PEPPER-DeepVariant, которые поддерживают существующие технологии и значительно ускоряют процесс секвенирования биополимеров.
Наш метод фенотипирования на основе ML помогает преобразовать тяжелые изображения и массивы текстовых данных в фенотипы, пригодные для исследования. А наш метод DeepNull позволяет работать с большими объемами данных в области генетических исследований.
Мы надеемся, что в будущем схожие алгоритмы машинного обучения будут применяться для диагностирования рака молочной железы, рака легких, ускорения лечения раковых больных с помощью лучевой терапии, определения аномалий на рентгеновских снимках и помощи в проведении биопсии рака простаты.
Применение МО для преодоления климатического кризиса
Недавно мы представили функцию построения экологически безопасных маршрутов в Google Картах. По нашим оценкам, это поможет сократить выбросы газа более чем на 1 млн тонн в год и позволит снизить расходы на топливо. Подобный результат сравним с сокращением количества автомобилей на дорогах до 200 000 единиц.
В 2021 году наша инициатива по прогнозированию наводнений была расширена и охватила большее количество людей, а именно — 360 миллионов человек. Мы отправили более 115 миллионов предупреждений об угрозе наводнения на мобильные устройства пользователей — это в 3 раза больше, чем годом ранее.
Тенденция 5. Более глубокое и широкое понимание ИИ
Поскольку ML все чаще используется в сфере технологий и в обществе в целом, мы считаем необходимым разрабатывать новые методы обеспечения справедливого и равноправного применения этой технологии. Это основное направление деятельности нашей исследовательской группы, отвечающей за ИИ и технологии, ориентированных на человека, и мы проводим множество исследований на тему ответственного применения МО.
Мы пристально изучаем системы рекомендаций, основанных на данных об активности пользователей в онлайн-сервисах. Эти системы часто состоят из нескольких отдельных компонентов, и чтобы понимать, насколько справедливо и объективно они работают, важно знать, как работают компоненты вместе и по отдельности. Недавние исследования помогли разобраться в этих взаимоотношениях и открыли методы, с помощью которых можно повысить «справедливость» ее индивидуальных компонентов и всей рекомендательной системы в целом.
Кроме того, при обучении системы на неявной активности пользователя важно, чтобы системы рекомендаций обучались непредвзято, поскольку прямой подход к обучению на элементах, которые были показаны предыдущим пользователям, демонстрирует формы предвзятости.
Создание общедоступных всеобъемлющих и менее предвзятых баз данных — возможность усовершенствовать машинное обучение для всех. В 2016 году мы представили набор данных Open Images, состоящий примерно из 9 миллионов изображений с описаниями, охватывающими тысячи категорий объектов и аннотациями для 600 различных классов.