Официальный блог Google Россия
Новости, объявления и полезные советы от российского офиса Google
Технологии ранжирования Google
31 марта 2009 г.
Амит Сингал (Amit Singhal), руководитель команды ранжирования Google
В своем предыдущем посте я рассказал вам о
принципах ранжирования Google
. В рамках нашего
обсуждения качества поиска
я бы хотел рассказать вам о технологиях, используемых при ранжировании результатов поиска Google. Наши базовые технологии используют достижения академической дисциплины, которая называется «Информационный поиск» (по-английски «Information Retrieval» или сокращенно IR). Ученые занимаются поиском уже почти 50 лет. При этом при ранжировании веб-страниц используются статистические сигналы значимости слов, такие как частота употребления. (См. статью
"Современный информационный поиск. Краткий обзор"
). Информационный поиск дал нам прочный фундамент, на котором мы построили передовую систему, использующую анализ гиперссылок, структуры страниц, а также много других инновационных разработок.
В последнее десятилетие возможности поиска существенно расширились. Если раньше поиск отвечал на вопрос "найдите мне то, что я сказал", то теперь он отвечает на вопрос "найдите мне то, что я хочу". Ожидания пользователей в отношении поиска также сильно выросли. Мы усердно работаем над тем, чтобы оправдать ожидания всех и каждого. Для этого мы должны лучше понимать страницы, запросы и самих пользователей. В течение последних 10 лет мы смогли достичь принципиально новых высот в развитии технологий, позволяющих понять все эти три составляющие поискового процесса.
Когда мы в Google обсуждаем запросы, мы обычно заключаем текст запроса в квадратные скобки [ ] (см. статью Мата Катса "
Как писать запросы
"). В этом посте я буду обозначать запросы именно так. Страницы и результаты поиска меняются постоянно, поэтому с течением времени некоторые примеры могут отображаться иначе.
Понимаем страницы. В течение многих лет мы вкладывали усилия в развитие нашего поискового робота и системы индексирования. В итоге сейчас мы имеем очень большой и актуальный индекс веб-страниц. Помимо увеличения размеров индекса и повышения его актуальности, мы добились еще некоторых улучшений. Одна из наших наиболее важных технологий для понимания веб-страниц — это определение понятий, важных в контексте страницы, даже если связь со страницей неочевидна. Мы находим официальную домашнюю
страницу Государственного Эрмитажа
в Санкт-Петербурге на запрос на итальянском [
Museo dell'Ermitage di San Pietroburgo
], даже если на официальной странице не упоминается ни Санкт-Петербург, ни San Pietroburgo. Если американский пользователь ищет [
cool tech pc vancouver, wa
], то ему выдается страница
www.cooltechpc.com
, несмотря на то, что на странице нигде не упоминается город Ванкувер (штат Вашингтон, США). Также мы разработали технологии, которые умеют отличать важные и неважные для конкретной страницы слова, а также учитывать, насколько свежая информация размещена на странице.
Понимаем поисковые запросы. Для нас важно не просто осуществлять поиск по конкретным словам, содержащимся в запросе, а четко понимать, что именно хотят найти пользователи, когда задают тот или иной запрос. Наша компания совершила ряд заметных технологических прорывов в данной области. Мы разработали лучшую в своем классе систему проверки орфографии запросов, передовую систему подбора синонимов, а также мощную систему анализа понятий, содержащихся в поисковом запросе.
Практически все пользователи сталкивались с нашей системой проверки орфографии. Эта система знает, что если пользователь ввел в поисковую строку [
пояск в гуле
], то скорее всего ему нужна информация о поиске в Google. В таком случае выводится сообщение: Возможно, вы имели в виду:
поиск в гугле
. Если же пользователь набрал [
пояск кожаный
], система понимает, что он ищет кожаный пояс. Осуществлять такой анализ одновременно на нескольких языках чрезвычайно сложно, но Google успешно с этим справляется.
Подбор синонимов является ключевым аспектом понимания запросов. Это одна из самых трудных задач, которыми мы занимаемся в Google. Несмотря на то, что подбор синонимов зачастую очевиден для человека, в области автоматической обработки текстов эта проблема еще не решена. Как пользователю мне не хотелось бы слишком задумываться над тем, какие именно слова использовать в своих запросах. Часто мне вообще неизвестно, какие слова лучше выбрать. В таких случаях в дело вступает наша система подбора синонимов, которая способна выполнять сложнейшие модификации запросов. Например, она знает, что в запросе [
ДР Аллы Пугачевой
] сочетание ДР означает день рождения, а в запросе [
ДР Рим
] – слово древний. Когда пользователь ищет [
логический философский трактат Витгенштейна
], он получает результаты, относящиеся к «Логико-философскому трактату» Людвига Витгенштейна, а по запросу [
реляционные БД
] система автоматически находит информацию о реляционных базах данных. Мы добились такого уровня понимания запросов почти для ста различных языков, что является для меня предметом особой гордости.
Еще одна технология, которую мы используем в нашей системе ранжирования результатов, это определение понятий, интересующих пользователя. Она позволяет значительно повысить релевантность поиска. Например, наши алгоритмы понимают, что по запросу [
Казанова певица
] пользователю необходима информация о певице Сати Казановой, а не об известном ловеласе XVIII века
Джакомо Казанове
. Но мы не останавливаемся на идентификации, мы обогащаем результаты поиска адекватными концепциями. Например, если пользователь ищет информацию о [
влиянии компьютера на человека
], то ему хочется узнать не столько о том, как компьютер влияет на мировосприятие человека, сколько о его воздействии на здоровье и психику. Или если пользователь вводит [
институт Баумана
], то его интересует Московский Государственный Технический Университет имени Баумана. В наши алгоритмы анализа запросов встроено множество подобных разработок, и, как я уже говорил, мы умеем анализировать запросы практически на всех языках, которые поддерживает Google.
Понимание пользователей: Наша работа по пониманию пользователей заключается в том, что мы стараемся выдавать именно те результаты, которые реально нужны людям, а не просто слова, которые были введены в строку поиска. В первую очередь для этого применяется наша система локализации, передовая технология персонализации, а также ряд других выдающихся достижений, например, Универсальный поиск.
В нашей работе по локализации мы реализуем наш базовый принцип — наилучшее качество результатов поиска с учетом местной специфики в любой точке земного шара. Один и тот же запрос, набранный пользователями в различных странах, может давать абсолютно разные результаты. Например, если пользователь в США ищет [
bank
], он должен получить информацию об американских банках. А если то же самое слово ищет пользователь в
Великобритании
, то он, скорее всего, ищет либо производителя модной одежды и обуви "Bank Fashion", либо информацию о британских финансовых институтах. Аналогичный запрос должен выводить местные финансовые институты в таких странах, как
Австралия
,
Канада
,
Новая Зеландия
,
Южная Африка
. Забавные вещи начинаются, когда тот же самый запрос вводят в
Египте
,
Израиле
,
России
,
Саудовской Аравии
,
Швейцарии
или
Японии
. Аналогично запрос [football] относится к абсолютно разным видам спорта в
Австралии
,
Великобритании
и
США
. В этих примерах мы показали, как мы умеем правильно отображать локализованные версии одного и того же понятия (финансовые институты, виды спорта и т.д.). Однако один и тот же запрос может означать совсем разные вещи для пользователей в разных странах. Например, [Côte d'Or] – это географический регион во
Франции
. Но в соседней
Бельгии
– это крупный производитель шоколадных изделий. И мы умеем правильно понимать этот запрос.
Персонализация – это еще одна мощная возможность нашей системы поиска. Мы умеем адаптировать результаты поиска к потребностям конкретных пользователей. Пользователи, которые вошли в Google под своей учетной записью и подписались на сервис "История веб-поиска", имеют возможность получать результаты, которые лучше отвечают их запросам, чем общий поиск Google. Например, если человек, которого интересует железнодорожная тематика, вводит [локомотив], то он получит больше информации о локомотиве как транспортном средстве. Другие же пользователи получат, в первую очередь, информацию о футбольном клубе "Локомотив". Точно так же, если вы предпочитаете страницы конкретного интернет-магазина, то при поиске товаров вы получите больше результатов именно со страниц этого магазина. Как показывают наши опросы, пользователи считают, что персонализованный поиск дает более качественные результаты, чем неперсонализованный.
Еще один пример того, как мы предугадываем желания пользователя – это запрос [
chevrolet magnum
] На самом деле Magnum производит Dodge, а не Chevrolet, поэтому в выдаче мы также предлагаем результаты для [
dodge magnum
].
Наш Универсальный поиск – еще один пример того, как мы умеем правильно понимать пользователей и выдавать именно те результаты, которые им действительно нужны. Например, на запрос [
стокгольм
] пользователь получает не только важные веб-страницы о шведской столице, но и карту города, и картинки с его видами. Сейчас мы также показываем свежие новости о Стокгольме .
Я мог бы продолжать бесконечно долго, приводя примеры наших технологий, обуславливающих передовой уровень системы ранжирования Google. Однако мы прекрасно осознаем, что поиск информации не является окончательно решенной проблемой. На многие запросы мы пока не умеем выдавать удовлетворительные результаты, и каждый из таких запросов – это возможность улучшить нашу систему ранжирования. Я уверен, что те многочисленные технологии, которые сейчас разрабатывает наша команда, позволят нам в самом ближайшем будущем достичь существенного повышения качества нашего поиска.
Я надеюсь, что два моих поста о ранжировании Google позволили вам убедиться в том, что мы в Google живем и дышим поиском, и наша страстная увлеченность им сегодня сильна как никогда. Мы гордимся тем, что у нас очень хорошая система ранжирования, и мы невероятно много работаем изо дня в день, чтобы она становилась еще лучше.
Ярлыки
#10летYouTube
#10YearsOfYouTube
#1апреля #сюрприз #пасхалка #gmail #googlemaps #Покемоны #селфи #фотобомба #google+
#2014
#2015
#360degree
#360video
#3D
#8марта
#Авиабилеты
#автокреатив
#Академия культуры
#аккаунт Google #защита данных
#Амазонка
#амедиатека
#анимация
#АнитаБорг
#Арт-проект
#Африка
#балет
#безопасность
#бизнес
#блогеры
#Большой театр
#Бразилия
#вебмастер
#ВеликаяПобеда
#Венеция
#видео
#ВКонтакте
#ВОВ
#выставка
#газеты
#Галапогосы
#Галерея Google Карт
#Год в Поиске
#ГодЛитературы
#Грант
#Гренландия
#День святого Валентина
#ДеньПобеды
#дудл
#Дудл для Google
#женщины
#живаяпамять
#Живое издание
#журналы
#Заметки
#Земфира
#игра
#Изобретения
#интервью
#Интернет-магазин Chrome
#Иордания
#искусство
#исследование
#Камчатка
#Каренина
#карты
#Кения
#класс
#Климт
#Кодабра
#коллаж
#Конкурс
#Конференция
#космос
#Красноярск
#культура
#литература
#Мандела
#маршруты
#МегаФон
#Мои Карты
#мойаккаунт
#Мосфильм
#музыка
#МХТ
#Наука
#Неделя Комедий
#Непал
#Новосибирск
#Новый Год
#обновления
#Образование
#образовательные проекты
#общественный транспорт
#опера
#Оскар
#официальное заявление
#Пакистан
#панорамы
#Переводчик
#Петра
#пиратство
#ПисьмаФронта
#плейлист
#Плисецкая
#победа70
#поиск
#Поиск по картинкам
#Пользовательские Карты
#понятный интернет
#популярное
#поцелуй
#почта
#Праздник
#приложения
#пробки
#Просмотр
#Просмотр Улиц
#ПросмотрУлиц
#Пушкин
#реклама
#РКС
#С Новым Годом
#сайт
#Самбуру
#свобода
#Сибирь
#слоны
#сновавшколу
#Сообщество
#социальный проект
#Сочи
#спасибо2014
#статистика
#стипендия
#театр
#темы
#Толстой
#трекер
#тренды
#тролльдваноль #МТgoogle #ПиратскиеКопии
#ФестивальПобеды
#финалисты
#фото
#фотография
#Футбол
#Хакатон
#Хоббит
#Холокост
#хэллоуин
#Цифровое поколение
#Цифровое поколение #digitalgeneration
#чайка
#чат
#черепахи
#Чехов
#чехов_жив
#ЧеховЖив
#ЧМ2014
#чтения
#школа
#ЮАР
#язык
#Ad
#Ads
#AdWords
#Africa
#AMP
#Android
#AndroidAuto
#AndroidM
#AndroidOne
#AndroidPay
#AndroidTV
#AndroidWear
#Apps4all #Moscowappcontest13 #Android #Developers #Конкурс приложений
#Arcade Fire
#art
#Art Project
#artcopyandcode
#backtoschool
#barbican
#Blogger
#Brazil
#Brillo
#bublcam
#camera
#Cardboard
#cards
#CDZA
#chat
#chehovlive
#chekhovlive
#chrome
#Chrome Эксперименты
#Chrome Experiments
#Chromebook
#Chromebooks
#Chromecast
#ChromeExp
#code
#ComedyWeek
#Conference
#Cultural Institute
#CulturalInstitute
#d4gru
#devart
#developers
#digital art
#digitalgeneration
#DNI
#doodle
#doodle4google
#earth outreach
#education
#Eminem
#emoji
#exhibition
#firefox
#fisheye
#FlightSearch
#galaxy
#galaxyA
#gif
#Girls20
#Gmail
#Goоgle Keep
#Goggles
#Google
#Google Диск
#Google Карты
#Google Переводчик
#Google Поиск
#Google Art Project
#Google Chrome
#Google Cultural Institute
#Google Developer Day
#Google Maps
#Google Maps Engine
#Google MapsGL
#Google Now
#Google Photo
#Google Play
#Google Play Пресса
#Google Play Music
#Google Science Fair
#Google Search App
#Google Translate
#Google[x]
#Google+
#Google+ Истории
#Google+ Stories
#GoogleФото
#googleartproject
#GoogleClassroom
#GoogleCulturalInstitute
#GoogleDocs
#GoogleExpiditions
#GoogleForm
#googleforward
#googlemaps
#GoogleNow
#GoogleOpenGallery
#GooglePhoto
#GooglePhotos
#googleplay
#googleplaymusic
#googlerussia
#googlesciencefair
#GoogleSearch
#GoogleSheets
#googletranslate
#googletrends
#googlevpered
#googlevpered #vperedwithgoogle
#GR
#Ground Truth
#GSF
#GSF14
#gsf15
#GSF2014
#GSF2015
#halloween
#Hangouts
#HappyBirthdayYouTube
#HOA
#Hobbit
#I/O
#inbox
#io14
#io15
#iOS
#ipad
#IT
#Jason Schwartzman
#Jump
#kareninalive
#Kenya
#kodak
#kosmos
#kosmosdoodle
#Lady Gaga
#LEGO
#Lindsey Stirling
#literature
#live
#Lollipop
#MapMaker
#maps
#mobile
#mobilefriendly
#Motorola
#music
#Nexus
#nike
#offline
#Ok Google
#okgoogle
#okrussia
#pacman
#PACMaps
#panorama
#Photo
#projectzero
#Puls
#RISE
#RISEawards
#safari
#safe
#safebrowsing
#Samburu
#samsung
#SantaTracker
#science
#sciencefair
#space
#spaceexploration
#Spell Up
#Spike Jonze
#staynet
#staysafe
#StepOnStage
#streetart
#streetartproject
#StreetView
#SummerTime
#tcsummit2013
#TheHobbit
#Tolstoy
#top
#Top Contributors
#tophit
#trends
#twitter
#video
#videoppl
#Visual Search
#vkontakte
#vperedwithgoogle
#VR
#Weave
#web speech api
#WebGL
#WorldCup
#Year in Search
#YouTube
#youtube #YouTube Music Awards
#YouTube Rewind
#YouTubeforArtists
#YouTubeMusicAwards
#YouTubeRewind
#ytcreators
#YTMA
#ytma #youtube #musicaward #YouTube Music Award
#Zeitgeist
#Zeitgeist2013
выскажи свое мнение
голосовой поиск
Гринпис
изменение климата
интерфейс
картинки
Карты Google
качество поиска
конференция
кс15
Лох-Несс
любимые места знаменитостей
МАКС 2007
Маркет
МГУ
мошенничество
Новости
Образование
Общественный транспорт
Переводчик
Поиск
поиск по картинкам
пробки
Сниппеты
спутниковые снимки
Android
api
chrome
climate change
cop15
CSE
Custom Search Engine
developer
GCD07
gdd
Google Блоги
Google AdSense
Google Maps
Google Sites
Google Street View
Greenpeace
raise your voice
Tech Talks
techtalk
wave
youtube
Архив
Архив
февраля 2022 ( 5 )
января 2022 ( 1 )
декабря 2021 ( 5 )
ноября 2021 ( 3 )
октября 2021 ( 4 )
сентября 2021 ( 3 )
августа 2021 ( 6 )
июля 2021 ( 4 )
июня 2021 ( 3 )
мая 2021 ( 3 )
апреля 2021 ( 2 )
марта 2021 ( 2 )
февраля 2021 ( 5 )
января 2021 ( 1 )
декабря 2020 ( 5 )
ноября 2020 ( 4 )
октября 2020 ( 6 )
сентября 2020 ( 4 )
августа 2020 ( 3 )
июля 2020 ( 3 )
июня 2020 ( 5 )
мая 2020 ( 2 )
апреля 2020 ( 10 )
марта 2020 ( 7 )
февраля 2020 ( 6 )
января 2020 ( 1 )
декабря 2019 ( 3 )
ноября 2019 ( 3 )
октября 2019 ( 1 )
сентября 2019 ( 3 )
августа 2019 ( 3 )
июля 2019 ( 7 )
июня 2019 ( 1 )
мая 2019 ( 3 )
апреля 2019 ( 3 )
марта 2019 ( 3 )
февраля 2019 ( 2 )
января 2019 ( 1 )
декабря 2018 ( 6 )
ноября 2018 ( 5 )
октября 2018 ( 4 )
сентября 2018 ( 4 )
августа 2018 ( 4 )
июля 2018 ( 4 )
июня 2018 ( 8 )
мая 2018 ( 3 )
апреля 2018 ( 3 )
марта 2018 ( 2 )
февраля 2018 ( 5 )
января 2018 ( 4 )
декабря 2017 ( 5 )
ноября 2017 ( 6 )
октября 2017 ( 5 )
сентября 2017 ( 4 )
августа 2017 ( 6 )
июля 2017 ( 5 )
июня 2017 ( 4 )
мая 2017 ( 3 )
апреля 2017 ( 3 )
марта 2017 ( 5 )
февраля 2017 ( 8 )
января 2017 ( 1 )
декабря 2016 ( 3 )
ноября 2016 ( 10 )
октября 2016 ( 4 )
сентября 2016 ( 8 )
августа 2016 ( 3 )
июля 2016 ( 7 )
июня 2016 ( 2 )
мая 2016 ( 5 )
апреля 2016 ( 6 )
марта 2016 ( 4 )
февраля 2016 ( 5 )
января 2016 ( 3 )
декабря 2015 ( 9 )
ноября 2015 ( 7 )
октября 2015 ( 4 )
сентября 2015 ( 7 )
августа 2015 ( 5 )
июля 2015 ( 3 )
июня 2015 ( 8 )
мая 2015 ( 3 )
апреля 2015 ( 9 )
марта 2015 ( 10 )
февраля 2015 ( 11 )
января 2015 ( 3 )
декабря 2014 ( 10 )
ноября 2014 ( 5 )
октября 2014 ( 8 )
сентября 2014 ( 11 )
августа 2014 ( 9 )
июля 2014 ( 3 )
июня 2014 ( 9 )
мая 2014 ( 5 )
апреля 2014 ( 6 )
марта 2014 ( 3 )
февраля 2014 ( 7 )
января 2014 ( 5 )
декабря 2013 ( 10 )
ноября 2013 ( 9 )
октября 2013 ( 9 )
сентября 2013 ( 7 )
августа 2013 ( 7 )
июля 2013 ( 5 )
июня 2013 ( 10 )
мая 2013 ( 11 )
апреля 2013 ( 12 )
марта 2013 ( 9 )
февраля 2013 ( 5 )
января 2013 ( 5 )
декабря 2012 ( 13 )
ноября 2012 ( 9 )
октября 2012 ( 11 )
сентября 2012 ( 10 )
августа 2012 ( 4 )
июля 2012 ( 8 )
июня 2012 ( 8 )
мая 2012 ( 8 )
апреля 2012 ( 8 )
марта 2012 ( 5 )
февраля 2012 ( 4 )
января 2012 ( 9 )
декабря 2011 ( 7 )
ноября 2011 ( 6 )
октября 2011 ( 14 )
сентября 2011 ( 8 )
августа 2011 ( 6 )
июля 2011 ( 4 )
июня 2011 ( 10 )
мая 2011 ( 12 )
апреля 2011 ( 8 )
марта 2011 ( 5 )
февраля 2011 ( 9 )
января 2011 ( 1 )
декабря 2010 ( 9 )
ноября 2010 ( 4 )
октября 2010 ( 7 )
сентября 2010 ( 13 )
августа 2010 ( 7 )
июля 2010 ( 3 )
июня 2010 ( 8 )
мая 2010 ( 6 )
апреля 2010 ( 3 )
марта 2010 ( 9 )
февраля 2010 ( 9 )
января 2010 ( 7 )
декабря 2009 ( 11 )
ноября 2009 ( 7 )
октября 2009 ( 13 )
сентября 2009 ( 9 )
августа 2009 ( 6 )
июля 2009 ( 9 )
июня 2009 ( 5 )
мая 2009 ( 9 )
апреля 2009 ( 14 )
марта 2009 ( 8 )
февраля 2009 ( 10 )
января 2009 ( 8 )
декабря 2008 ( 4 )
ноября 2008 ( 5 )
октября 2008 ( 3 )
сентября 2008 ( 5 )
августа 2008 ( 4 )
июля 2008 ( 7 )
июня 2008 ( 6 )
апреля 2008 ( 4 )
марта 2008 ( 3 )
февраля 2008 ( 5 )
декабря 2007 ( 5 )
ноября 2007 ( 2 )
октября 2007 ( 5 )
сентября 2007 ( 4 )
августа 2007 ( 3 )
июля 2007 ( 4 )
июня 2007 ( 2 )
мая 2007 ( 1 )
апреля 2007 ( 5 )
марта 2007 ( 3 )
января 2007 ( 2 )
декабря 2006 ( 4 )
ноября 2006 ( 3 )
октября 2006 ( 5 )
сентября 2006 ( 6 )
RSS канал
Блог Google Россия на Habrahabr
Вопрос или пожелание?
Заходите на наш
Справочный форум
и обсуждайте!