Официальный блог Google Россия
Новости, объявления и полезные советы от российского офиса Google
Качество поиска Google: знакомство
28 июля 2008 г.
Автор: Уди Манбер, Вице-президент по инженерным разработкам, отдел качества поиска
"Качество поиска" - так называется отдел, который отвечает за определение рейтинга результатов поиска Google. Смысл нашей работы прост и понятен: люди отправляют запросы в компанию Google по нескольку сотен миллионов раз в день, и за несколько долей секунды система Google должна принять решение о том, какие из миллиардов страниц им показать, и в каком порядке. В последнее время мы также делаем и другие вещи. Однако об этом чуть позже.
Удивительно, но о рейтинге результатов Google, которым пользуется так много людей и настолько часто, известно очень мало. Это полностью наша вина, и сделано это намеренно. Откровенно говоря, мы не много рассказываем о том, что мы делаем. Этому есть две причины: конкуренция и злоупотребления. Про конкуренцию все понятно. Ни одна компания не станет делиться секретными рецептами со своими конкурентами.Что касается злоупотреблений: если мы сделаем наши формулы определения рейтинга слишком доступными, то увеличим возможность мошенничества с системой. Обеспечение безопасности за счет скрытности, конечно, не самый эффективный способ, но мы и не полагаемся исключительно на него, однако таким образом мы предотвращаем большое количество нарушений.
Алгоритмы определения рейтинга являются одним из наиболее привлекательных активов компании Google. Мы ими очень гордимся и очень их защищаем. По некоторым оценкам, если сложить все годы работы программистов и исследователей, ушедшие на разработку этих алгоритмов, то получится более 1000 лет, и скорость инноваций с тех пор не снизилась.
Тем не менее полная секретность не является идеалом, и эта публикация в блоге позволит нам открыть немного больше информации, чем мы делали раньше . Мы постараемся выпускать такие сообщения периодическими, рассказывая о нововведениях, объясняя существующие функции, делясь советами, новостями и вступая в диалог. Начать я хотел бы с общей информации о нашем отделе. В дальнейшем мы планируем новые блог-посты на эту тему.
А теперь позвольте мне представиться. Меня зовут Уди Манбер. Я являюсь вице-президентом по инженерным разработкам в компании Google и возглавляю отдел качества поиска. Я работаю в компании Google более двух лет, а поисковыми технологиями занимаюсь почти 20 лет.
Основа отдела - это коллектив, который работает над определением основных рейтингов. Определение рейтинга - нелегкая задача. Она гораздо сложнее, чем многие могут подумать. Одна из причин этого состоит в различиях языков и отсутствии правил, которых следует придерживаться при создании документов. Стандартов, определяющих способ изложения информации, не существует. Поэтому мы должны "понимать" все веб-страницы, которые мог создать любой человек, по любому случаю. Это только половина проблемы. Нам также надо понять вводимые пользователями запросы, которые в среднем составляют менее трех слов, и сопоставить их с тем, как мы распознаем все документы. Не говоря уже о том, что разные люди ищут разные вещи. И все это нам надо сделать за несколько миллисекунд.
Самая известная часть алгоритма определения рейтинга - это
PageRank
, алгоритм, разработанный Ларри Пейджем и Сергеем Брином, основателями компании Google. PageRank используется и сейчас, однако теперь он является частью гораздо более сложной системы. В число других элементов входят языковые модели (способность обрабатывать фразы, синонимы, диакритические знаки, ошибки правописания и так далее), модели запросов (это имеет отношение не столько к языку, сколько к тому, как его используют люди), временные модели (на некоторые запросы самые лучшие ответы можно найти на странице, созданной всего 30 минут назад, а на некоторые - на страницах, которые выдержали испытание временем) и персонализированные модели (потому что все люди разные).
Другая группа сотрудников в нашем отделе отвечает за оценку эффективности нашей работы. Это делается различными способами, однако цель всегда одна: повышение удобства работы пользователей. Это не главная цель - это единственная задача. Каждую минуту выполняются автоматизированные проверки эффективности (чтобы все работало как надо), а также периодическая оценка качества в целом, и, что самое важное, оценка улучшений алгоритма. Когда у инженера возникает новая идея, и он разрабатывает новый алгоритм, мы его тщательно проверяем. У нас есть группа по работе со статистикой, которая рассматривает все данные и определяет ценность новой идеи. Каждую неделю проходят встречи (иногда и два раза в неделю), на которых мы прорабатываем новые мысли и одобряем нововведения. В 2007 году мы внедрили более 450 улучшений, что в среднем составило около 9 улучшений в неделю. Некоторые из них просты и очевидны -- например, мы исправили ошибку при обработке запросов, содержащих аббревиатуры на иврите (в иврите аббревиатуры обозначаются символом (") рядом с последней буквой, то есть аббревиатура IBM пишется как IB"M), а некоторые были очень сложными -- например, в январе мы внесли значительные изменения в алгоритм PageRank. Большую часть времени мы искали способы повышения релевантности, однако мы также работали над проектами, имеющими единственную цель - упрощение алгоритмов. Чем проще, тем лучше.
В течение последних двух лет одним из основных направлений нашей деятельности был международный поиск. Это значит, что мы работали со всеми языками, а не только с самыми распространенными. Например, в прошлом году мы внесли значительные улучшения в работу системы на азербайджанском языке, на котором говорят примерно 8 миллионов человек. За последние несколько месяцев мы запустили проверку правописания на эстонском, каталанском, сербском, сербо-хорватском, украинском, боснийском, латвийском, тагальском, словенском языках и фарси. Мы организовали всемирную сеть, участники которой предоставляют нам отзывы. Кроме того, у нас есть много добровольных помощников внутри компании Google, которые говорят на разных языках и помогают нам улучшить поиск.
Другая группа работает над разработкой новых функций и новых пользовательских интерфейсов. Для отличной машины нужен хороший двигатель. Но одного его недостаточно. Машина должна быть комфортабельной и легкой в управлении. Пользовательский интерфейс поиска Google довольно простой. Лишь некоторые из наших пользователей читают
страницы справки
- они могут обойтись без них (хотя читать их легко и мы продолжаем работать над их улучшением). Когда мы добавляем новые функции, мы стараемся сделать так, чтобы они имели интуитивно понятный способ работы и были удобны в использовании для всех людей. Одно из самых заметных введенных нами изменений - это
универсальный поиск
. Среди других -
Блокнот Google
,
пользовательские системы поиска
, и, конечно, множество улучшений страницы iGoogle. Группе по разработке пользовательского интерфейса помогают эксперты по юзабилити, которые проводят опросы пользователей и оценку новых функций. Они путешествуют по всему миру. Иногда они заходят в дома, чтобы посмотреть на работу пользователей в естественной обстановке. (Не беспокойтесь, они не придут без приглашения или без предупреждения!)
У нас есть группа, работа которой полностью посвящена борьбе со
спамом и другими типами нарушений
. Эта группа работает над множеством проблем: от скрытого текста до не соответствующих тематике страниц, которые имеют наборы ключевых слов, плюс другие схемы, используемые с целью получения более высокого рейтинга на страницах результатов поиска. Группа отмечает новые тенденции спама и борется с ними, обеспечивая масштабируемость предлагаемых решений. Как и все другие группы, она работает на международном уровне, охватывая разные языки и страны. Группа по борьбе с веб-спамом работает в тесном контакте с командой
Центра веб-мастеров Google
, чтобы обмениваться идеями с пользователями и узнавать мнение владельцев сайтов.
В компании есть другие отделы, которые работают над самыми разными проектами. В целом организационная структура достаточно неформальная. Люди переходят из одной группы в другую, а а новые проекты начинаются постоянно.
Один из наиболее важных моментов, связанных с поиском, состоит в том, что ожидания пользователей растут очень быстро. Запросы завтрашнего дня будет выполнить гораздо сложнее, чем сегодня. Точно так же, как закон Мура определяет удвоение скорости компьютерного расчета каждые 18 месяцев, имеется и скрытый неписанный закон, согласно которому самые сложные запросы в течение короткого времени становятся вдвое сложнее. Это невозможно выразить точными цифрами, но мы все это чувствуем. Мы знаем, что не можем спокойно почивать на лаврах - нам надо упорно работать, чтобы решить эту задачу. Как я говорил ранее, мы будем и в будущем сообщать вам об обновлениях в качестве поиска, поэтому следите за новостями.
Ярлыки
#10летYouTube
#10YearsOfYouTube
#1апреля #сюрприз #пасхалка #gmail #googlemaps #Покемоны #селфи #фотобомба #google+
#2014
#2015
#360degree
#360video
#3D
#8марта
#Авиабилеты
#автокреатив
#Академия культуры
#аккаунт Google #защита данных
#Амазонка
#амедиатека
#анимация
#АнитаБорг
#Арт-проект
#Африка
#балет
#безопасность
#бизнес
#блогеры
#Большой театр
#Бразилия
#вебмастер
#ВеликаяПобеда
#Венеция
#видео
#ВКонтакте
#ВОВ
#выставка
#газеты
#Галапогосы
#Галерея Google Карт
#Год в Поиске
#ГодЛитературы
#Грант
#Гренландия
#День святого Валентина
#ДеньПобеды
#дудл
#Дудл для Google
#женщины
#живаяпамять
#Живое издание
#журналы
#Заметки
#Земфира
#игра
#Изобретения
#интервью
#Интернет-магазин Chrome
#Иордания
#искусство
#исследование
#Камчатка
#Каренина
#карты
#Кения
#класс
#Климт
#Кодабра
#коллаж
#Конкурс
#Конференция
#космос
#Красноярск
#культура
#литература
#Мандела
#маршруты
#МегаФон
#Мои Карты
#мойаккаунт
#Мосфильм
#музыка
#МХТ
#Наука
#Неделя Комедий
#Непал
#Новосибирск
#Новый Год
#обновления
#Образование
#образовательные проекты
#общественный транспорт
#опера
#Оскар
#официальное заявление
#Пакистан
#панорамы
#Переводчик
#Петра
#пиратство
#ПисьмаФронта
#плейлист
#Плисецкая
#победа70
#поиск
#Поиск по картинкам
#Пользовательские Карты
#понятный интернет
#популярное
#поцелуй
#почта
#Праздник
#приложения
#пробки
#Просмотр
#Просмотр Улиц
#ПросмотрУлиц
#Пушкин
#реклама
#РКС
#С Новым Годом
#сайт
#Самбуру
#свобода
#Сибирь
#слоны
#сновавшколу
#Сообщество
#социальный проект
#Сочи
#спасибо2014
#статистика
#стипендия
#театр
#темы
#Толстой
#трекер
#тренды
#тролльдваноль #МТgoogle #ПиратскиеКопии
#ФестивальПобеды
#финалисты
#фото
#фотография
#Футбол
#Хакатон
#Хоббит
#Холокост
#хэллоуин
#Цифровое поколение
#Цифровое поколение #digitalgeneration
#чайка
#чат
#черепахи
#Чехов
#чехов_жив
#ЧеховЖив
#ЧМ2014
#чтения
#школа
#ЮАР
#язык
#Ad
#Ads
#AdWords
#Africa
#AMP
#Android
#AndroidAuto
#AndroidM
#AndroidOne
#AndroidPay
#AndroidTV
#AndroidWear
#Apps4all #Moscowappcontest13 #Android #Developers #Конкурс приложений
#Arcade Fire
#art
#Art Project
#artcopyandcode
#backtoschool
#barbican
#Blogger
#Brazil
#Brillo
#bublcam
#camera
#Cardboard
#cards
#CDZA
#chat
#chehovlive
#chekhovlive
#chrome
#Chrome Эксперименты
#Chrome Experiments
#Chromebook
#Chromebooks
#Chromecast
#ChromeExp
#code
#ComedyWeek
#Conference
#Cultural Institute
#CulturalInstitute
#d4gru
#devart
#developers
#digital art
#digitalgeneration
#DNI
#doodle
#doodle4google
#earth outreach
#education
#Eminem
#emoji
#exhibition
#firefox
#fisheye
#FlightSearch
#galaxy
#galaxyA
#gif
#Girls20
#Gmail
#Goоgle Keep
#Goggles
#Google
#Google Диск
#Google Карты
#Google Переводчик
#Google Поиск
#Google Art Project
#Google Chrome
#Google Cultural Institute
#Google Developer Day
#Google Maps
#Google Maps Engine
#Google MapsGL
#Google Now
#Google Photo
#Google Play
#Google Play Пресса
#Google Play Music
#Google Science Fair
#Google Search App
#Google Translate
#Google[x]
#Google+
#Google+ Истории
#Google+ Stories
#GoogleФото
#googleartproject
#GoogleClassroom
#GoogleCulturalInstitute
#GoogleDocs
#GoogleExpiditions
#GoogleForm
#googleforward
#googlemaps
#GoogleNow
#GoogleOpenGallery
#GooglePhoto
#GooglePhotos
#googleplay
#googleplaymusic
#googlerussia
#googlesciencefair
#GoogleSearch
#GoogleSheets
#googletranslate
#googletrends
#googlevpered
#googlevpered #vperedwithgoogle
#GR
#Ground Truth
#GSF
#GSF14
#gsf15
#GSF2014
#GSF2015
#halloween
#Hangouts
#HappyBirthdayYouTube
#HOA
#Hobbit
#I/O
#inbox
#io14
#io15
#iOS
#ipad
#IT
#Jason Schwartzman
#Jump
#kareninalive
#Kenya
#kodak
#kosmos
#kosmosdoodle
#Lady Gaga
#LEGO
#Lindsey Stirling
#literature
#live
#Lollipop
#MapMaker
#maps
#mobile
#mobilefriendly
#Motorola
#music
#Nexus
#nike
#offline
#Ok Google
#okgoogle
#okrussia
#pacman
#PACMaps
#panorama
#Photo
#projectzero
#Puls
#RISE
#RISEawards
#safari
#safe
#safebrowsing
#Samburu
#samsung
#SantaTracker
#science
#sciencefair
#space
#spaceexploration
#Spell Up
#Spike Jonze
#staynet
#staysafe
#StepOnStage
#streetart
#streetartproject
#StreetView
#SummerTime
#tcsummit2013
#TheHobbit
#Tolstoy
#top
#Top Contributors
#tophit
#trends
#twitter
#video
#videoppl
#Visual Search
#vkontakte
#vperedwithgoogle
#VR
#Weave
#web speech api
#WebGL
#WorldCup
#Year in Search
#YouTube
#youtube #YouTube Music Awards
#YouTube Rewind
#YouTubeforArtists
#YouTubeMusicAwards
#YouTubeRewind
#ytcreators
#YTMA
#ytma #youtube #musicaward #YouTube Music Award
#Zeitgeist
#Zeitgeist2013
выскажи свое мнение
голосовой поиск
Гринпис
изменение климата
интерфейс
картинки
Карты Google
качество поиска
конференция
кс15
Лох-Несс
любимые места знаменитостей
МАКС 2007
Маркет
МГУ
мошенничество
Новости
Образование
Общественный транспорт
Переводчик
Поиск
поиск по картинкам
пробки
Сниппеты
спутниковые снимки
Android
api
chrome
climate change
cop15
CSE
Custom Search Engine
developer
GCD07
gdd
Google Блоги
Google AdSense
Google Maps
Google Sites
Google Street View
Greenpeace
raise your voice
Tech Talks
techtalk
wave
youtube
Архив
Архив
февраля 2022 ( 5 )
января 2022 ( 1 )
декабря 2021 ( 5 )
ноября 2021 ( 3 )
октября 2021 ( 4 )
сентября 2021 ( 3 )
августа 2021 ( 6 )
июля 2021 ( 4 )
июня 2021 ( 3 )
мая 2021 ( 3 )
апреля 2021 ( 2 )
марта 2021 ( 2 )
февраля 2021 ( 5 )
января 2021 ( 1 )
декабря 2020 ( 5 )
ноября 2020 ( 4 )
октября 2020 ( 6 )
сентября 2020 ( 4 )
августа 2020 ( 3 )
июля 2020 ( 3 )
июня 2020 ( 5 )
мая 2020 ( 2 )
апреля 2020 ( 10 )
марта 2020 ( 7 )
февраля 2020 ( 6 )
января 2020 ( 1 )
декабря 2019 ( 3 )
ноября 2019 ( 3 )
октября 2019 ( 1 )
сентября 2019 ( 3 )
августа 2019 ( 3 )
июля 2019 ( 7 )
июня 2019 ( 1 )
мая 2019 ( 3 )
апреля 2019 ( 3 )
марта 2019 ( 3 )
февраля 2019 ( 2 )
января 2019 ( 1 )
декабря 2018 ( 6 )
ноября 2018 ( 5 )
октября 2018 ( 4 )
сентября 2018 ( 4 )
августа 2018 ( 4 )
июля 2018 ( 4 )
июня 2018 ( 8 )
мая 2018 ( 3 )
апреля 2018 ( 3 )
марта 2018 ( 2 )
февраля 2018 ( 5 )
января 2018 ( 4 )
декабря 2017 ( 5 )
ноября 2017 ( 6 )
октября 2017 ( 5 )
сентября 2017 ( 4 )
августа 2017 ( 6 )
июля 2017 ( 5 )
июня 2017 ( 4 )
мая 2017 ( 3 )
апреля 2017 ( 3 )
марта 2017 ( 5 )
февраля 2017 ( 8 )
января 2017 ( 1 )
декабря 2016 ( 3 )
ноября 2016 ( 10 )
октября 2016 ( 4 )
сентября 2016 ( 8 )
августа 2016 ( 3 )
июля 2016 ( 7 )
июня 2016 ( 2 )
мая 2016 ( 5 )
апреля 2016 ( 6 )
марта 2016 ( 4 )
февраля 2016 ( 5 )
января 2016 ( 3 )
декабря 2015 ( 9 )
ноября 2015 ( 7 )
октября 2015 ( 4 )
сентября 2015 ( 7 )
августа 2015 ( 5 )
июля 2015 ( 3 )
июня 2015 ( 8 )
мая 2015 ( 3 )
апреля 2015 ( 9 )
марта 2015 ( 10 )
февраля 2015 ( 11 )
января 2015 ( 3 )
декабря 2014 ( 10 )
ноября 2014 ( 5 )
октября 2014 ( 8 )
сентября 2014 ( 11 )
августа 2014 ( 9 )
июля 2014 ( 3 )
июня 2014 ( 9 )
мая 2014 ( 5 )
апреля 2014 ( 6 )
марта 2014 ( 3 )
февраля 2014 ( 7 )
января 2014 ( 5 )
декабря 2013 ( 10 )
ноября 2013 ( 9 )
октября 2013 ( 9 )
сентября 2013 ( 7 )
августа 2013 ( 7 )
июля 2013 ( 5 )
июня 2013 ( 10 )
мая 2013 ( 11 )
апреля 2013 ( 12 )
марта 2013 ( 9 )
февраля 2013 ( 5 )
января 2013 ( 5 )
декабря 2012 ( 13 )
ноября 2012 ( 9 )
октября 2012 ( 11 )
сентября 2012 ( 10 )
августа 2012 ( 4 )
июля 2012 ( 8 )
июня 2012 ( 8 )
мая 2012 ( 8 )
апреля 2012 ( 8 )
марта 2012 ( 5 )
февраля 2012 ( 4 )
января 2012 ( 9 )
декабря 2011 ( 7 )
ноября 2011 ( 6 )
октября 2011 ( 14 )
сентября 2011 ( 8 )
августа 2011 ( 6 )
июля 2011 ( 4 )
июня 2011 ( 10 )
мая 2011 ( 12 )
апреля 2011 ( 8 )
марта 2011 ( 5 )
февраля 2011 ( 9 )
января 2011 ( 1 )
декабря 2010 ( 9 )
ноября 2010 ( 4 )
октября 2010 ( 7 )
сентября 2010 ( 13 )
августа 2010 ( 7 )
июля 2010 ( 3 )
июня 2010 ( 8 )
мая 2010 ( 6 )
апреля 2010 ( 3 )
марта 2010 ( 9 )
февраля 2010 ( 9 )
января 2010 ( 7 )
декабря 2009 ( 11 )
ноября 2009 ( 7 )
октября 2009 ( 13 )
сентября 2009 ( 9 )
августа 2009 ( 6 )
июля 2009 ( 9 )
июня 2009 ( 5 )
мая 2009 ( 9 )
апреля 2009 ( 14 )
марта 2009 ( 8 )
февраля 2009 ( 10 )
января 2009 ( 8 )
декабря 2008 ( 4 )
ноября 2008 ( 5 )
октября 2008 ( 3 )
сентября 2008 ( 5 )
августа 2008 ( 4 )
июля 2008 ( 7 )
июня 2008 ( 6 )
апреля 2008 ( 4 )
марта 2008 ( 3 )
февраля 2008 ( 5 )
декабря 2007 ( 5 )
ноября 2007 ( 2 )
октября 2007 ( 5 )
сентября 2007 ( 4 )
августа 2007 ( 3 )
июля 2007 ( 4 )
июня 2007 ( 2 )
мая 2007 ( 1 )
апреля 2007 ( 5 )
марта 2007 ( 3 )
января 2007 ( 2 )
декабря 2006 ( 4 )
ноября 2006 ( 3 )
октября 2006 ( 5 )
сентября 2006 ( 6 )
RSS канал
Блог Google Россия на Habrahabr
Вопрос или пожелание?
Заходите на наш
Справочный форум
и обсуждайте!