Мария Моева и Андрей Липатцев, команда качества поиска Google
В последнее время широко обсуждаются случаи появления конфиденциальной информации в результатах поиска, поэтому мы решили напомнить веб-мастерам о том, как индексируется контент и как обеспечить индексацию только предназначенных для этого страниц. Одновременно мы хотели бы еще раз рассказать пользователям о мерах, которые следует принимать при обнаружении своих конфиденциальных данных в Интернете.
Прежде всего нужно понять, что если ваши документы содержат конфиденциальную информацию, следует хорошо подумать, прежде чем помещать их на веб-сервер.
Если конфиденциальные данные всё же должны быть размещены на сайте, их следует защитить, поместив в раздел, требующий регистрации и ввода пароля. Так как поисковые системы не располагают паролями и не имеют функциональной возможности для их ввода, доступ к данным остаётся возможным только для тех, у кого есть соответствующие права.
Если владелец сайта разместит информацию в Интернете и не ограничит доступ роботам поисковых систем для сканирования и индексирования, скорее всего, эта информация будет найдена, проиндексирована и появится в результатах поиска. В этом и заключается суть работы поисковых систем: находить, структурировать информацию и делать её доступной для пользователей. Поэтому, если у вас есть веб-сайт, где размещены данные, отображение которых в результатах поиска нежелательно, на вас лежит ответственность - установить соответствующие ограничения. Ниже более подробно описывается, как это сделать.
Предотвращение сканирования и индексирования конфиденциальных данных поисковыми системами
Существует ряд способов, позволяющих веб-мастерам воспрепятствовать сканированию и индексированию личных и конфиденциальных данных поисковыми системами.
- запрет на сканирование в файле robots.txt
Файл robots.txt - первый, на который обращает внимание поисковый робот при заходе на сайт, ещё до того, как он обратит внимание на какие-либо страницы. В этом файле можно указать, сканирование каких частей сайта вы хотели бы запретить при помощи команды Disallow.
Например, если вы не хотите, чтобы сканировалась папка на сайте, содержащая изображения, то в файле robots.txt можно указать следующее:
User-agent: *
Disallow: /images/
Файл robots.txt можно легко создать в соответствующем разделе наших
Инструментов для веб-мастеров или написать самостоятельно, проверив правильность составления особым инструментом, также доступным в
Инструментах для веб-мастеров.
Важно помнить, что указание определённой страницы в файле robots.txt предотвратит её сканирование нашей системой, но при наличии на неё ссылок с других страниц (на вашем или других сайтах) мы всё равно можем проиндексировать её. В результате адрес страницы (URL), а также, возможно, и другая общедоступная информация, как например, анкорный текст ссылок ведущих на неё, могут появится в результатах поиска Google.
Дополнительные
сведения об использовании файла robots.txt для блокирования содержимого сайтов можно найти в нашем справочном центре.
- предотвращение индексирования при помощи мета-тега noindex
Этот тег можно разместить в исходном коде вашей страницы (в разделе ), тем самым запретив поисковым системам индексировать страницу, даже при обнаружении ссылок на неё с других страниц. Тег выглядит следующим образом:
<meta name="robots" content="noindex">
Обратите внимание, что тег следует разместить на каждой странице, индексирование которой необходимо запретить.
Дополнительные
сведения об использовании тега noindex можно найти в нашем справочном центре.
- предотвращение индексирования при помощи заголовка HTTP X-Robots-tag
Эффект тот же самый, как и при использовании мета-тега noindex, но этот приём особенно полезен для нетекстового содержимого, когда нет возможности разместить мета-тег в исходном коде. Ниже приведён пример применения тега X-Robots-tag в заголовке HTTP-ответа, позволяющего запретить индексацию страницы.
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)
Дополнительные
сведения об использовании тега X-Robots-tag можно найти на сайте code.google.com (на английском).
Меры, которые следует предпринять при непреднамеренной индексации конфиденциальных данных
Для веб-мастеров:
- Чтобы полностью удалить содержимое следует:
- При желании сохранить содержимое, но запретить его индексацию следует:
- разместить мета-тег noindex или HTTP-заголовок X-Robots-tag в соответствующих файлах;
- запросить удаление содержимого (при помощи Инструментов для веб-мастеров).
Для пользователей, обративших внимание на наличие их личных сведений на каком-либо сайте:
- Следует попытаться напрямую связаться с веб-мастером и затребовать удаление данных.
- Если с веб-мастером связаться не удаётся, о содержимом можно сообщить напрямую в Google в следующих случаях:
Дополнительные
сведения об оформлении запросов на удаление данных можно найти в нашем справочном центре.