Официальный блог Google Россия: Личные данные в результатах поиска

Официальный блог Google Россия

Новости, объявления и полезные советы от российского офиса Google

Личные данные в результатах поиска

2 августа 2011 г.

Мария Моева и Андрей Липатцев, команда качества поиска Google
В последнее время широко обсуждаются случаи появления конфиденциальной информации в результатах поиска, поэтому мы решили напомнить веб-мастерам о том, как индексируется контент и как обеспечить индексацию только предназначенных для этого страниц. Одновременно мы хотели бы еще раз рассказать пользователям о мерах, которые следует принимать при обнаружении своих конфиденциальных данных в Интернете.

Прежде всего нужно понять, что если ваши документы содержат конфиденциальную информацию, следует хорошо подумать, прежде чем помещать их на веб-сервер.

Если конфиденциальные данные всё же должны быть размещены на сайте, их следует защитить, поместив в раздел, требующий регистрации и ввода пароля. Так как поисковые системы не располагают паролями и не имеют функциональной возможности для их ввода, доступ к данным остаётся возможным только для тех, у кого есть соответствующие права.

Если владелец сайта разместит информацию в Интернете и не ограничит доступ роботам поисковых систем для сканирования и индексирования, скорее всего, эта информация будет найдена, проиндексирована и появится в результатах поиска. В этом и заключается суть работы поисковых систем: находить, структурировать информацию и делать её доступной для пользователей. Поэтому, если у вас есть веб-сайт, где размещены данные, отображение которых в результатах поиска нежелательно, на вас лежит ответственность - установить соответствующие ограничения. Ниже более подробно описывается, как это сделать.

Предотвращение сканирования и индексирования конфиденциальных данных поисковыми системами

Существует ряд способов, позволяющих веб-мастерам воспрепятствовать сканированию и индексированию личных и конфиденциальных данных поисковыми системами.
запрет на сканирование в файле robots.txt
Файл robots.txt - первый, на который обращает внимание поисковый робот при заходе на сайт, ещё до того, как он обратит внимание на какие-либо страницы. В этом файле можно указать, сканирование каких частей сайта вы хотели бы запретить при помощи команды Disallow.

Например, если вы не хотите, чтобы сканировалась папка на сайте, содержащая изображения, то в файле robots.txt можно указать следующее:

User-agent: *
Disallow: /images/

Файл robots.txt можно легко создать в соответствующем разделе наших Инструментов для веб-мастеров или написать самостоятельно, проверив правильность составления особым инструментом, также доступным в Инструментах для веб-мастеров.

Важно помнить, что указание определённой страницы в файле robots.txt предотвратит её сканирование нашей системой, но при наличии на неё ссылок с других страниц (на вашем или других сайтах) мы всё равно можем проиндексировать её. В результате адрес страницы (URL), а также, возможно, и другая общедоступная информация, как например, анкорный текст ссылок ведущих на неё, могут появится в результатах поиска Google.

Дополнительные сведения об использовании файла robots.txt для блокирования содержимого сайтов можно найти в нашем справочном центре.
предотвращение индексирования при помощи мета-тега noindex
Этот тег можно разместить в исходном коде вашей страницы (в разделе ), тем самым запретив поисковым системам индексировать страницу, даже при обнаружении ссылок на неё с других страниц. Тег выглядит следующим образом:

<meta name="robots" content="noindex">

Обратите внимание, что тег следует разместить на каждой странице, индексирование которой необходимо запретить.

Дополнительные сведения об использовании тега noindex можно найти в нашем справочном центре.
предотвращение индексирования при помощи заголовка HTTP X-Robots-tag
Эффект тот же самый, как и при использовании мета-тега noindex, но этот приём особенно полезен для нетекстового содержимого, когда нет возможности разместить мета-тег в исходном коде. Ниже приведён пример применения тега X-Robots-tag в заголовке HTTP-ответа, позволяющего запретить индексацию страницы.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Дополнительные сведения об использовании тега X-Robots-tag можно найти на сайте code.google.com (на английском).

Меры, которые следует предпринять при непреднамеренной индексации конфиденциальных данных

Для веб-мастеров:

Чтобы полностью удалить содержимое следует:
- удалить данные с сайта и установить автоматические ответы с кодом 404 или 410 по соответствующим адресам;
- запросить удаление содержимого (при помощи Инструментов для веб-мастеров).
При желании сохранить содержимое, но запретить его индексацию следует:
- разместить мета-тег noindex или HTTP-заголовок X-Robots-tag в соответствующих файлах;
- запросить удаление содержимого (при помощи Инструментов для веб-мастеров).

Для пользователей, обративших внимание на наличие их личных сведений на каком-либо сайте:

Следует попытаться напрямую связаться с веб-мастером и затребовать удаление данных.
- Если соответствующая страница была удалена с сайта, следует убедиться в том, что по её адресу сервер выдаёт ответ с кодом 404 (страница не найдена), а затем запросить удаление URL из результатов поиска Google при помощи инструмента для удаления URL.
- Если соответствующая страница всё ещё существует, но была обновлена (например, с неё были удалены ваше имя или телефонный номер), следует запросить удаление сохранённой копии этой страницы.
Если с веб-мастером связаться не удаётся, о содержимом можно сообщить напрямую в Google в следующих случаях:
- указан номер вашего паспорта или иного удостоверения личности;
- указан номер вашего банковского счёта или кредитной карты;
- приводится изображение вашей подписи;
- ваше ФИО или название вашего предприятия упоминается на сайте «для взрослых», появление которого в результатах поиска Google обусловлено использованием запрещённых методов оптимизации.

Дополнительные сведения об оформлении запросов на удаление данных можно найти в нашем справочном центре.

Ярлыки

Архив

RSS канал

Блог Google Россия на Habrahabr

Вопрос или пожелание?

Заходите на наш Справочный форум и обсуждайте!

Google
Privacy
Terms