Большие данные: под колпаком все?

Big Data
Большие данныеВ 1995 году Евросоюз принял закон, согласно которому накладывались ограничения на сбор любой персональной информации. При этом персональной информацией объявлялась любая информация, которая позволяла идентифицировать, прямо или косвенно, личность человека.

Вероятно когда принимался этот закон законодатели думали о такой информации, как, скажем, персональный идентификационный код и прочие важные бюрократические документы, которые должны быть защищены от бесконтрольного распространения в сети. Но сейчас информации, которая подпадает под это определение гораздо больше. 18 лет назад невозможно было представить себе объемы информации, которые сейчас производятся сетью каждый день. Один крупный портал типа youtube сейчас производит больше трафика чем весь интернет 10 лет назад. Правила, написанные совсем недавно стали невыполнимы по причинам как технического, так и юридического характера. Что же случилось?

А вот что. Во-первых, объемы данных, которые создаются каждый год растут, и растут экспоненциально: в 2012 году эта величина составляла 2,8 зеттабайта, и по прогнозам аналитиков IDC, к 2015 году она возрастет вдвое. Почти три четверти этого объема создается отдельными индивидуумами, когда они создают, копируют, передают файлы. Стреднестатистический пользователь интернета создает 1,8 терабайта информации в год, или 5 Гб ежедневно. Это включая загружаемые видеофайлы, текстовые файлы, e-mail, и служебную информацию, которую неизбежно создает любой компьютер, подключенный к интернету. А ведь еще есть смартфоны, планшеты, телевизоры, автомобили… И в дальнейшем количество подключенных ко всемирной сети устройств будет только увеличиваться.

Большая часть этих данных не видна пользователям и кажется деперсонализированными. В самом деле, что может сказать о вас информация о том, сколько времени вы пребывали на том или ином сайте? По-отдельности – немного, но если она будет связана и обработана вместе с сотнями других параметров, такими как например – выбором просматриваемых фильмов, данными о вашем местоположении, раскрываемые вашим телефоном, особенности речи, особенности походки – эти и многие другие признаки могут выделить вас из тысяч других людей. Дело не в отличительности таких признаков, а в совокупной картине, которую они раскрывают. Ранее сопоставление такой картинки из сотен осколков мозаики, разбросанных по сети было невозможным, слишком велики затраты вычислительной мощности на обработку огромного массива данных. Во всяком случае, так было раньше, до открытия методов обработки Big Data.

Практика показывает, что чем больше и разнообразней массив данных, тем труднее его обезличить. Современные науки о данных могут использовать для идентификации практически любую информацию. Идентификация о личности не является самоцелью, главная цель коммерческой big data – это предсказание действий клиентов, имеющихся и потенциальных. С этой благородной целью и накапливаются огромные массивы информации. И не только накапливаются, но и покупаются и продаются.

ПО мере развития Big Data, эта область становится все более коммерциализированной и специализированной. Появляются отдельные компании, которые занимаются сбором массивов информации, их систематизацией и перепродажей. Например, Acxiom – компания, которая располагает массивами, содержащими в среднем 1500 единиц идентифицирующей информации на каждого из 500 миллионов пользователей по всему миру. Такие данные Acxiom опубликовала, когда заключала соглашение о партнерстве с TiVo.

Анализируются такие параметры как год выпуска и марка вашего автомобиля, ваши доходы и вложения, возраст, образование, место жительства, места где вы регулярно бываете, и многое другое. Каждый такой фактор относится к своему кластеру PersonicX, который суммирует информацию об определенной стороне вашей жизни, например семейное положение или финансовые перспективы. Все они до определенной степени влияют на вашу покупательскую активность и другие факторы, интересные коммерческим организациям, например, лояльность к какому-либо бренду.

Впрочем, такой сбор информации может показаться устаревшим методом по сравнению с тем как работает, скажем, Facebook. Ему не нужно ничего собирать, пользователи сами принесут все необходимое не блюдечке. Согласно документации на IPO, Facebook хранит около 111 мегабайт фото- и видеоинформации на каждого пользователя коих насчитывается уже более миллиарда. И это не все. Остаются текстовые сообщения, «лайки», адреса компьютеров, с которых осуществляется доступ, метаинформация (теги) и другое.

И по отдельности массивы данных, собранные Axiom и Facebook предоставляли бы значительную ценность. Но соединенные, они открывают поистине безграничные возможности для опознания конкретных людей, входящих в такие массивы и предсказания их поведения. И вскоре такое может стать реальностью.

В феврале Facebook объявил о заключении сделки с Axiom, одним из условий которой будет обмен и слияние баз данных пользователей, позволяя связать массив данных о поведении людей в реальности с их поведением онлайн, что позволит делать более точные предсказания. Такая база данных будет охватывать, по некоторым оценкам, до 90% социальных профилей, созданных американцами. В других странах эта цифра будет ниже но она все равно значительна.

Считается, что такие массивы «анонимизируются» перед обработкой, но чем больше персональной информации они содержат, тем больше вероятность, что либо таких действий в реальности не предпринимается, либо они бессмысленны. Например, даже если операторы компаний мобильной связи анонимизируют данные о передвижении своих абонентов перед продажей (т.е. убирают номера телефонов), то все равно используя алгоритмы Big Data, которые учитывают множество косвенных показателей, достаточно всего 4 точек местонахождения, принадлжащих одному пользователю чтобы связать эти анонимные данные с реальным человеком.

По мере дальнейшего увеличения объемов данных станет возможным предсказывать будущее поведение людей со все возрастающей точностью. Разумеется, единичные уникальные события предсказать такие программы вряд ли смогут, а вот ежедневное поведение вполне, ведь оно как правило следует одним и тем же паттернам и легко предсказуемо. Легко представить себе всевозможные коммерческие применения такой информации. Что-то в этом духе сейчас делает Google со своим проектом Now, хотя и неизвестно, какие именно данные собирает Now и насколько точно он делает предсказания.

Но есть ли возможность ускользнуть из-под электронного наблюдения? Конечно есть. Значительная часть данных получается в результате пользования интернетом, сотовыми телефонами, и прочими благами «умной» цивилизации. Товарами, которые научились думать сами по себе. Кто знает, что у них на уме, и в лучших ли интересах хозяина то что они делают? Но мы все участвуем в глобальной гонке за увеличение производительности труда, в которой первые получают все. И лишать себя инструментов – это значит давать другим гандикап. В конце концов, мы все к этом у привыкнем, и даже не будем представлять как мы жили раньше.

Но человек из прошлого мог бы сильно удивиться, увидев сколько всего о себе мы готовы поведать. Или даже испугаться. Он луддит? Или осторожен? Не знаю. Возможно то и другое одновременно. Перемены кажутся разительными когда смотреть на них в масштабе лет. Но живя каждый день их не замечаешь.

Комментарии (0)


Добавление комментариев доступно только зарегистрированным пользователям. Используйте свою существующую учетную запись для авторизации. Если у Вас еще нет учетной записи на сайте ее можно создать пройдя несложную процедуру регистрации. Кстати, для входа на сайт, наравне с учетной записью на cloudzone.ru, можно использовать аккаунт из следующих популярных сервисов: Яндекс, Facebook, Google и LinkedIn