Advocatus diaboli: большие данные и большие проблемы, которые они приносят

Big Data
Этим постом я открываю серию, которая будет освещать менее известную, но не менее важную сторону облачных технологий – а именно – их уязвимые места, где сталкиваются настоящее и будущее и почва еще не опробована первопроходцами. Эти места могут быть источником больших возможностей, но и также больших ошибок. Мой долг – предупредить о них. А кто предупрежден – тот вооружен.

BigDataКак известно, прежде всего – факты. А потом ими уже можно вертеть как угодно. Известное высказывание про «ложь, наглую ложь и статистику» уже давно не шутка, а вполне повседневная норма жизни. Штука в том, что сам по себе массив данных, как бы велик он не был – это всего лишь массив данных. Для того чтобы извлечь из него информацию, необходимо выполнить над ним операции. И после этого самый главный шаг – анализ полученных данных. Что-то, что могут делать только люди. А их суждение подвержено неточностям и искажениям. Даже если данные построены на основе правильных измерений.

Сейчас во многих областях науки и бизнеса происходят коренные изменения, вызванные внедрением систем массового сбора и анализа данных. Благодаря интернету и прочим средствам массовых коммуникаций это стало проще чем когда-либо. Мы живем во время когда добыть данные просто, но разобраться в том, что они из себя представляют – нет. Многие компании, коммерческие и не только, сидят на колоссальных залежах данных – сотнях терабайт. Возможности по сбору новых также беспрецедентны – API, исследования и другие инструменты к вашим услугам. Но увлекаясь погоней за терабайтами данных и гигагерцами процессоров, которые будут их обрабатывать, мы забываем о цели таких исследований. В конечном итоге «Большие Данные» должны искать в больших массивах данных зависимости, обнаружение которых не под силу аналитику – человеку. Но есть несколько важных вопросов, которые остаются без ответа, несмотря на обилие новостей о Big Data в сети. Проявляя осторожность легко прослыть критиканом и луддитом. Но я рискну. Вот пять вопросов, которые, как мне кажется, стоило бы поднять каждому, кто собирается работать в сфере Big Data.

  1. Большие объемы не гарантируют качества
  2. Не все данные одинаковы
  3. «Что?» и «Почему?» — разные вопросы
  4. Все можно объяснить по-разному
  5. Использование публичных данных не всегда этично

Пройдемся по каждому из этих пунктов подробнее.

Больше — не значит лучше


Несмотря на «Big», качество имеет большее значение чем количество. А чтобы понимать насколько качественны данные, необходимо понимать ограничения, налагаемые данными.

Одно из таких ограничений – способ, которым производится выборка. Точность этого метода важна для всех социальных наук, а также экономических исследований. Метод выборки определяет выводы, которые можно сделать на ее основе – какие методы анализа и экстраполяции могут применяться. Так, для суждения о репрезентативности, выборка должна быть случайной. Если вы исследуете топологические свойства, основную роль играет разнообразие.

Благодаря алгоритмам «Big Data» в значительных объемах данных стало возможно найти статистические закономерности даже, если на самом деле их там нет. Просто потому, что совпадения, указывающие на наличие закономерностей, неизбежно будут присутствовать в любой достаточно большой выборке, даже если она будет совершенно случайной. И эти «ложные» закономерности будут находиться, потому что этого и ждут от такого рода исследований. В таких условиях появление ложных прогнозов лишь вопрос времени. Но учитывая общие корни и методы получения с истинными, выделить их будет чрезвычайно сложно.

Когда дело касается научных исследований, выборки делаются в соответствии с научными требованиями. Тип выборки планируется заранее и данные собираются в соответствии с заданными требованиями. Это непросто, но позволяет делать правдоподобные оценки на основе неполных (а они всегда неполные) данных.

Big Data и здесь меняет правила игры, предоставляя возможность (теоретическую) исследования всего доступного набора данных. Невозможно опросить всех людей на земле, но можно собрать данные о всех пользователях Facebook, и сам Facebook наверняка именно так и делает. Однако у исследователей как правило нет доступа к таким выборкам. Например, когда делается исследование по пользователям Twitter, исследователи, как правило, не имеют доступа к данным всех пользователей, они имеют доступ к собственной ленте и считают, что на основе этого можно делать какие-либо суждения, но такая выборка не полна и не случайна. Многие считают, что располагая большим объемом данных можно проводить на их основе исследования и высказывать суждения просто потому, что исследуемые объемы так велики, но это неправильно. Без понимания структуры и природы источника этих данных, невозможно выбрать правильные методы анализа и обработки. Как следствие, выводы сделанные на основе проанализированных данных будут неверными.

Не все данные одинаково полезны


Из-за объемов, многие исследователи полагают, что алгоритмы Big Data – это лучший инструмент исследования. Их «чистоте» зачастую вообще не придается значения. Меня сильно удивляет бытующее в некоторых кругах мнение, что дальнейшее развитие технологий Big Data сделает остальные подходы к массовым исследованиям ненужными и они отомрут как атавизмы.

Это мнение нередко всплывает в связи с исследованиями в социальных сетях. Действительно, зачем проводить дорогостоящие опросы общественного мнения и обзванивать людей, обрабатывать анкеты если можно просто взять выборку данных из социальной сети? Но мнение, что данные, скажем, Facebook более точны чем те которые получаются путем опросов социологами – ошибочно.

В первую очередь потому что те, кто так утверждает, не видят разницы между источниками, из которых получаются эти данные. И я говорю даже не об опросах людей против сбора данных о их поведении в компьютерных сетях. Существует множество типов социальных сетей, которые мы объединяем под общим термином. Каждый из них требует специфических методов исследования и сбора данных. Аналогичные структуры существуют и в других областях статистики и аналитики.

Более того, зачастую на данные электронных сетей можно полагаться с большой натяжкой. Социальные сети могут простираться дальше чем это отмечено на Facebook и в то же время не включать многих людей, которые были отмечены. Не стоит забывать, что и по сей день компьютерные сети предоставляют нам довольно примитивные способы отображения наших взаимоотношений. На самом деле все значительно сложнее чем можно было бы предположить, глядя на красивые картинки социальных графов. Во многих случаях необходимо брать поправки на неточность или неверность собранных данных.

Универсальных данных не бывает, и возможность их анализировать, проводить над ними вычисления или моделировать, этого не изменяет. Необходимо очень хорошо понимать какая информация может или не может быть извлечена из каких данных.

«Что?» и «Почему?» — разные вопросы


Маркетологи обожают Big Data. Главным образом потому, что они не понимают как это работает что может дать. Например, они путают факты и причины. Например, количество «лайков» на странице социальной сети с признанием бренда людьми.

Анализ поведения и взаимодействий людей, финансовых операций и так далее являются чрезвычайно важной задачей. Но это только первый шаг к пониманию того, что будет происходить. Для того чтобы предугадать поведение в будущем, мало знать ответ на вопрос «что происходит?», нужно еще и понимать, почему это происходит. Ответ же на этот вопрос зачастую не вытекает напрямую из первого, а отождествлять эти вопросы еще опаснее. Сделать выводы но основании собранных данных – нелегкая задача, которая требует значительных знаний в своей сфере деятельности и хорошо развитой интуиции. Словом, даже при правильно собранных и проанализированных данных, без квалифицированного эксперта не обойтись, если вы хотите разобраться что, собственно говоря, означают все эти цифры и графики и какие выводы из этого можно сделать. И это подводит нас к следующей проблеме.

Толкование на информационной гуще


Какими бы совершенными не были алгоритмы анализа, они все равно должны истолковываться человеком. И не так важно даже, кто этот человек – вы, маркетолог или специально нанятый аналитик. Толкование как логическое обоснование результатов анализа, интеграция их в какую-либо систему, неразрывно связано не просто с анализом, но и личностью самого аналитика. По одним и тем же данным пять разных человек могут сделать разные выводы. И дальнейшие действия должны планироваться именно с учетом этих выводов. А если выводы были сделаны неправильно, то последствия этих действий могут быть катастрофическими.

Пример: руководство Friendster, не такого удачливого предшественника Facebook, изучало работы социологов перед запуском сети. В частности, в одной из работ делался вывод, что один человек может эффективно поддерживать только приблизительно 150 социальных связей с другими людьми. К сожалению, руководство Friendster истолковало этот вывод как руководство к действию и ограничило число «друзей» потолком в 150. Как мы можем видеть на примере Facebook, этого явно недостаточно. Ошибка возникла в толковании понятия «социальная связь», а именно в отождествлении его с «друзьями» в социальных сетях. Как показывает все тот же Facebook, эти понятия отнюдь не равнозначны.

Также ошибки в толковании очень часто происходят когда аналитику приходится совмещать данные с теорией, которой он придерживается и согласно которой толкует результаты. Когда факты плохо стыкуются с теорией, возможны два варианта – либо «корректировка» фактов (проще говоря – отбрасывание всех экспериментальных данных кроме тех, которые вписываются в рамки теории), либо признание теории неверной и построение новой (на что способны не все, да и мало какой руководитель на вопрос «Что означают результаты анализа?» хочет услышать ответ «Понятия не имею»). Зачастую такой выбор происходит бессознательно – мы все подвержены таким искажениям восприятия, которые заставляют нас автоматически отбрасывать как маловажную и неверную информацию, которая плохо соответствует вашим взглядам.

Что такое хорошо и что такое плохо


Этичность исследований, касающихся Big Data до сих пор остается «серой зоной», в которой нет ни установленных правил, ни шаблонов поведения, которым можно было бы следовать.

Кажущаяся «обезличенность» данных, собираемых автоматическими алгоритмами, играет на руку исследователям. Мы привыкаем манипулировать массивами личных данных так, как будто это просто нули и единицы, а не квантифицированные жизни сотен людей. Людей, у которых как правило никто не спрашивал, хотят ли они участвовать в таких исследованиях. Приватность, как и многие другие понятия, завязана на контексте. Пока что доминирующим мнением является такое, что если данные доступны для общего доступа, то они доступны для использования. Но есть разница между просто общим доступом и доступностью в любое время для любых целей. Пока что, использование расположенных в публичном доступе данных допускается, но вскоре это изменится. Или изменятся моральные нормы. Сейчас трудно сказать с уверенностью, что произойдет раньше.

И что делать?


Я попробовал идентифицировать основные способы преодоления описанных проблем.

Конец специализированной аналитики. Аналитическими навыками располагает слишком малое количество экспертов, которые принимают важные решения. Как результат, личное мнение одного человека может иметь критическое значение для курса всей компании. Вместо того чтобы нанимать экспертов и платить им, необходимо выращивать свой внутренний аналитический штат. В идеале, даже из людей, обладающих навыками и аналитическим мышлением, но не состоящих в основном штате аналитиков – они могут высказывать независимое мнение не опасаясь веса решений и зачастую могут смотреть на проблему с неожиданной стороны.

ИТ — больше И, меньше Т. Технологическая сторона ИТ на предприятии важна, но не должна затмевать информационную. До сих пор ИТ во многом зависит и держится на конкретных людях и личностях. Понимание (а зачастую – угадывание) нужд других отделов, тоже обслуживаемых ИТ-отделом предприятия является непростой задачей, и ей должны заниматься специалисты четко представляющие себе всю ИТ-структуру предприятия.
Системное мышление и умение работать в команде – это те черты, которых зачастую не хватает.

Для того чтобы информацию было легко анализировать, она должна быть хорошо структурированной. Однако, многие организации собирая данные не занимаются их структурированием. Это все равно что если бы в библиотеке книги лежали вповалку, не каталогизированные. Структуры данных позволяют эффективнее анализировать данные и быстрее находить нужную информацию.

Анализ должен применяться вместе с моделированием. Как показывает практика, зачастую, возможностей чисто аналитических алгоритмов не хватает. Это объясняется просто – анализируя, мы неизбежно возвращаемся в прошлое, а потом пытаемся экстраполировать полученные результаты на будущее. Практика показывает, что это не эффективный метод, во всяком случае, мало эффективный по отдельности от других. Системная теория позволит понять общие закономерности поведения системы в любой момент времени, а на основе этих закономерностей строятся модели, которые корректируются при помощи экстраполированных данных. Такой комбинированный метод анализа куда эффективнее чем каждый из них по отдельности.

Продолжение тут: Advocatus diaboli: облачные технологии стали не тем на что мы рассчитывали

Комментарии (0)


Добавление комментариев доступно только зарегистрированным пользователям. Используйте свою существующую учетную запись для авторизации. Если у Вас еще нет учетной записи на сайте ее можно создать пройдя несложную процедуру регистрации. Кстати, для входа на сайт, наравне с учетной записью на cloudzone.ru, можно использовать аккаунт из следующих популярных сервисов: Яндекс, Facebook, Google и LinkedIn