Чего ждать от "Big Data" в 2013 году

Исследования и прогнозы в IT
Если бы вы признались в прошлом году, что такие слова, как датамайнинг, “Big Data”, крупномасштабная аналитика вам ничего не говорят, то в этом не было бы ничего плохого, мало кто их понимал и еще меньше понимали, какое значение они приобретут в году наступающем. Все эти понятия существовали и ранее, но на периферии мэйнстримового компьютинга. Это была вотчина научных институтов, государственных компаний и некоторых, более дальновидных в индустрии компаний. Тех, которые понимали, что Интернет постоянно растет, и чтобы успевать за этим ростом, нужно пропорционально (а иногда и непропорционально) наращивать вычислительные мощности.

Чего ждать от Big Data в 2013 году

Процесс датамайнинга можно сравнить с добычей золота просеиванием золотоносного песка. Как известно, можно просеивать песок, а можно искать самородки. Найдя самородок, можно мгновенно разбогатеть (в контексте Интернет-сервиса это можно сравнить с созданием нового и очень популярного сервиса — например Facebook или Dropbox), но на этом бизнес не построишь. Во-первых, зачастую непонятно даже что искать. Во-вторых, далеко не все люди способны видеть революционные идеи, на которых можно построить новый бизнес и еще меньше людей способны доводить эти идеи до практического воплощения. Просеивание же песка не даёт шанса разбогатеть мгновенно, но шанс найти что-нибудь увеличивается многократно. Причем при достаточном объеме обрабатываемой информации, из полученной информации можно извлекать значительную пользу и значительные доходы.

Рассвет коммерческого применения и популяризации Big Data пришелся на конец прошлого и этот год. Причин тому множество, но главные неразрывно связаны с коммерциализацией облачных вычислений. Как правило, вычислительные мощности необходимые для эффективной работы с Big Data слишком велики, чтобы один человек или небольшая компания могли позволить себе приобретение техники для решения подобных задач. Теперь, когда для подобных задач можно арендовать мощный вычислительный кластер, скажем в AWS, подобные расчеты стали доступны для всех заинтересованных. И теперь, чуть ли не все пытаются выяснить как при помощи Big Data превратить массивы накопленной “руды” в ценную информацию. Впрочем сейчас, мы видим только первые фазы этой трансформации, можете не сомневаться самое интересное еще впереди.

Итак, чего стоит ожидать в следующем году от индустрии больших данных, денег и компьютеров?

Слон в посудной лавке


HadoopСлышали ли вы о Hadoop? Если нет, не беспокойтесь, скорее всего, за следующий год вам прожужжат все уши новостями, имеющими к нему отношение.

Почему? Ну, начнем с того, что на сегодняшний момент это самая передовая программная архитектура (открытая и бесплатная к тому же) для построения о обработки баз данных практически неограниченного размера. Проще говоря – это идеальный фундамент для обработки задач масштаба Big Data, когда одно задание может обрабатывать несколькими серверами в разных концах мира, и обращаться к базе данных распределенной по нескольким датацентрам в нескольких других концах мира.

Впрочем сам по себе, Hadoop не более и не менее чем движок потоковой обработки задач. Это инструмент, которому можно (нужно!) найти достойное применение. Здесь возможны варианты. Проще всего предложить облачный сервис, основанный на Hadoop и это уже делают Amazon Web Services, Mortar Data, Infochimps, а вскоре за ними последуют и другие (в частности, VertiCloud, возглавляемый бывшим СТО Yahoo Рейми Стата и Microsoft Azure HDInsight).

Но едва ли это будет единственным применением. Множество стартапов сейчас ищут способы превращения Hadoop в готовый инструмент обработки информации. Вычислительная мощность не слишком привлекательна, если её невозможно приложить к конкретной задаче, а приложений, которые способны раскрыть потенциал Hadoop пока что не так много. В этом направлении работают такие компании, как Continuuity, Platfora, Drawn to Scale. Однако это лишь верхушка айсберга. Первый же успешно реализованный кейс привлечет к этому направлению новых разработчиков.

Исходя из таких предпосылок, можно утверждать, что в ближайшие месяцы мы увидим новые варианты применения фреймворков на базе Hadoop, в том числе для работы в реальном времени или посредством стриминга. Впрочем, сфера применения Hadoop не ограничивается MapReduce. По мере развития таких проектов как Drill and Impala, не говоря уже о расширении YARN разработки самого Apache. Все это даст толчок использованию Hadoop в качестве фреймворка в не-интернет компаниях, которым нужны мощные и надежные вычислительные инструменты — промышленные консорциумы, банки, нефтегазовые компании и тп.

Резюмируя: в данный момент существуют несколько вычислительных платформ Big Data, каждая из которых сильна в своей области. Hadoop может и не лучшая из них, но самая широко используемая и на неё сделали ставку уже очень многие крупные игроки. Она пришла “всерьез и надолго”.

Пророк в своем отечестве


Рей КурцвейлПриглашение самопровозглашенного “пророка Сингулярности” Рея Курцвейла на работу в Google не осталось незамеченным в мире IT. Даже после всех неурядиц со сбором частной информации о пользователях по всему миру, Google все равно не потерял репутацию прогрессивной компании, которую заботит не только прибыль и проекты которой имеют прицел на будущее, и в принципе способны улучшить жизнь всех людей (собственно, уже улучшают). Очки Google Glass, самодвижущиеся автомобили — кто знает, что еще разрабатывается в недрах секретной лаборатории Google X?

Еще одним из фундаментальных объектов исследований Google является искусственный интеллект (по мнению Курцвейла, именно создание функционального ИИ станет знамением грядущей Сингулярности).

Многие из существующих или разрабатываемых проектов Google опираются на огромные вычислительные мощности и массивы данных, чтобы предсказывать будущее. Но не в астрологическом смысле, а в практическом. Получить прогноз погоды, сопоставить с вашим местоположением, подсказать вам, что сегодня бы неплохо взять зонтик. Именно таков принцип действия встроенного в последние версии Android сервиса Google Now, который представители компании называли важнейшим продуктом после поиска. Собственно, так оно и есть — это естественное продолжение поисковой машины Google, разница только в том что ответ выдается еще до того как вы зададите вопрос.

К такой инициативе наверняка захотел бы приложить руку Курцвейл, предсказания которого, о грядущем слиянии человека и машины, с каждым днем выглядят все правдоподобнее. Более того, он своими руками поспособствовал её приближению, ведь Рэй не только ученый, но и изобретатель. Первый речевой синтезатор, ПО распознавания речи, ранние системы OCR — это те области, где он работал. Потому нет ничего удивительного, что и в Google он будет работать не на какой-либо почетной должности, выдуманной специально чтобы потешить самолюбие, а как руководитель НИОКР-отдела. Если Google и Курцвейл найдут общий язык, то результаты их сотрудничества могут быть весьма плодотворными. С одной стороны — это мощнейший вычислительный кластер планеты, с другой, человек, которого называют “наследником Эдисона”, кто знает, что им удастся создать работая вместе.

Данные для всех и пусть никто не уйдет обиженным


И наконец, хочется поговорить о той стороне “революции данных”, которая может коснуться нас всех. Обычно, когда мы пишем о Big Data, мы подразумеваем что-то содержащее терабайты/петабайты данных, информацию о тысячах людей и мало интересные кому-либо, кроме специалистов. Но это не так.

Подумайте о данных, которые мы создаем каждый день простым фактом нашего существования, общения, работы. Сколько времени мы проводим за чтением новостей, какое расстояние пробегаем, сколько калорий потребляем и сжигаем. Все эти данные уже собираются множеством разных сервисов. Чего не хватает, так это механизма анализа, который мог бы выделить в море цифр тенденции, закономерности и дать нам конкретные советы. Что значит то что я отправляю больше твитов по четвергам вечером, а больше опечаток делаю в понедельник утром? Не все люди обладают навыками аналитика, и еще меньше хотят этому учиться.

Что произойдет в грядущем году?


Я считаю, что комбинация все большего проникновения в нашу жизнь персональных электронных устройств (хорошо это или плохо — другой вопрос), разнообразия сервисов которые эти данные собирают и вычислительных мощностей, которые эти данные обрабатывают, приведет к тому, что мы сможем получить более полную и четкую картину того как мы живем, и почему с нашими телами и разумами происходят изменения. Мы сможем понять связи между телом и разумом и в конечном итоге, мы сможем лучше понять самих себя. Понять, принять и усовершенствовать. Ведь прогресс есть движение, а движение есть жизнь. Мы сделаем нашу жизнь лучше. А компьютеры нам в этом помогут.

С наступающим Новым годом вас, уважаемые читатели.

Комментарии (0)


Добавление комментариев доступно только зарегистрированным пользователям. Используйте свою существующую учетную запись для авторизации. Если у Вас еще нет учетной записи на сайте ее можно создать пройдя несложную процедуру регистрации. Кстати, для входа на сайт, наравне с учетной записью на cloudzone.ru, можно использовать аккаунт из следующих популярных сервисов: Яндекс, Facebook, Google и LinkedIn