Hadoop – слон, на котором стоит Big Data

Big Data
HadoopНа чем стоит мир? Мнения разных народов и легенд на этот счет разнятся. Разные версии упоминают китов, черепах, слонов, и другую сверхкрупную живность.

Мир Big Data стоит на слоне, правда игрушечном. Его зовут Hadoop, и в ближайшие несколько лет эта технология будет одной из важнейших.
Если вы еще не используете Hadoop, то вполне вероятно что в ближайшее время вам придется это сделать, чтобы сократить разрыв с конкурентами.

Начавшись как ..., Hadoop быстро стал одним из ведущих решений для обработки больших объемов данных. Он был особенно привлекателен потому что разрабатывался на началах open source, что автоматически снимало вопрос о лицензировании, весьма болезненный ввиду активности вконец обнаглевших патентных троллей.

Читать дальше →

Windows Azure теперь поддерживает PhoneGap, Dropbox и Hadoop

Microsoft
Windows AzureНа днях Windows Azure получил несколько обновлений, которые должны улучшить его функциональность на разных фронтах:

  • Мобильные сервисы: клиент HTML5/JS (CORS), PhoneGap, Windows Phone 7.5, поддержка .NET Portable Library
  • Веб-сайты: Mercurial Source Control + подхват источников из Dropbox
  • HDInsight — новый сервис, который упрощает разворачивание и управление кластерами Hadoop на Azure

Все новинки уже доступны и разработчики могут немедленно воспользоваться ими (уточнение: некоторые пока находятся в стадии превью).

Читать дальше →

Microsoft HDInsight. «Облачное» (и не только) будущее Hadoop

Облачные сервисы
cloud + big data

Объем данных, генерируемый и собираемый современными научно-исследовательским центрами, финансовыми институтами, социальными сетями, уже привычно измеряется петабайтами. Так в дата-центрах Facebook хранится уже более 15 млрд. изображений, нью-йоркская фондовая биржа NYSE создает и реплицирует ежедневно около 1 Тб данных, Большой адронный коллайдер получает около 1 Пб данных в секунду.

Очевидно, что задачи обработки больших объемов данных все чаще становятся не только перед крупными компаниями, но перед стартапами и небольшими исследовательскими группами.

Платформа Hadoop, которая, в принципе, успешно решает проблему Big Data для полу- и неструктурированных данных, в своем «чистом» виде предъявляет значительные требования как к квалификации администраторов Hadoop-кластера, так и к первоначальным финансовым затратам на аппаратное обеспечение такого кластера.

В такой ситуации симбиоз облачных технологий и платформы Hadoop все чаще представляется как крайне перспективный способ решения проблемы «Больших данных», имеющий крайне невысокий уровень входа (квалификация + затраты на запуск).

Читать дальше →

Чего ждать от "Big Data" в 2013 году

Исследования и прогнозы в IT
Если бы вы признались в прошлом году, что такие слова, как датамайнинг, “Big Data”, крупномасштабная аналитика вам ничего не говорят, то в этом не было бы ничего плохого, мало кто их понимал и еще меньше понимали, какое значение они приобретут в году наступающем. Все эти понятия существовали и ранее, но на периферии мэйнстримового компьютинга. Это была вотчина научных институтов, государственных компаний и некоторых, более дальновидных в индустрии компаний. Тех, которые понимали, что Интернет постоянно растет, и чтобы успевать за этим ростом, нужно пропорционально (а иногда и непропорционально) наращивать вычислительные мощности.

Чего ждать от Big Data в 2013 году

Процесс датамайнинга можно сравнить с добычей золота просеиванием золотоносного песка. Как известно, можно просеивать песок, а можно искать самородки. Найдя самородок, можно мгновенно разбогатеть (в контексте Интернет-сервиса это можно сравнить с созданием нового и очень популярного сервиса — например Facebook или Dropbox), но на этом бизнес не построишь. Во-первых, зачастую непонятно даже что искать. Во-вторых, далеко не все люди способны видеть революционные идеи, на которых можно построить новый бизнес и еще меньше людей способны доводить эти идеи до практического воплощения. Просеивание же песка не даёт шанса разбогатеть мгновенно, но шанс найти что-нибудь увеличивается многократно. Причем при достаточном объеме обрабатываемой информации, из полученной информации можно извлекать значительную пользу и значительные доходы.

Рассвет коммерческого применения и популяризации Big Data пришелся на конец прошлого и этот год. Причин тому множество, но главные неразрывно связаны с коммерциализацией облачных вычислений. Как правило, вычислительные мощности необходимые для эффективной работы с Big Data слишком велики, чтобы один человек или небольшая компания могли позволить себе приобретение техники для решения подобных задач. Теперь, когда для подобных задач можно арендовать мощный вычислительный кластер, скажем в AWS, подобные расчеты стали доступны для всех заинтересованных. И теперь, чуть ли не все пытаются выяснить как при помощи Big Data превратить массивы накопленной “руды” в ценную информацию. Впрочем сейчас, мы видим только первые фазы этой трансформации, можете не сомневаться самое интересное еще впереди.

Итак, чего стоит ожидать в следующем году от индустрии больших данных, денег и компьютеров? →