Рейтинг
0.00

Big Data

Big Data


Большие данные (англ. Big Data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениями класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop. © Wikipedia

Администраторы (1)
ahaidukov
Модераторы (0)
Модераторов здесь не замечено
Читатели (2)
Rainbolt Maloy

Миллиарды и миллисекунды: мир высокочастотного трейдинга

Big Data
NASDAQЧто у вас обычно ассоциируется с биржей? Знакомые всем картины – люди, стоящие в переполненном зале, с напряжением глядящие на компьютерные мониторы, думающие, оценивающие, принимающие решения. Так было. Точнее, такое можно увидеть и сейчас, но в действительности это лишь вершина айсберга. Значительная – большая, на самом деле, часть торгов выполняется автоматизировано, с использованием высокопроизводительных компьютеров. Такая практика началась лишь совсем недавно, но очень быстро захватила рынки, и сейчас около 44% всех торгов в мире производятся с использованием алгоритмов так называемого high frequency trading (HFT) – высокочастотного трейдинга.

Эта форма торговли появилась сравнительно недавно, но за считанные годы ее стали применять все ведущие трейдеры США, вплоть до самых крупных – настолько эффективной оказалась технология. За какие-то несколько лет ведущими деятелями бизнеса в этой области стали не привычные солидные господа в костюмах (хотя на биржах в общей яме эта публика все равно не присутствует – жарковато там в костюме...), а типичные «гики» и «нерды» – не слишком благонадежная публика от 20 до 40 лет в очках и джинсах. Как это случилось? Как это часто получается с ИТ, все началось в гараже…

Читать дальше →

Hadoop – слон, на котором стоит Big Data

Big Data
HadoopНа чем стоит мир? Мнения разных народов и легенд на этот счет разнятся. Разные версии упоминают китов, черепах, слонов, и другую сверхкрупную живность.

Мир Big Data стоит на слоне, правда игрушечном. Его зовут Hadoop, и в ближайшие несколько лет эта технология будет одной из важнейших.
Если вы еще не используете Hadoop, то вполне вероятно что в ближайшее время вам придется это сделать, чтобы сократить разрыв с конкурентами.

Начавшись как ..., Hadoop быстро стал одним из ведущих решений для обработки больших объемов данных. Он был особенно привлекателен потому что разрабатывался на началах open source, что автоматически снимало вопрос о лицензировании, весьма болезненный ввиду активности вконец обнаглевших патентных троллей.

Читать дальше →

Advocatus diaboli: облачные технологии стали не тем на что мы рассчитывали

Big Data
… продолжение. начало тут: Advocatus diaboli: большие данные и большие проблемы, которые они приносят

Вендор lock-inОблачные технологии уже изменили многие парадигмы вычислений и продолжают менять их сейчас. Когда процесс изменений только начинался, естественно, никто и не мог предположить, к чему все это в конце концов приведет. Мы не можем с уверенностью говорить об этом и сейчас – ведь процессы, приведенные в действие, продолжают изменять ландшафт индустрии. Но уже сейчас можно отметить, что во многих областях развитие облачных технологий пошло не так как можно было бы предположить, и имело не самые желательные последствия. Как это произошло, почему, и чего ожидать в будущем?

Читать дальше →

Advocatus diaboli: большие данные и большие проблемы, которые они приносят

Big Data
Этим постом я открываю серию, которая будет освещать менее известную, но не менее важную сторону облачных технологий – а именно – их уязвимые места, где сталкиваются настоящее и будущее и почва еще не опробована первопроходцами. Эти места могут быть источником больших возможностей, но и также больших ошибок. Мой долг – предупредить о них. А кто предупрежден – тот вооружен.

BigDataКак известно, прежде всего – факты. А потом ими уже можно вертеть как угодно. Известное высказывание про «ложь, наглую ложь и статистику» уже давно не шутка, а вполне повседневная норма жизни. Штука в том, что сам по себе массив данных, как бы велик он не был – это всего лишь массив данных. Для того чтобы извлечь из него информацию, необходимо выполнить над ним операции. И после этого самый главный шаг – анализ полученных данных. Что-то, что могут делать только люди. А их суждение подвержено неточностям и искажениям. Даже если данные построены на основе правильных измерений.

Сейчас во многих областях науки и бизнеса происходят коренные изменения, вызванные внедрением систем массового сбора и анализа данных. Благодаря интернету и прочим средствам массовых коммуникаций это стало проще чем когда-либо. Мы живем во время когда добыть данные просто, но разобраться в том, что они из себя представляют – нет. Многие компании, коммерческие и не только, сидят на колоссальных залежах данных – сотнях терабайт. Возможности по сбору новых также беспрецедентны – API, исследования и другие инструменты к вашим услугам. Но увлекаясь погоней за терабайтами данных и гигагерцами процессоров, которые будут их обрабатывать, мы забываем о цели таких исследований. В конечном итоге «Большие Данные» должны искать в больших массивах данных зависимости, обнаружение которых не под силу аналитику – человеку. Но есть несколько важных вопросов, которые остаются без ответа, несмотря на обилие новостей о Big Data в сети. Проявляя осторожность легко прослыть критиканом и луддитом. Но я рискну.

Читать дальше →

Большие данные: под колпаком все?

Big Data
Большие данныеВ 1995 году Евросоюз принял закон, согласно которому накладывались ограничения на сбор любой персональной информации. При этом персональной информацией объявлялась любая информация, которая позволяла идентифицировать, прямо или косвенно, личность человека.

Вероятно когда принимался этот закон законодатели думали о такой информации, как, скажем, персональный идентификационный код и прочие важные бюрократические документы, которые должны быть защищены от бесконтрольного распространения в сети. Но сейчас информации, которая подпадает под это определение гораздо больше. 18 лет назад невозможно было представить себе объемы информации, которые сейчас производятся сетью каждый день. Один крупный портал типа youtube сейчас производит больше трафика чем весь интернет 10 лет назад. Правила, написанные совсем недавно стали невыполнимы по причинам как технического, так и юридического характера.

Что же случилось? →