Каждую неделю H&F читает одну бизнес-книгу и выбирает из неё интересные моменты. На этот раз мы прочитали книгу Виктора Майера-Шенбергера и Кеннета Кукьера, посвящённую big data. Авторы описывают, как технологии обработки больших объёмов информации изменят наш образ мышления. Во-первых, появится способность анализировать все данные, а не довольствоваться их частью или статистическими выборками. Во-вторых — готовность иметь дело с неупорядоченными данными в ущерб точности. В-третьих — доверие корреляциям, а не погоня за труднодостижимой причинностью.

Виктор МАЙЕР-ШЕНБЕРГЕР

профессор Оксфордского университета

Кеннет КУКЬЕР

редактор раздела данных журнала Economist

 Первые алгоритмы

Для больших данных нет строгого определения. Изначально идея состояла в том, что объём информации настолько вырос, что рассматриваемое количество уже фактически не помещалось в памяти компьютера, используемой для обработки, поэтому инженерам потребовалось модернизировать инструменты для анализа всех данных. Так появились новые технологии обработки, например модель MapReduce компании Google и её аналог с открытым исходным кодом — Hadoop от компании Yahoo!. Они дали возможность управлять намного большим количеством данных, чем прежде. При этом важно, что их не нужно было выстраивать в аккуратные ряды или классические таблицы баз данных. На горизонте также появились другие технологии обработки данных, которые обходились без прежней жёсткой иерархии и однородности. В то же время интернет-компании, имеющие возможность собирать огромные массивы данных и острый финансовый стимул для их анализа, стали ведущими пользователями новейших технологий обработки, вытесняя компании, которые порой имели на десятки лет больше опыта, но работали автономно.

 

Датификация