Big Bang Data — спецпроект о больших данных, которые называют «новой нефтью»
и считают главным открытием цифрового века. Уже понятно, что они изменят нашу жизнь, вопрос только в том, во что превратится привычная повседневность — в рай на Земле или в антиутопию. Какой из сценариев более вероятен, разбираемся с помощью кейсов по большим данным, экспертов компании
МегаФон и студентов института «Стрелка».

 

 

карта

До 1917 — 1,17%
До 1917-1935 — 2,83%
До 1935-1957 — 9,62%
До 1957-1970 — 23,29%
До 1970-1991 — 25,8%
До 1991-2000 — 5%
До 2000-2013 — 4,8%
Не опознано — 27,49%

 Исследование, проведённое в рамках проекта «Археология периферии», показывает этапы застройки московских окраин с начала XX века до 2013 года.

 

 

Большое начало 

Старатели больших данных появились в России в конце 1990-х годов, и большинство из них тогда работало в сфере интернет-поиска — ровно с того же началась мировая история big data пятью–семью годами ранее.

Большой взрыв данных в России произошёл после того, как первые поисковики вроде AltaVista, Yahoo и Rambler столкнулись с необходимостью проиндексировать и расшифровать по сути весь кириллический интернет — без этого в строке поиска было бы пусто, как в списке контактов первых пользователей ICQ, которая тогда только-только появилась. Учитывая, что за одни сутки всемирная паутина прирастала тысячами русскоязычных страниц, это привело к накоплению огромного количества информации — первых настоящих наборов больших данных в России. Их консервировали в центрах обработки данных (ЦОД) — библиотеках серверных стоек и сетевых коммутаторов.

Создавать и обслуживать ЦОДы невыгодно, если этого не требует прямая деятельность компании — например, интернет-поиск или телекоммуникации.

Даже в эпоху creative commons и натурального обмена информацией, когда плохонький ЦОД можно взять внаём за несколько тысяч долларов в перестроенном цехе или ангаре — так называемом трэш-дата-центре, исследованиями по-настоящему больших данных занимаются в основном киты индустрии. В России это, например, Сбербанк, Московская биржа или Гидрометцентр. К сожалению, скромность мешает им хвастаться своими успехами, поэтому об их разработках можно судить только косвенно — получив своевременное предложение установить счётчик на воду или радуясь, что дождь всё-таки не пошёл. В интернете говорят, что эти «тёмные века» должны скоро закончиться, а пока можно навести резкость на другие исследования больших данных в России — менее чопорные и потому куда более интересные.

 

 

картинка

 

 

 

Студенческие революции

Понятие «большие данные» стало таким же привычным, как барбершопы, с появлением института «Стрелка», который сразу задал новую планку полевых исследований. Хотя в контексте учебных проектов нельзя говорить о больших данных в прямом смысле этого слова — всю информацию студенты собирают и обрабатывают сами, при помощи домашних, а не сверхмощных компьютеров, курсовые работы выпускников «Стрелки» — это идеальная модель исследования.

В рамках курса SENSEable City архитектора Карло Ратти студенты «Стрелки» выявляли новые смысловые слои в Москве при помощи всевозможных социальных сервисов — Foursquare, Flickr, Instagram и т. д. Все курсовые 
проекты были основаны на анализе маленьких больших данных — в рамках города или одного района.

 

 

картинка

 

 

ЕКАТЕРИНА ИЗМЕСТЬЕВА, в то время студентка «Стрелки», а теперь куратор проекта «Теплица социальных технологий», при помощи открытых данных 
Flickr и компьютерного алгоритма определила, какие места в Москве интересны москвичам, а какие — иностранным и российским туристам. Оказалось, например, что из двух Арбатов приезжие выберут Старый, а местные — Новый или что в самый большой в Москве лесопарк, где до сих пор можно встретить диких животных, боятся заходить даже коренные жители Гольянова и Мытищ, 
а также что пришло время переписать туристические справочники и заменить 
в них усадьбу Голицыных на кладбище военных самолётов на Ходынском поле, потому что именно об этом кричит реальная посещаемость этих мест.

ВДНХ. Распределение туристов (слева) и москвичей (справа).
. Изображение № 1.ВДНХ. Распределение туристов (слева) и москвичей (справа).

 

 

С другого конца вскрывал столицу Филипп Кац в своём исследовании
«Моя Москва». Он изучал восприятие жителями Москвы городского пространства — общественного и личного. Для этого, в частности, потребовалось составить карту Foursquare-чекинов с распределением объектов по категориям — дом, работа, парки, торговые точки, кафе и рестораны и т. д. Из этой части исследования вырос важный совместный проект Филиппа Каца и программиста Александра Музыченко — 4sqStat. Это общероссийский хит-парад всех чекинов и специальных предложений Foursquare — от самых непопулярных до наиболее любимых.

 

 

 

 

После обучения в «Стрелке» Филипп Кац стал редактором специальных проектов в «РИА Инфографика» — под креативным руководством Майи Стравинской и в соавторстве с другими экспертами в области данных он отвечает на самые интересные вопросы о насущном, например, сколько оружия каждый из нас покупает за год, через что попадают в Мосгордуму, и какими словами болельщики в России и мире встретили новость об отставке Плющенко.

 

 

 

Реальные результаты

В 2013 году Московский урбанистический форум, на котором каждый год собираются специалисты по городам со всего мира, заказал масштабное исследование московской ДНК под названием «Археология периферии».

 

 

 

 

Один из самых интересных и масштабных проектов «Археологии периферии» предсказуемо был основан на больших данных. Над ним работала команда исследователей из МегаФона (в 2013 году компания первой из операторов в России запустила сервис геопространственного анализа), Thomson Reuters (известный во всем мире поставщик информации для принятия финансовых и управленческих решений), Urban Data (инди-лейбл в области данных, образованный Екатериной Серовой) и Mathrioshka (студия визуализации данных). Их общей целью было выяснить, как и куда перемещаются москвичи — «классические», живущие в пределах МКАД, и «новые» — те, что получили московскую прописку в 2011 году.

Для этого они сопоставили данные из геопространственного сервиса МегаФона о реальных транспортных потоках и публичную информацию из социальных сетей о том, где для москвичей кончается окраина и начинается центр
и в каких частях города они чувствуют себя наиболее комфортно.

Big Bang Data: Что мы узнали о Москве благодаря большим данным . Изображение № 7.

Как всегда, выводы получились отчасти логичными, отчасти парадоксальными. Вопреки представлениям о Москве как о динамичном городе, где всё стоит 
в пробках на предельных скоростях, оказалось, что две трети жителей Большой Москвы вообще не выезжают «с района». Роль центра города тоже оказалась сильно преувеличена — только 15% поездок горожан оканчиваются в пределах Садового кольца. Остальное — перемещения по хордам внутри бывшей Московской области или вдоль границ МКАД.

Исследование не только наглядно показало недостатки транспортной сети, из-за которых горожане вынуждены добираться до соседних окраин через центр, но
и повлияло на будущие проекты по модернизации московских дорог — оказалось, что расширять существующие шоссе почти бесполезно по сравнению 
со строительством новых хорд, которые могут сделать Большую Москву
меньше и доступнее.

Отчёты о проекте были выставлены для желающих на площадке Урбанистического форума в виде интерактивных карт, на которых можно 
было не только наглядно увидеть результаты исследования, но и провести 
серию собственных экспериментов, изменяя различные показатели 
и сопоставляя результаты.

 

 

картинка

Карта психологического климата трёх округов Москвы, составленная Филиппом Кацем для журнала «Большой город» по мотивам исследования. Цветами обозначены упоминания районов и улиц в Twitter, Foursquare и «ВКонтакте» в различном негативном контексте — нецензурные выражения, атрибуты наркокультуры, указания на бездомных, «гопников», «быдло» и др.

 

Один из первых хакатонов в Москве был посвящён журналистике больших данных. 16 команд из популярных российских СМИ — Esquire, РБК, «РИА Новости» — соревновались в создании интерактивных новостных сюжетов на основе больших данных. Первый приз достался команде «Большого города», которая сравнила, какими городскими объектами пользуются разные группы горожан на основе профилей и чекинов во «ВКонтакте». 

 

Фонд «Общественное мнение» может делать социальные проекты с большими данными масштаба голливудских блокбастеров. Сотни государственных заказов на социологические исследования принесли в ФОМ петабайты информации
от населения. Пока что аналитики Фонда в своих исследованиях редко заходят дальше интересной, но двухмерной инфографики. Но как только среди них появятся практики-диджеи, которые будут сводить и накладывать друг на друга данные десятков исследований, мы узнаем много интересного — гораздо больше того, что россияне редко выезжают за границу и высоко ценят президента. О потенциале ФОМ для разработки больших данных можно судить по проекту «Космическая одиссея 1957–2020», посвящённому «всем, кто видел звёздное небо» — в нём можно не только увидеть всю историю космических открытий, но и самостоятельно запускать к звёздам ракеты и спутники.

Спутники — это тоже источник больших данных. Проект Satin ежедневно анализирует снимки Мирового океана и предоставляет актуальную информацию обо всех производных воды на Земле.

 

 

В следующем материале мы расскажем о студентах летнего курса «Стрелки», посвящённого большим данным, и узнаем, каким образом их курсовые проекты помогут улучшить жизнь в Москве.

 

 

Big Bang Data: Что мы узнали о Москве благодаря большим данным . Изображение № 13.

Роман Постников
директор по сегментному маркетингу и клиентской аналитике ОАО "МегаФон"

По сути большие данные не только формируют новую индустрию, но и меняют привычные, складывавшиеся годами процессы и отрасли. Специальности, связанные с этой сферой деятельности, становятся всё более и более востребованными. Ключевая из них — это Data Scientist, или аналитик больших данных; профессия на стыке математики, программирования, социологии и, главное, глубокого знания тех отраслей, в которых будут применяться результаты анализа. К поиску квалифицированных кадров, помимо российских компаний, работающих в индустрии анализа больших данных, подключаются иностранные игроки, которые всё пристальнее присматриваются к России как к потенциальной кузнице аналитических кадров.

МегаФон, понимая, что в этой индустрии, как ни в какой другой, кадры решают всё, изначально сделал ставку на создание собственной сильной и квалифицированной команды, что нетипично для телеком-индустрии, как правило, отдающей подобные проекты на аутсорс. В результате нам удалось сформировать, пожалуй, одну из сильнейших команд среди операторов — как в части разработки технологических платформ обработки больших данных, так и в части алгоритмики и машинного обучения.

Сейчас в рамках совместного проекта с институтом «Стрелка» мы даем студентам-урбанистам возможность проявить себя в работе с большими данными и, возможно, найти инсайты о жизни московской агломерации, о которых ранее никто даже не догадывался. Сплав урбанистики, архитектуры и математики даётся, конечно же, нелегко, но именно за такими нестандартными комбинациями компетенций — будущее индустрии больших данных как катализатора изменений.

  

Big Bang Data: Что мы узнали о Москве благодаря большим данным . Изображение № 14.