О чём говорят цифры: Исследования, которые помогают сделать бизнес успешным. Изображение № 1.

Том Дэвенпорт

Соучредитель Международного института аналитики

О чём говорят цифры: Исследования, которые помогают сделать бизнес успешным. Изображение № 2.

Ким Джин Хо

Профессор в Корейском национальном университете обороны

Доступность и даже избыточность данных в современном мире означает, что практически любая предпринимательская или управленческая деятельность может рассматриваться либо как проблема больших данных, либо как возмож­ность их обработки. Несмотря на все достоинства аналитических исследований, бывают ситуации, когда нецелесообразно опираться на них при принятии решения. Если проблема слишком незначительна, носит единовре­менный характер или решение зависит от личных предпочтений, нет особого смысла тратить время на сбор и анализ данных, построение аналитической модели. Если действовать нужно быстро, то заниматься анализом просто некогда. Напротив, если решения приходится при­нимать периодически, есть время на проведение анализа, а проблема достаточно серьёзна, чтобы оправдать и затраты, и труд, то аналити­ческий подход будет весьма полезен.

 

Почему уходят клиенты

Некоторые проекты количествен­ного анализа напоминают детективные телесериалы, только в них «расследуются» вопросы бизнеса. Обнаруживается определённая проблема и анализируются данные, для того чтобы удостовериться в правильности её идентификации и найти пути решения. Часто в такой ситуации не нужен углублённый статистический анализ — достаточно корректно подготовленных и представленных данных. В интернет­-магазинах, например, каждый щелчок покупателя мышью несёт в себе огромное, иногда даже слиш­ком, количество информации для анализа. Одним из главных действующих лиц в нашей истории станет Джо Меджибов — вице-­президент онлайново­го туристического агентства Expedia из США. Когда­-то Джо был специалистом по веб­-аналитике. Он и сейчас им остаётся, и его под­ходы к решению бизнес­-проблем на основе количественного анализа данных привели к нескольким блестящим решениям.

Во многих онлайновых исследованиях Expedia возникал вопрос о том, почему транзакции по некоторым заказам не завершаются. В частности, руководство отеля хотело выяснить, почему уже в про­цессе оформления заказа не удаётся довести дело до перечисления средств на счёт компании.

регрессионный анализ для прогнозиро­вания аукционных цен на марочные французские вина Орли Ашен­фельтера вызвал шок в среде экспертов по винам и даже привёл
их в ярость

 

Анализ данных показал, что после выбора отеля и заполнения формы с данными о сроках путешествия и сто­имости номера, а затем щелчка по кнопке «Оплатить сейчас» часть транзакций оказываются незавершёнными. Группа аналитиков под руководством Меджибова решила разобраться в причинах неудач, используя систему показателей интернета и лог­-файлы операций, хранящиеся на сервере.

Очевидно, проблемы возникали из­-за поля «Компания», размещён­ного под полем фамилии клиента. Некоторые клиенты считали, что в нём надо указать название банка, эмитировавшего их кредитную карту, а в поле «Адрес, на который будет направлен счёт» указывали адрес этого банка. В результате в процессе списания средств с карты клиента операция отменялась как некорректная. После того как поле «Компания» просто убрали из формы, прибыль Expedia возросла на $12 млн. Меджибов говорит, что специалисты Expedia расследовали несколько таких историй, и это всегда либо приносило фирме дополнительную прибыль, либо эффективность операционной деятельности повышалась.

 

Сколько стоит вино

В качестве примера множественной линейной регрессии можно привести случай из практики экономиста из Принстона Орли Ашен­фельтера. Он использовал регрессионный анализ для прогнозиро­вания аукционных цен на марочные французские вина. Его прогноз аукционных цен основывался на погоде в период сбора урожая вин этого года и вызвал шок в среде экспертов по винам и даже привёл их в ярость. Если у вас есть хорошее уравнение, то зачем вам эксперты?

Большинство экспертов сходятся в том, что хорошее вино полу­чается в том случае, если предшествующая зима была дождливой, в сезон созревания винограда стояла тёплая погода, а в сезон его сбо­ра — сухая. Таким образом, Ашенфельтер выбрал три независимые переменные, относящиеся к погоде и влияющие на качество виногра­да: средняя температура воздуха в период созревания и количество осадков в период сбора винограда, а также количество осадков в пред­шествующую зиму. Кроме того, поскольку вкус вина, как правило, зависит от его выдержки — ещё одной независимой переменной стала продолжительность выдержки в годах. Качество сбора винограда влияет на цену зрелого вина — она и стала зависимой переменной, которую Ашенфельтер пытался предсказывать. Он собрал информацию о ценах на лондонском аукци­оне за шесть бутылок бордо шато в 1960–1969 годы. Этот период был выбран потому, что вина, сделанные из урожая сборов этих лет, уже созрели, а в их качестве не было сомнений. Данные о значениях неза­висимых переменных предоставило бюро прогнозов погоды из района выращивания винограда.

Ашенфельтер составил регрессионное уравнение логарифма цены вина, включающее показатели возраста вина и параметров погоды. Он получил такое выражение: Качество вина = 12,145 (константа) + 0,0238 × Возраст вина + 0,616 × Средняя температура периода созревания 0,00386 × Количество осадков в период сбора урожая + 0,0017 × Количество осадков предшествующей зимой.

Как показывают значения коэффициентов при переменных, возраст вина, умеренная температура в период созревания и количество осад­ков в течение предшествующей зимы оказывают прямое положитель­ное влияние на цену вина. Осадки в период сбора урожая оказывают негативное влияние на качество вина. Коэффициент детерминации для этого уравнения состав­ляет 0,828, что означает, что включённые в уравнение переменные на 83% объясняют отклонения в ценах на вино. Коротко говоря, эти переменные в совокупности играют определяющую роль в процессе установления цен. Легко понять, почему эксперты сочли эти результаты до некоторой степени спорными и менее интересными, чем бесконечные разговоры о терруаре, дубовых бочках и переспев­шем винограде.

 

Как придумать супермаркет заново

В мае 1999 года компания Homeplus вошла в сегмент супермарке­тов на рынке Кореи, который представлял собой поле битвы не на жизнь, а на смерть, и это поле обильно поливали кровью одиннадцать основных конкурен­тов. Homeplus стала двенадцатым, но именно ей удалось добиться потрясающего успеха. Homeplus прекрасно понимала, что невозможно добиться успеха, просто создавая такие же магазины, как у конкурентов. Требовалось разработать совершенно новую концепцию супермаркетов, которая могла бы отличить магази­ны Homeplus от всех прочих. Чтобы изучить последние течения на глобальном розничном рынке, Homeplus провела сравнительный анализ различных каналов рознич­ной торговли: супермаркетов, гипермаркетов, недорогих специали­зированных магазинов, универсальных магазинов и многоцелевых торговых центров в двадцати пяти странах мира. В маркетинговых исследо­ваниях использовались следующие переменные: места для шопинга и причины их выбора; цель шопинга, уровень удовлетворённости, типичные жалобы. Данные для исследований были получены преимущественно двумя основными способами: посещение и анализ деятельности различных розничных ком­паний в разных уголках мира; опросы покупателей в Южной Корее независимыми маркетинговыми агентствами.

Оказалось, покупателям требовались не только низкие цены. Они стремились в первую очередь получить высокую ценность, то есть удовлетворительную цену при минимальных затратах времени, хотели чувствовать заинтересованность в них, получить удовольствие от приобретения всего необходимого в одном месте и в приятной обстановке. Таким образом, новая кон­цепция супермаркета от Homeplus базировалась на понятии «мага­зин ценности»: здесь не просто продавался широкий ассортимент товаров по низким ценам, но предоставлялись «жизненные ценно­сти».

простое сравнение распределения по закону Бенфорда
и фактического распределения первых значимых цифр
в базе данных поможет выявить сфальсифицированные блоки чисел

 

Дизайн первых супермаркетов Homeplus в Ансане обеспечивал такую же приятную обстановку для покупок, как в универсальных магазинах, зону отдыха для покупателей на первом этаже с ресторанным двориком на 400 посадочных мест, аптекой, медпунктом, магазином оптики, автоматической прачеч­ной, отделением банка, детской игровой площадкой, комнатой ухода за младенцами и даже государственным центром по обслуживанию населения, выдававшим удостоверения личности. Культурный центр сделал супермаркет не просто местом для покупок, но и крупнейшим центром общения в округе.

Все эксперты по розничной торговле, уви­дев планировку этажей, дружно качали головами и заявляли о наруше­нии базовых принципов дизайна супермаркетов. С их точки зрения, размещать относительно малоприбыльные общественные удобства на весьма дорогой площади первого этажа не имело никакого смысла. Для супермаркетов считалось особенно важным эффективное управ­ление торговыми площадями, чтобы получать максимум прибыли с каждого метра торговой площади. Поэтому размещение на первом этаже Культурного центра было расценено как нонсенс. Однако Homeplus уже в день открытия побил рекорд по объёму дневных продаж, а число покупателей достигло 100 000 человек и примерно равнялось численности населения в радиусе пяти километров. 

 

Как обнаружить мошенничество

Мы хорошо знаем, что наша система исчисления использует цифры от 1 до 9. Поэтому можно предположить, что вероятность выбора любой из этих цифр в качестве первой значащей в числе равна 1/9. Но, как ни странно, это не так. «Закон первой цифры», называемый также законом Бенфорда, гласит, что в списке чисел, взятых из реаль­ных баз данных, частота распределения той или иной цифры на первое место в числе подчиняется специфической закономерности: примерно в 30% случаев такой цифрой будет 1, а вероятность появления на первом месте остальных цифр тем меньше, чем цифра больше.

Этот довольно удивительный факт был обнаружен в 1881 году американским астрономом Саймоном Ньюкомбом, заметившим, что в справочнике логарифмов первые страницы всегда гораздо более потрёпанные, чем последующие. В 1938 году физик Франк Бенфорд сделал то же открытие на основе анализа гораздо большего массива данных, чем Ньюкомб. Он рассмотрел 20 229 наборов данных, включая географические координаты рек, бейсбольную статистику, количество статей в журналах, и номера домов первых 342 человек, перечислен­ных в рейтинге «Деятели науки Америки». Анализ всех этих вроде бы не связанных друг с другом баз данных показал, что вероятность рас­пределения цифр на первое место в числе та же, что и для потрёпанных таблиц логарифмов. 

Многие статистики и бухгалтеры твёрдо убеждены в том, что закон Бенфорда является очень простым, но надёжным способом выявле­ния возможных случаев мошенничества, хищений, неуплаты налогов и бухгалтерской небрежности. Идея проста: если кто­-то фальсифици­рует базу данных, то вряд ли он сможет имитировать распределение первой значимой цифры в числах в соответствии с законом Бенфор­да. Поэтому простое сравнение распределения по закону Бенфорда и фактического распределения первых значимых цифр в базе данных поможет выявить сфальсифицированные блоки чисел. Как правило, в них частота распределения 1 как первой значимой цифры намного меньше 30%, зато частота распределения 6 — намного боль­ше, чем в доброкачественных массивах данных.