О чём говорят цифры: Исследования, которые помогают сделать бизнес успешным H&F прочитал книгу аналитиков Томаса Дэвенпорта и Кима Джин Хо и узнал, как можно использовать количественный анализ на пользу собственному бизнесу.

Том Дэвенпорт
Соучредитель Международного института аналитики
Ким Джин Хо
Профессор в Корейском национальном университете обороны
Доступность и даже избыточность данных в современном мире означает, что практически любая предпринимательская или управленческая деятельность может рассматриваться либо как проблема больших данных, либо как возможность их обработки. Несмотря на все достоинства аналитических исследований, бывают ситуации, когда нецелесообразно опираться на них при принятии решения. Если проблема слишком незначительна, носит единовременный характер или решение зависит от личных предпочтений, нет особого смысла тратить время на сбор и анализ данных, построение аналитической модели. Если действовать нужно быстро, то заниматься анализом просто некогда. Напротив, если решения приходится принимать периодически, есть время на проведение анализа, а проблема достаточно серьёзна, чтобы оправдать и затраты, и труд, то аналитический подход будет весьма полезен.
Почему уходят клиенты
Некоторые проекты количественного анализа напоминают детективные телесериалы, только в них «расследуются» вопросы бизнеса. Обнаруживается определённая проблема и анализируются данные, для того чтобы удостовериться в правильности её идентификации и найти пути решения. Часто в такой ситуации не нужен углублённый статистический анализ — достаточно корректно подготовленных и представленных данных. В интернет-магазинах, например, каждый щелчок покупателя мышью несёт в себе огромное, иногда даже слишком, количество информации для анализа. Одним из главных действующих лиц в нашей истории станет Джо Меджибов — вице-президент онлайнового туристического агентства Expedia из США. Когда-то Джо был специалистом по веб-аналитике. Он и сейчас им остаётся, и его подходы к решению бизнес-проблем на основе количественного анализа данных привели к нескольким блестящим решениям.
Во многих онлайновых исследованиях Expedia возникал вопрос о том, почему транзакции по некоторым заказам не завершаются. В частности, руководство отеля хотело выяснить, почему уже в процессе оформления заказа не удаётся довести дело до перечисления средств на счёт компании.
регрессионный анализ для прогнозирования аукционных цен на марочные французские вина Орли Ашенфельтера вызвал шок в среде экспертов по винам и даже привёл
их в ярость
Анализ данных показал, что после выбора отеля и заполнения формы с данными о сроках путешествия и стоимости номера, а затем щелчка по кнопке «Оплатить сейчас» часть транзакций оказываются незавершёнными. Группа аналитиков под руководством Меджибова решила разобраться в причинах неудач, используя систему показателей интернета и лог-файлы операций, хранящиеся на сервере.
Очевидно, проблемы возникали из-за поля «Компания», размещённого под полем фамилии клиента. Некоторые клиенты считали, что в нём надо указать название банка, эмитировавшего их кредитную карту, а в поле «Адрес, на который будет направлен счёт» указывали адрес этого банка. В результате в процессе списания средств с карты клиента операция отменялась как некорректная. После того как поле «Компания» просто убрали из формы, прибыль Expedia возросла на $12 млн. Меджибов говорит, что специалисты Expedia расследовали несколько таких историй, и это всегда либо приносило фирме дополнительную прибыль, либо эффективность операционной деятельности повышалась.
Сколько стоит вино
В качестве примера множественной линейной регрессии можно привести случай из практики экономиста из Принстона Орли Ашенфельтера. Он использовал регрессионный анализ для прогнозирования аукционных цен на марочные французские вина. Его прогноз аукционных цен основывался на погоде в период сбора урожая вин этого года и вызвал шок в среде экспертов по винам и даже привёл их в ярость. Если у вас есть хорошее уравнение, то зачем вам эксперты?
Большинство экспертов сходятся в том, что хорошее вино получается в том случае, если предшествующая зима была дождливой, в сезон созревания винограда стояла тёплая погода, а в сезон его сбора — сухая. Таким образом, Ашенфельтер выбрал три независимые переменные, относящиеся к погоде и влияющие на качество винограда: средняя температура воздуха в период созревания и количество осадков в период сбора винограда, а также количество осадков в предшествующую зиму. Кроме того, поскольку вкус вина, как правило, зависит от его выдержки — ещё одной независимой переменной стала продолжительность выдержки в годах. Качество сбора винограда влияет на цену зрелого вина — она и стала зависимой переменной, которую Ашенфельтер пытался предсказывать. Он собрал информацию о ценах на лондонском аукционе за шесть бутылок бордо шато в 1960–1969 годы. Этот период был выбран потому, что вина, сделанные из урожая сборов этих лет, уже созрели, а в их качестве не было сомнений. Данные о значениях независимых переменных предоставило бюро прогнозов погоды из района выращивания винограда.
Ашенфельтер составил регрессионное уравнение логарифма цены вина, включающее показатели возраста вина и параметров погоды. Он получил такое выражение: Качество вина = 12,145 (константа) + 0,0238 × Возраст вина + 0,616 × Средняя температура периода созревания 0,00386 × Количество осадков в период сбора урожая + 0,0017 × Количество осадков предшествующей зимой.
Как показывают значения коэффициентов при переменных, возраст вина, умеренная температура в период созревания и количество осадков в течение предшествующей зимы оказывают прямое положительное влияние на цену вина. Осадки в период сбора урожая оказывают негативное влияние на качество вина. Коэффициент детерминации для этого уравнения составляет 0,828, что означает, что включённые в уравнение переменные на 83% объясняют отклонения в ценах на вино. Коротко говоря, эти переменные в совокупности играют определяющую роль в процессе установления цен. Легко понять, почему эксперты сочли эти результаты до некоторой степени спорными и менее интересными, чем бесконечные разговоры о терруаре, дубовых бочках и переспевшем винограде.
Как придумать супермаркет заново
В мае 1999 года компания Homeplus вошла в сегмент супермаркетов на рынке Кореи, который представлял собой поле битвы не на жизнь, а на смерть, и это поле обильно поливали кровью одиннадцать основных конкурентов. Homeplus стала двенадцатым, но именно ей удалось добиться потрясающего успеха. Homeplus прекрасно понимала, что невозможно добиться успеха, просто создавая такие же магазины, как у конкурентов. Требовалось разработать совершенно новую концепцию супермаркетов, которая могла бы отличить магазины Homeplus от всех прочих. Чтобы изучить последние течения на глобальном розничном рынке, Homeplus провела сравнительный анализ различных каналов розничной торговли: супермаркетов, гипермаркетов, недорогих специализированных магазинов, универсальных магазинов и многоцелевых торговых центров в двадцати пяти странах мира. В маркетинговых исследованиях использовались следующие переменные: места для шопинга и причины их выбора; цель шопинга, уровень удовлетворённости, типичные жалобы. Данные для исследований были получены преимущественно двумя основными способами: посещение и анализ деятельности различных розничных компаний в разных уголках мира; опросы покупателей в Южной Корее независимыми маркетинговыми агентствами.
Оказалось, покупателям требовались не только низкие цены. Они стремились в первую очередь получить высокую ценность, то есть удовлетворительную цену при минимальных затратах времени, хотели чувствовать заинтересованность в них, получить удовольствие от приобретения всего необходимого в одном месте и в приятной обстановке. Таким образом, новая концепция супермаркета от Homeplus базировалась на понятии «магазин ценности»: здесь не просто продавался широкий ассортимент товаров по низким ценам, но предоставлялись «жизненные ценности».
простое сравнение распределения по закону Бенфорда
и фактического распределения первых значимых цифр
в базе данных поможет выявить сфальсифицированные блоки чисел
Дизайн первых супермаркетов Homeplus в Ансане обеспечивал такую же приятную обстановку для покупок, как в универсальных магазинах, зону отдыха для покупателей на первом этаже с ресторанным двориком на 400 посадочных мест, аптекой, медпунктом, магазином оптики, автоматической прачечной, отделением банка, детской игровой площадкой, комнатой ухода за младенцами и даже государственным центром по обслуживанию населения, выдававшим удостоверения личности. Культурный центр сделал супермаркет не просто местом для покупок, но и крупнейшим центром общения в округе.
Все эксперты по розничной торговле, увидев планировку этажей, дружно качали головами и заявляли о нарушении базовых принципов дизайна супермаркетов. С их точки зрения, размещать относительно малоприбыльные общественные удобства на весьма дорогой площади первого этажа не имело никакого смысла. Для супермаркетов считалось особенно важным эффективное управление торговыми площадями, чтобы получать максимум прибыли с каждого метра торговой площади. Поэтому размещение на первом этаже Культурного центра было расценено как нонсенс. Однако Homeplus уже в день открытия побил рекорд по объёму дневных продаж, а число покупателей достигло 100 000 человек и примерно равнялось численности населения в радиусе пяти километров.
Как обнаружить мошенничество
Мы хорошо знаем, что наша система исчисления использует цифры от 1 до 9. Поэтому можно предположить, что вероятность выбора любой из этих цифр в качестве первой значащей в числе равна 1/9. Но, как ни странно, это не так. «Закон первой цифры», называемый также законом Бенфорда, гласит, что в списке чисел, взятых из реальных баз данных, частота распределения той или иной цифры на первое место в числе подчиняется специфической закономерности: примерно в 30% случаев такой цифрой будет 1, а вероятность появления на первом месте остальных цифр тем меньше, чем цифра больше.
Этот довольно удивительный факт был обнаружен в 1881 году американским астрономом Саймоном Ньюкомбом, заметившим, что в справочнике логарифмов первые страницы всегда гораздо более потрёпанные, чем последующие. В 1938 году физик Франк Бенфорд сделал то же открытие на основе анализа гораздо большего массива данных, чем Ньюкомб. Он рассмотрел 20 229 наборов данных, включая географические координаты рек, бейсбольную статистику, количество статей в журналах, и номера домов первых 342 человек, перечисленных в рейтинге «Деятели науки Америки». Анализ всех этих вроде бы не связанных друг с другом баз данных показал, что вероятность распределения цифр на первое место в числе та же, что и для потрёпанных таблиц логарифмов.
Многие статистики и бухгалтеры твёрдо убеждены в том, что закон Бенфорда является очень простым, но надёжным способом выявления возможных случаев мошенничества, хищений, неуплаты налогов и бухгалтерской небрежности. Идея проста: если кто-то фальсифицирует базу данных, то вряд ли он сможет имитировать распределение первой значимой цифры в числах в соответствии с законом Бенфорда. Поэтому простое сравнение распределения по закону Бенфорда и фактического распределения первых значимых цифр в базе данных поможет выявить сфальсифицированные блоки чисел. Как правило, в них частота распределения 1 как первой значимой цифры намного меньше 30%, зато частота распределения 6 — намного больше, чем в доброкачественных массивах данных.