— Надо размыть лица жены и ребенка. А так, да, устройте ему звездный чаc.
— Мне кажется, достаточно его фотографии с митинга, семейные выставлять некрасиво.
— Под него другие тоже будут копать. Одну семейную нужно, где он в майке с Путиным.

Конечно, мы не выложили семейную фотографию, ведь мы не уроды.

Кулишов Сергей Валерьевич, подполковник. Я нашел его в два клика и отхлебнул из чашки. 27 июля, в кафе играет музыка из лифтов, едят лапшу, а за окном полицейские зачищают бульвар — это значит «избивают людей». Другой наш репортер, Андрей, работает в самой гуще толпы: он описывает Кулишова как «низкого мужчину в белой кепке, с лицом ребенка». Сегодня подполковник решил не надевать форму, ведь ему с подчиненными предстоит задержать тысячу триста семьдесят три человека — больше, чем на любой другой протестной акции в России за 26 лет. Он сделает этот день историческим, но не хочет, чтобы его заметили. Пробегая через толпу, подполковник указывает пальцем на случайных людей, а через секунду ОМОН заламывает им руки. Андрей погнался за ним по переулку с камерой: «Кто вы такой? Да кто вы такой?!». «Мужчина с лицом ребенка» не ответил, но это было уже не важно — теперь его лицо было у меня.

Дальше все журналисты делают одно и то же, никакого секрета. Берешь стоп-кадр, заходишь на FindClone.ru, загружаешь картинку — мгновение — поиск выдает страницы похожих людей во «ВКонтакте» с именами, ссылками, фотографиями с семьей у бассейна. Скандальные проекты по деанонимизации силовиков — «Русский слон», «Сканер», «Глазок» — делают то же самое — просто пробивают через FindClone.

За полгода работы сайт взлетел до миллиона просмотров в месяц. Как и его предшественник FindFace, он уже стал национальным достоянием: такого публичного сервиса нет больше нигде в мире. Было лишь вопросом времени, когда его начнут использовать для политики. The Village нашел тех, кто его создал, — и вот их история.

Текст

Кирилл Руков

Юрий Зданович (в центре) и Гаджи Саидов (справа) в 2003 году, дурачатся на платформе Новодачная, недалеко от «альма-матер» Гаджи — Физтеха. Через 16 лет они создадут FindClone

Математики из Дагестана

Гаджи Саидов и Юрий Зданович — ученые до мозга костей. Вместе учились в Махачкалинском физико-техническом лицее до 2002 года, позже уехали в Москву и поступили в разные институты (МФТИ и МИРЭА), но дружбу сохранили. «Есть люди, которые в детстве садятся за пианино и понимают, что ничем другим заниматься уже не смогут. Мы такие же ребята, только открыли в школе учебник по математике, — рассказывает Гаджи. — Это теперь склад ума, когда идешь по улице и видишь сечения, считаешь угол, под которым деревья растут. Профессиональная деформация: человек разговаривает со мной, а я раскладываю его лицо на параметры. Могу всем распедалить, какие матрицы лучше всего, почему такое-то отображение N-мерного пространства в манифолд — какое красивое слово, да? — почему оно ведет нас в никуда и так далее. С удовольствием ходил бы кругами по кабинету и просто думал. Я кайфую от этого. А сейчас приходится возиться с бумагами и вникать в какие-то юридические стороны контрактов», — создатель FindClone нескромно жалуется: у команды уже появились первые заказы от бизнеса на системы распознавания лиц, вот-вот подпишут контракт с сетью бутиков.


«Ученым остается сделать пару шагов, которые сделали мы. И они, конечно, дойдут. Не сомневаюсь, что не один я такой умный»


Начиналось все как хобби, без инвесторов, только на свои деньги. Как двое ученых при этом зарабатывали на жизнь, они не рассказывают, но кое-что можно найти в интернете. Директору FindClone Юрию Здановичу 34 года, он радиотехник, с 2006-го упоминался как ведущий инженер научной лаборатории в НИИДАРе. Этот институт в советское время создавал систему раннего обнаружения межконтинентальных ракет (знаменитые гигантские антенны «Дуга», «Воронеж» и «Заслон»). Сейчас НИИДАР, конечно, уже не тот, но это по-прежнему крупнейшее частное оборонное предприятие: получает заказы от военных, входит в корпорацию «Система» (владелец бренда МТС). Работает ли там Зданович до сих пор и знают ли в компании о его стартапе FindClone — неизвестно, но забавно, что сама «Система» тоже вкладывалась в технологию распознавания лиц, причем в одного из лидеров рынка — компанию VisionLabs.

Загружаем в FindClone фотографию Юрия Здановича из выпускного альбома МФТЛ 2002 года. Результат — профиль Гаджи Саидова со снимками Здановича через десять лет, и он же в случайных альбомах на страницах коллег

Гаджи Саидов — создатель ядра FindClone, то есть самого алгоритма — очень осторожен в интернете. Ему тоже 34, но в отличие от Юрия, который постоянно путешествует, вписывает гостей на каучсерфинге, выступает на конференциях, Гаджи называет себя «хиккующим математиком» и почти не оставляет следов. Известно, что 11 класс он заканчивал в республиканском лицее для одаренных детей, а в 2002 упоминался как первый в истории Дагестана победитель всероссийской олимпиады школьников. Еще в сети есть одна научная публикация за 2016 год: вместе с братом он сделал простую нейросеть, которая отличала грязные водоемы от чистых по форме раковин мидий на фотографиях. Я был восхищен, когда прочитал это, но Саидов засмеялся: «Не тролльте меня, пожалуйста. Это совсем не тот уровень, к которому я бы хотел стремиться».

Когда на его глазах запустился первый культовый поисковик по лицам FindFace (с чудовищной вирусной пиар-кампанией, завязанной на травле женщин из порно), Гаджи был в восторге, потому что сервис оказался слабым: «Загружаешь человека в солнцезащитных очках — нейросеть сразу падает и показывает тебе просто кучу других людей в темных очках». К тому моменту Саидов разрабатывал свой собственный алгоритм уже несколько лет.

Почему закрылся предыдущий поисковик по лицам FindFace? В этом замешаны власти?

В отличие от героев этой статьи, команду FindFace сложно было назвать независимыми энтузиастами. Еще год назад The Village выяснил, что из пяти владельцев NtechLab — разработчика сервиса — четверо так или иначе были связаны с администрацией президента или обслуживали ее интересы. При этом NtechLab сыграл роль Apple для рынка распознавания лиц, а его скандальные методы пиара реально сработали — в отрасль полились большие деньги и крупные заказы. Скорее всего, именно инвесторы (крупнейший — «Ростех») в итоге потребовали закрыть поисковик FindFace весной 2018 года: хотели очистить имидж стартапа от грязи в новостях, чтобы продаваться иностранцам. Параллельно через инвестиции госкомпаний вроде Сбербанка и «Газфонда» власти взяли под мягкий контроль и всех остальных лидеров технологии. Так вышло, что с одной стороны оказались крупняки — с госзаказами от силовиков на слежение за митингующими; с другой — энтузиасты, чьими алгоритмами силовиков на митингах теперь деанонят.

Сейчас FindClone удивительно хорошо срабатывает «в диких условиях», даже если лицо снято в пол-оборота. Он узнает выросших подростков из фотоальбомов 90-х и находит их свежие страницы (забавно, что именно так я нашел самих создателей — по выпускным снимкам из лицея). Суть своего ноу-хау Саидов объяснять не хочет, но если грубо — он обучал нейросеть не так, как это делают конкуренты: «Я читал все последние научные публикации. Всем этим ученым остается сделать пару шагов, которые сделали мы. И они, конечно, дойдут рано или поздно. Не сомневаюсь, что не один я такой умный», — смеется Гаджи.

Читать сложное объяснение Гаджи

РАЗВЕРНУТЬ

Скрыть

«У нас не применялся triplet loss. Стартовали мы вообще с softmax, но в итоге ничего не понравилось. Самая главная проблема триплета — он очень медленно сходится, это надоедает. Вторая проблема — регуляционные функции. Та же регуляция с помощью weight decay на самом деле ухудшает точность. Мы создали совсем другой loss, постарались взять лучшее от всего».

Конечно, сайт FindClone — это визитка для потенциальных покупателей алгоритма, мол, посмотрите, как мы можем. Ее сделал третий важный герой этой истории, Кирилл Каплин, и его небольшая саратовская компания «Профсофт»: «Мы просто хотели поучаствовать в проекте, который переворачивает сознание. Написали им на почту, мол, ребята, мы такие-то такие, давайте мы вам поможем, напишем оболочку и дизайн бесплатно, нам просто нравится ваш продукт. Сервис был еще совсем сырым, назывался SearchFace. Они ответили через месяц, что хотят нормально заплатить, и в итоге мы подписали контракт по рыночной цене (сколько точно, Каплин не говорит. — Прим. ред.). Помню, что релиз приложения FindClone для Android был в Саратове в апреле, на хакатоне „Оттепель“, мы прямо там дописывали его». Сейчас команда заканчивает работу над iOS-версией приложения, и скоро выпустит его.

Команда вообще не планировала зарабатывать на публичном сервисе, но потом все-таки внедрила тарифы по достижении лимита в 25 запросов. В итоге платных — меньше 10 % от всех поисков. «Главное, что этих денег хватает на оплату серверов и даже иногда на вино остается», — шутит Саидов.

Если очень коротко — как нейросети различают лица?

Нет, алгоритмы не измеряют ширину носа или длину бровей. Компьютерное зрение вообще так не работает: нейросеть не сравнивает привычные нам черты, а самостоятельно, много раз пробуя и ошибаясь, находит те параметры, которые полезны именно ей — такие взаимосвязи называют фичами. Каждая нейросеть в итоге уникальна. Потом цифровой слепок лица — «фичамапу» — записывают буквально в виде набора чисел, чтобы затем арифметически сравнивать этот набор с рядами чисел от других портретов. Чем ближе числа, тем больше схожесть. По такому принципу работают вообще все нейросетевые поисковики, например Shazam для музыки. Пионерами нейросетей считают математиков Яна Лекуна и Джеффри Хинтона. А русские ученые и сейчас делают лучшие алгоритмы в мире. Мы сделали подробный разбор этого механизма на пальцах в фирменном гиде The Village по технологии распознавания лиц.

Юрист из «ВКонтакте»

В феврале 2019 года сразу несколько групп энтузиастов попали под прессинг «ВКонтакте» — компанию бесили все, кто без разрешения создает алгоритмы поиска по лицам в социальной сети (хотя непонятно, почему на протяжении трех лет они разрешали делать это FindFace). Саидов и Зданович тоже получили «письмо счастья»: «У нас был небольшой и скромный диалог, юрист из „ВКонтакте“ потребовал все удалить, — рассказывает Саидов. — Мы спросили почему, он ответил что-то невнятное, про использование их данных. А мы и не копируем их данные себе, — просто “индексируем”, как это делают все иные поисковики. Никаких конкретных нарушений нам так и не предъявили».

Для совсем зеленого проекта Саидова и Здановича адресные угрозы от «ВКонтакте» в новостях сработали как эффект Стрейзанд. Журналисты и расследователи всех мастей изголодались по народному инструменту идентификации. Не прошло и месяца, как интернет-издание The Bell разоблачило создателя крупнейшего онлайн-казино Azino777, с оборотом в 15 миллиардов рублей по одной лишь фотографии 15-летней давности. Арик Толер, главный тренер расследовательской группы Bellingcat, в мае назвал FindClone «самым мощным открытым инструментом», который он когда-либо использовал, а уже в июне сервис упоминался в источниках фактуры их нового доклада «A Birdie Is Flying Towards You» («Птичка полетела к вам») про ополченцев, причастных к катастрофе «Боинга» MH17.

Затем июль — новый виток полицейского насилия на митингах оппозиции. И ни одного дела о превышении полномочий. Тут же разгорается общественная кампания по деанонимизации этих силовиков — активисты, конечно, тоже используют FindClone. Последнее яркое упоминание алгоритма в СМИ — сентябрьское расследование «Медузы» о «новых титушках» на выборах в Петербурге. На самом деле масштаб применения этого сервиса в ежедневной работе журналистов вас бы шокировал, но мы не любим об этом рассказывать.

Теперь загружаем в FindClone другие снимки из того же альбома лицеистов, — предположительно, самого Гаджи Саидова, который часто бывает на них в компании Здановича. У поиска только одно попадание (сайт выделил зеленым): это уже удаленные снимки на странице отца Гаджи. При этом, два человека выглядят совершенно разными, — нейросеть уже узнает лица лучше, чем мы сами

«Такой инструмент должен существовать, — заявляет Гаджи Саидов. — Он не повредит, это точно. Сам по себе поисковик легален. Но вы говорите, что это новое, — и вы в этом правы. И оно до сих пор не урегулировано, не проговорено. Нам даже неизвестно, является ли лицо человека персональными данными. Что будет дальше — решит законодатель, дума. Она будет ориентироваться на настроения в обществе».

Дизайнеру Константину Коновалову на пробежке в центре полицейские сломали ногу — думали, что он протестующий. Все его иски к силовикам отклонили. Константин рассказал The Village, что вместе с активистами идентифицировал через Findclone каждого из сотрудников, которые его задерживали. Сейчас он ждет апелляции на решения суда.

Полицейские в онлайне

«Руководство московской полиции приказало своим сотрудникам изменить данные в соцсетях и удалить фотографии, где можно разглядеть лицо, — писало издание Baza в июле, — это произошло после того, как в Сети начали появляться контактные данные десятков полицейских, их родственникам стали поступать угрозы. Неизвестные оставили записку „сожжем твой дом“ под дверью матери одного из капитанов». Твит, за который человека сейчас хотят посадить на пять лет, был именно про это — про опасность деанона.

Но удаление фотографий не поможет, сразу отрезает Кирилл Каплин: «Любая информация, которую вы скрываете во „ВКонтакте“, все равно остается на его серверах. Фотографии останутся публично доступными по ссылкам, если вы их уже знаете. Это просто особенность архитектуры социальной сети. Видимо, исторически так сложилось, что они не могут это поменять».

Дизайнеру Константину Коновалову на пробежке в центре полицейские сломали ногу — думали, что он протестующий. Все его иски к силовикам отклонили. Константин рассказал The Village, что вместе с активистами идентифицировал через Findclone каждого из сотрудников, которые его задерживали. Сейчас он ждет апелляции на решения суда.

Как скачать все фотографии во «ВКонтакте»?

РАЗВЕРНУТЬ

Скрыть

База фотографий FindClone датирована летом 2018 года — то есть более поздние снимки во «ВКонтакте» она, скорее всего, не найдет. Всего это 2,5 тысячи терабайт данных. Нет, серверы FindClone не занимают производственный цех где-нибудь в Москве. Арендовать за океаном сейчас можно не только огромные облачные хранилища, но и сам способ подключения к этим облакам — линки. «У некоторых хостеров можно выбить и десятигигабитные линки. Тогда один терабайт [через него] скачивается [в облако] примерно за два-три часа. И мы не сохраняли все фотографии, а лишь обрабатывали их [нейросетью] on the fly. На хранении всего объема мы бы точно разорились», — объясняет Юрий Зданович.

Юрий Зданович согласился общаться только в чате телеграма. Я долго объяснял ему, что «правосудие, анонимность и инструменты поиска могут быть либо для всех, либо ни для кого», а потом спросил, что он будет делать, если представители власти захотят быть защищены от самой возможности быть найденными. «Сотрудник [МВД] на массовых мероприятиях не может быть анонимен, — ответил Зданович. — Так считает и закон о полиции, пункт 1 части 4 статьи 5. Опять-таки даже 19-я статья, та самая, о неподчинении законному требованию [и применении физической силы], — там же написано про законное требование. По этому поводу даже Нургалиев высказывался. Нужно лечить болезнь, а не симптомы», — заключает директор FindClone.


«Если вас где-то нашли и вам это не понравилось — можете написать нам на почту, приложить свою фотографию, и мы исключим вас из индексации»


Один — и самый простой — способ скрыть себя от FindClone пока остается: «Мы не берем деньги за исключение [из поиска], — рассказывает Кирилл Каплин. — Если вы увидели, что вас где-то нашли и вам это не понравилось — вы можете написать нам на почту, приложить свою фотографию, и мы исключим вас из индексации. Сейчас это любые обращения, по несколько запросов в день, мы всех исключаем, кто просит, без разбора». При этом разработчик считает, что масштабно пытаться запретить обнаруживать себя — бессмысленно, потому что крупные поисковики скоро тоже научатся искать по лицу (те же «Яндекс.Картинки» уже пытаются это делать): «Как сервис мы ничего не нарушаем. Я понимаю, что его работа часто касается политики, но мне нравится, что и мы, и создатели FindClone сохраняют нейтралитет. Сервис доступен всем — так и должно быть».

Напоследок спрашиваю Саидова, продаст ли он свой алгоритм государству так, как это сделали почти всего его конкуренты: «Смотря какому [государству]. (Смеется.) Ну серьезно, тут же две стороны медали. Есть борьба с преступностью, а есть борьба с политическими оппонентами. Если я знаю, что конкретное государство предлагает бороться с преступностью с помощью моего инструмента, — ответ, конечно же, „да“. Если же я в этом не уверен, как в случае с нам обоим известным государством, возникает дилемма. Впрочем, пока я от нее избавлен».


Изображения: обложка, 2, 3 – The Village, 1 – из архива Юрия Здановича