Битва за данные: какие войны назревают за новую нефть
Автор – Анна Соколова
Каждый наш шаг оставляет цифровой след: когда мы гуглим значение нового мема, покупаем кофе в Старбаксе, слушаем музыку в Apple Music, лайкаем фотку соседского кота, кликаем виральный заголовок, смотрим новую серию «Игры престолов». И чем больше у нас гаджетов, тем больше данных о нас собирают. Компании пытаются узнать нас поближе, чтобы продать нам больше товаров и услуг. Иногда они знают о нас больше, чем мы знаем о себе.
Афоризм «данные — это новая нефть» (англ. data is the new oil) успел набить оскомину. Но и в гениальности ему не откажешь: он помогает нам выпендриваться на технологических конференциях вот уже 10 лет. Авторство цитаты приписывается британскому математику Клайву Хамби, разработавшему систему лояльности для торговой сети Tesco. Он произнес ее на конференции по маркетингу в 2006 году. Постепенно смысл этих слов доходит до широкой аудитории. И хотя люди продолжают воевать за нефть, контуры будущих конфликтов за данные проступают уже сейчас.
До недавних пор компании управляли традиционными активами — имуществом, деньгами, интеллектуальной собственностью. Цифровая эпоха принесла новый тип активов — данные. Это сырье, из которого производятся прогнозы, инсайты и очень большие деньги. Как пишет Economist, в XXI веке данные сыграют ту же роль, что нефть в XX-м. То есть станут главным фактором роста и перемен. Онлайн-сервисы работают на данных, как машины на бензине.
Объем накопленных миром данных в зеттабайтах
Благодаря интернету вещей источниками данных стали любые устройства — от тостера до авиационного двигателя. Цифровой слепок человека все точнее. Все, что мы делаем, генерирует данные, а данные генерируют кэш. По прогнозу IDC, в 2017 году мировой рынок больших данных заработает $150,8 млрд, в 2020 году — $203 млрд.
Чем больше гуглишь, тем больше Google
Сначала интернет-компании использовали собранные данные для таргетинга рекламы. С расцветом технологий искусственного интеллекта стало ясно, что данные можно превратить в AI-сервисы, которые станут новым источником прибыли.
Многочисленные ИИ-стартапы создают умные сервисы на все случаи жизни: от анализа рентгеновских снимков до точного земледелия (подсказывают фермеру, на какие участки поля распылять гербициды). Пороги входа на рынок ИИ снижаются: растут вычислительные мощности, дешевеют датчики и железо, мощные инструменты для машинного обучения (TensorFlow от Google, DMTK от Microsoft, CatBoost от «Яндекса») открыты для любого программиста.
Главным конкурентным преимуществом на рынке искусственного интеллекта становятся сами данные. И вот ими-то, в отличие от софта, корпорации делиться не спешат. Аналитики IBM характеризуют состояние рынка данных как олигополию, где крупные игроки контролируют большую часть пирога. В интернете находится только 20% данных, остальные 80% хранятся в недрах компаний и организаций. Поэтому топ-менеджер IBM Дэвид Кенни считает данные валютой будущего.
Магия данных в том, что они помогают усовершенствовать продукт и привлечь больше пользователей, которые нагенерят еще больше данных, которые позволят привлечь еще больше пользователей. Данные — топливо современного рекламного рынка. Мировые ИТ-гиганты рвутся со своим бесплатным интернетом в страны третьего мира, чтобы заработать на данных офлайнового населения. Правда, на конференциях это принято называть устранением цифрового неравенства и желанием сделать мир лучше.
Лидерство Google, Facebook, Microsoft и Amazon в искусственном интеллекте во многом объясняется тем, что они владеют огромным количеством данных, которые нужны для обучения умных алгоритмов. Если вы тоже хотите заработать на ИИ, вам придется либо собрать, либо купить данные, которые по мере развития ИИ будут только дорожать. Известный на Западе техноскептик Евгений Морозов считает, что технологические титаны приватизируют наши данные, а это сулит нам новый феодализм.
Какими данными о человеке располагают крупнейшие в США брокеры данных
Исследование «Corporate Surveillance in Everyday Life», июнь 2017
Data-driven сделки
В экономике данных уже так не важно, окупается ли ИТ-проект. Когда есть большая аудитория и налажен сбор данных, монетизация — дело наживное. В этом свете 68-миллиардная оценка убыточного Uber, который многие считают пузырем, уже не кажется полным абсурдом. Самый дорогой стартап мира владеет крупнейшим массивом данных о рынке персональных перевозок (более 5 млрд поездок). Равно как и Tesla — не просто модный электрокар, а база данных о вождении на совокупной дистанции более 2 млрд км. Она дает компании фору в создании технологии беспилотного вождения. У разработчика беспилотных авто Waymo (принадлежит Alphabet) пока на порядок меньше данных.
Самым ценным активом обанкротившейся гемблинговой компании Caesars Entertainment оказались данные о 45 миллионах участников программы лояльности. Их оценили в $1 млрд.
Корпорации могут позволить себе купить компании, которые владеют нужной им базой пользователей. Этим объясняются многие крупнейшие сделки последних лет. Facebook купил Instagram и WhatsApp, Microsoft купил LinkedIn и т.д. Это вызывает беспокойство антимонопольных властей. В процессе согласования сделки по поглощению WhatsApp Facebook обещал не объединять данные двух компаний, но в прошлом году таки начал это делать. За это Еврокомиссия оштрафовала соцсеть на $122 млн.
Экономика данных требует от регуляторов новых подходов. Им придется быть не менее изобретательными, чем те, кого они регулируют. Чтобы не допустить диктата монополий, власти обязывают крупняк делиться данными с новыми проектами. Например, в Германии страховщики должны делиться с маленькими фирмами статистикой о страховых случаях. В следующем году вступят в силу европейские нормативы о защите данных. Интернет-сервисы будут обязаны получать от пользователей явное согласие на то, как будут использоваться их данные, а также позволить им экспортировать свои данные для передачи другим компаниям.
Чтобы конкурировать с гигантами, более мелкие игроки могут собираться в data-кооперативы. Так, крупнейшие немецкие медиа объединили большие данные с тысячи своих сайтов на общей платформе Emetriq, чтобы снизить свою зависимость от Google и Facebook, контролирующих 85% мирового рекламного рынка.
Легально торговать данными гораздо труднее, чем нефтью. Каждый датасет уникален, такой актив сложно оценить. Правовой базы еще нет, каждый контракт сочиняется с нуля и содержит десятки страниц о том, как покупатель будет использовать и защищать данные. Oracle разрабатывает единую инфраструктуру для обмена данными, которая позволит ее клиентам покупать и продавать свои базы данных в безопасной облачной среде.
Есть интересные примеры бартера: Национальная служба здравоохранения Великобритании предоставила DeepMind (ИИ-подразделение Alphabet) доступ обезличенным данным 1,6 млн пациентов, чтобы умные алгоритмы помогали врачам лечить пациентов с почечной недостаточностью.
Инфографика журнала The Economist
Все, что вы делаете в интернете, может быть использовано против вас
Компании подчеркивают, что продают и используют только обезличенные данные. Но это не снимает тревоги обывателей. Каноничный кейс торговой сети Target, чья рекомендательная система узнала о беременности школьницы раньше самой школьницы, спровоцировал горячие споры об этике больших данных. Чтобы спасти репутацию, компания подкорректировала алгоритм. Он начал разбавлять товары для беременных более нейтральными предложениями. Эта история — отличный пример того, что из наших данных можно добыть выводы, которых мы сами о себе не знаем.
Результаты опроса читателей The Guardian
В 2012 году Facebook провела психологический эксперимент над 689 тысячами человек. Половине выборки алгоритм показывал позитивный контент, другой половине — негативный, а потом анализировал реакцию пользователей. Целью исследования было доказать влияние соцсетей на настроения людей. Результаты были более чем убедительны. В 2014 году, когда их опубликовали, Facebook попала в настоящий социальный шторм. Из пользователей сделали подопытных крыс, писали тогда рассерженные блогеры. Широкая публика была поражена, что данные можно использовать не только для таргетирования рекламы, но и для манипулирования людьми
В прошлом году соцсеть захлестнула новая волна критики. Facebook обвинили в том, что ее алгоритм формирования новостной ленты (питающийся данными о пользователях) привел к радикализации пользователей, распространению фейковых новостей и тем самым помог Трампу стать президентом.
Большинство скандалов из области data ethics связаны с несанкционированным сбором данных. Например, производители SmartTV не раз попадались на слежке за пользователями. По прогнозу Gartner, к 2018 году половина нарушений деловой этики будут нарушениями этики данных. Последствиями для компаний будут репутационный ущерб и юридические санкции.
И без того размытая грань между персональными и большими данными тоньше, чем кажется. Данные интернет-запросов нередко содержат личную информацию и могут быть деанонимизированы. Cопоставление анонимизированных больничных записей и новостей со словом «госпитализирован» позволило исследователям опознать 43% пациентов.
Ярче всех по теме приватности в мире больших данных высказался питерский фотограф Егор Цветков. В прошлом году он отменно хайпанул со своим проектом Your face is big data. Цветков сфотографировал случайных незнакомцев в метро, а потом нашел их профили «Вконтакте» через нейросетевой фотопоиск FindFace.
Интеллектуальные алгоритмы принятия решений, которые обучаются на данных, могут быть предубеждены. Например, американские судьи используют программы для предсказания рецидива преступления. Это помогает им определиться с суммой выдачи обвиняемого под залог и тяжестью наказания. В прошлом году СМИ обвинили один из самых популярных алгоритмов такого рода — программу COMPAS от компании Northpointe — в расизме.
Впоследствии белый американец был три раза арестован за хранение наркотиков, афроамериканец — ни одного
Только 20% потенциальных рецидивистов действительно совершили преступления. При этом количество ошибочных предсказаний рецидива для чернокожих оказалось вдвое выше, чем для белых.
Data-скандалы в России
В России тоже начались конфликты вокруг данных. В январе «ВКонтакте» подала в суд на компанию Double Data и Национальное бюро кредитных историй. Соцсеть требует запретить использовать профили людей в коммерческих целях. Сервисы Double Data оценивают кредитоспособность заемщиков по данным «ВКонтакте», а НБКИ предлагает эти сервисы банкам. «ВКонтакте» заявила, что алгоритмы Double Data анализируют имена, место рождения, жительства, работы и учебы, анкеты друзей, тип устройства и частоту посещений. Но ни соцсеть, ни пользователи не разрешали сторонней компании извлекать личную информацию.
Использование общедоступных сведений, которые люди сами разместили о себе, законно и согласовано с юристами более 30 банков, объясняла Double Data в своем блоге. Гендиректор компании Максим Гинжук назвал претензии соцсети способом конкурентной борьбы. В прошлом году Mail.ru Group запустила собственный сервис для анализа кредитных рисков. Зачем позволять другим монетизировать данные о пользователях?
В июне Национальное бюро кредитных историй заключило с «Вконтакте» мировое соглашение, а Double Data попросила время, чтобы ознакомиться с документом. На днях Арбитражный суд Москвы примет решение по громкому делу. Его исход станет важным прецедентом, который может серьезно повлиять на отечественный рынок big data. Ведь социальным скорингом в России занимаются многие компании. Согласно исследованию FutureBanking, данные из соцсетей используют также «Аксиоматика», Clever Datа, Scorista, Scorto, FICO и Бюро кредитных историй Equifax (партнер скорингового сервиса Mail.ru Group). Double Data даже гордятся тем, что корпорация ополчилась именно на них.
Американские соцсети LinkedIn, Facebook и Twitter тоже препятствуют анализу данных пользователей сторонними компаниями. Так, осенью Facebook запретила британским страховщикам Admiral Insurance анализировать благонадежность водителей по постам в соцсети. Хотя вообще в США торговля данными идет куда бойчее, чем у нас. Там даже продаются списки людей, страдающих от психических расстройств, рака и алкоголизма.
Еще один российский скандал вокруг больших данных случился в июне. Пользователи возмутились, что компания Segmento, 50% акций которой принадлежит Сбербанку, использовала историю покупок клиентов банка для таргетирования рекламы «Макдоналдса», «Снежной королевы», Loreal и Samsung. Так, технология Segmento находила клиентов, которые недавно оплачивали фастфуд картой Сбербанка, показывала части из них рекламу «Макдоналдса» и оценивала эффективность кампании по последующим покупкам.
В описании рекламных кейсов на сайте фирмы говорилось, что Segmento обладает доступом к данным о покупательском поведении и предпочтениях 84 млн пользователей карт Сбербанка. Позже компания удалила эту информацию, что только укрепило позицию критиков. Клиенты платят банку за обслуживание не для того, чтобы им показывали рекламу и зарабатывали на их данных, писали участники дискуссии. Сбербанк парировал, что передает Segmento не персональные данные, а зашифрованный и обезличенный набор вероятностей.
Поэтому нарушения закона и банковской тайны тут нет.
В любом случае, синергия со Сбербанком дает разработчикам Segmento огромные преимущества. Российский рынок больших данных называют на 99% теневым: бренды торгуют данными анонимно, чтобы не отпугнуть клиентов. Непрозрачность источников и отсутствие четких правил игры приводят к низкому качеству данных об аудитории. А чем хуже данные, тем хуже работает реклама.
Банки точно знают социально-демографические характеристики своих клиентов. Поэтому их данные куда точнее информации из соцсетей. Как и любые брендированные данные, то есть открыто продаваемые сборщиком. На российском рынке это редкость. Разработчики отечественных big data-сервисов жалуются на дефицит брендированных данных. Опасаясь негатива пользователей, бренды очень осторожно монетизируют обезличенные данные клиентов.
Телеком-операторы развивают геоаналитику, основанную на данных о перемещениях абонентов. Так, «Мегафон» предлагает траспортным компаниям свой сервис анализа трафика и пассажироперевозок. Мобильные операторы «большой тройки» предоставляют обезличенные данные московским властям, чтобы те совершенствовали городскую инфраструктуру с учетом загруженности траспорта. «Вымпелком» и МТС оценивают кредитоспособность своих абонентов по аккуратности платежей и частоте заграничных поездок, чтобы продавать банкам обезличенный результат такого скоринга.
«Вымпелком» делится с рекламодателями данными о предпочтениях своих абонентов — мобильных пользователей интернета. К числу компаний, которые открыто продают данные об интересах своих пользователей, относятся также «МаксимаТелеком» и Avito. Компании, которые не готовы тратить ресурсы на создание собственных big data-сервисов, монетизируют свои информационные богатства через биржи данных (data exchange и data management platform). Экосистема для обмена и продажи данных активно растет. Недавно такими маркетплейсами обзавелись рекламные платформы «Яндекса» и Mail.Ru Group.
Борьба за данные будет происходить не только на уровне компаний, но и на уровне государств. Об этом предупреждает глава совета директоров Alphabet Эрик Шмидт. В этом смысле данные имеют не меньший потенциал для конфликтов, чем нефть. Географическое распределение извлекаемой из данных прибыли сегодня более чем неравномерно. Большая часть дата-центров в мире находится на территории США или контролируется американскими компаниями. Европейские регуляторы то и дело осложняют им жизнь своими предписаниями. Требования по локализации персональных данных действуют в Китае, Индии, Индонезии, Малайзии и Вьетнаме.
Россия идет в том же направлении. Принятый в 2015 году закон обязывает иностранные ИТ-компании хранить персональные данные россиян на серверах внутри страны. За неисполнение этого требования Роскомнадзор заблокировал американскую деловую соцсеть Linkedin, которой пользовались 5 млн россиян. При этом Google, Apple, Facebook и Twitter пока не обзавелись серверами на территории России.
Чем большие данные отличаются от персональных данных
Российские чиновники давно обеспокоены тем, что западные ИТ-гиганты собирают и используют данные россиян в своих целях, а государство никак не может на это повлиять.
Глобальная слежка за людьми
Игорь Ашманов - аналитика Big Data. Все секреты больших данных с конференции eTarget