Kitobni o'qish: «Работа с данными в любой сфере», sahifa 3

Shrift:

Почему данные важны сейчас

Многие уже в курсе того, что технологии в будущем могут существенно повлиять на рабочие места. Если вы чувствуете себя достаточно смелым, введите в поисковую строку Google «технологическое воздействие на рабочие места» / «technological impact on jobs» – и вы увидите, что несметное количество статей посвящено вероятности автоматизации в сфере вашей деятельности⁷. Хотя эта информация подкреплена данными, я бы сказал, что, возможно, мнение исследователей в некоторой степени субъективно, если принять во внимание задачи, которые необходимо выполнять на конкретных рабочих местах. Так, я бы, конечно, не рекомендовал учиться на спортивного арбитра по той причине, что эта работа зависит от данных об игре, – машины неизбежно будут поставлять более точные данные, чтобы подтвердить или опровергнуть любые заявления соперников. Судья может быть данью традиции, которая делает опыт более личностным или захватывающим прямо сейчас, но, на мой взгляд, ностальгия, связанная с профессией, не означает, что она будет востребована вечно.

Даже после того, как выяснилось, насколько всепоглощающими являются данные, некоторые все еще могут надеяться на то, что наука о данных не повлияет на их бизнес в ближайшее время. В конце концов, нужно время, чтобы что-то произошло. Но думать таким образом было бы большой ошибкой, потому что это отрицало бы принцип закона Мура.

Закон Мура

Закон Мура – это закон прогнозирования. Предложенный соучредителем Intel Гордоном Муром в 1965 г., он в первую очередь касался ожидаемого со временем увеличения числа транзисторов (устройств, используемых для управления электрическим током) на квадратный дюйм в интегральных схемах (например, компьютерных микросхемах, микропроцессорах, материнских платах). Было замечено, что число этих транзисторов примерно удваивается каждые два года, и закон утверждал, что тенденция будет продолжаться. На сегодняшний день это подтвердилось⁸.

В восприятии непрофессионала это означает, что, если вы пойдете в свой местный компьютерный магазин сегодня и купите компьютер за £1000, а через два года приобретете еще один тоже за £1000 в том же магазине, вторая машина будет в два раза мощнее, хотя она стоит столько же.

Многие применили этот закон к растущему как грибы количеству достижений в области науки о данных. Она является одной из самых быстроразвивающихся академических дисциплин, и занимающиеся ею профессионалы используют все более изощренные способы, чтобы найти новые средства для сбора данных, построения экономичных систем их хранения и разработки алгоритмов, которые превращают все эти порции больших данных в ценные идеи. Доводилось ли вам когда-либо чувствовать, что технологии движутся вперед так быстро, что вы не успеваете идти в ногу со временем? Тогда подумайте об аналитиках данных. Они играют в салочки с технологией, которая еще даже не изобретена.

Кейс: Siri

В качестве примера рассмотрим развитие технологии распознавания речи. Создатели Siri Даг Киттлаус, Адам Чейер и Том Грубер разработали умного личного помощника задолго до того, как технология стала достаточно зрелой, чтобы можно было реализовать идеи и вывести их на рынок. Авторы Siri создали инструменты и алгоритмы для работы с имевшимися у них данными, чтобы поддерживать технологию распознавания речи, которая тогда еще не была изобретена.

Однако они знали, что, хотя было невозможно использовать программное обеспечение с имевшейся в то время технологией, в конечном итоге запуск Siri станет возможным, нужно лишь подождать, пока технология выкристаллизуется. Короче говоря, они уловили технологические тенденции.

Концепцией, которую создатели Siri использовали для своих прогнозов, служил закон Мура. И это невероятно важно для науки о данных. Закон Мура применяется к многим технологическим процессам и является необходимым правилом при рассмотрении и принятии деловых решений и реализации проектов; мы вернемся к его обсуждению в главе 3 «Мышление, необходимое для эффективного анализа данных».

Беспокойство ни к чему не приводит

Голливуд и индустрия развлечений в целом долгое время придерживались мрачной идеи, что использование данных и связанные с ними злоупотребления угрожают человечеству. Нам стоит задуматься над этой не предвещающей ничего хорошего фразой из фильма «2001: Космическая одиссея»: «Открой дверь модульного отсека, ЭАЛ», где ЭАЛ – технология искусственного интеллекта (ИИ) космического корабля – настолько усовершенствован, что решает не подчиняться команде человека и действовать согласно своим (превосходящим) суждениям. «Из машины», «Она», «Бегущий по лезвию», «Призрак в доспехах» – все эти фильмы посвящены воображаемым проблемам, с которыми могут столкнуться люди, когда технологии начнут развивать собственное сознание и предвидеть наши действия.

Но есть, с моей точки зрения, еще одна область, где злонамеренное применение данных – имеющее значительно больше общего с злоупотреблениями людей, чем роботов, – гораздо более вероятно и неотвратимо. Речь идет о конфиденциальности. С вопросами конфиденциальности связаны многие наши взаимодействия в интернете. Люди могут оставаться анонимными, но информация о них всегда будет где-то собираться – и использоваться. Даже если эти данные лишены характерных индикаторов, отсылающих к тому или иному индивидууму, некоторые могут спросить: «Правильно ли, что такие данные вообще собирают?»

Ваш онлайн-след

Читатели, которые пользовались интернетом в 1990-х гг., знакомы со словом «аватар» – довольно безобидное изображение, которое мы выбирали для представления себя на онлайн-форумах. Сегодня термин «аватар» используется для описания чего-то гораздо более широкого. Теперь он означает нашего неосязаемого двойника в виртуальном мире, массив данных о нас, составленный на основе наших заданных поисков, выбора и покупок, которые мы делаем в интернете, и всего, что мы публикуем в Сети, от текста до изображений. Такие данные являются потенциальным золотым дном, неиссякаемым источником информации для кредитных агентств и компаний-агрегаторов, которые затем могут использовать эти сведения для продажи другим.

Ввиду развития науки о данных встают вопросы этики и безопасности, касающиеся проницаемости, искажения и захвата данных (а этика – это область, которую мы рассмотрим в главе 5 «Подготовка данных»). У нас есть очень веские основания беспокоиться о доступах, которые открывает наука о данных, и о том, что она не делает различий в том, кто – или что – обращается к этой информации. Хотя переход от бумажного к цифровому документообороту позитивно сказался на практике ведения дел в компаниях, данные все еще могут пропадать или приходить в негодность, а также на них может существенно повлиять человек (это касается неверной информации, потери баз данных и шпионажа), что будет иметь разрушительные последствия.

Кейс: The Heartbleed Bug
На мой взгляд, Heartbleed Bug⁹ представляет собой самое радикальное нарушение конфиденциальности в мире на сегодняшний день. Ошибка в программе позволила хакерам применить уязвимость в исходном коде, используемом в интернете, и украсть защищенные иным образом данные, отправленные через безопасные соединения Secure Sockets Layer (SSL). Эта лазейка предоставила доступ к конфиденциальной информации о торговых сайтах за много лет, прежде чем стало известно о ее масштабах.
В 2014 г. группа безопасности Google обнаружила эту проблему в исходном коде SSL во время регулярного критического просмотра своих сервисов. Оказалось, что около 800 000 веб-сайтов во всем мире имели эту ошибку в своем исходном коде, что обеспечивало доступ к их информации ворам и хакерам, знавшим об этой уязвимости. Но в течение двух лет ошибка оставалась незамеченной, что позволило украсть потенциально бесчисленное количество данных. По иронии, как сайты с поддержкой SSL (те, что начинаются с «https») они должны быть более безопасными, чем те, у которых обычные URL-адреса «http».
Даже если проигнорировать распространенное в то время мнение, что ошибка сохранялась с ведома правительственных или фиктивных организаций, факт остается фактом: Heartbleed Bug представлял собой фундаментальное нарушение конфиденциальности.

Не контролируйте – просвещайте!

Неудобная истина, касающаяся науки о данных и любой отрасли, где напрямую задействованы деньги, заключается в том, что по мере роста интереса к данной дисциплине возрастает интерес к наиболее гнусным средствам вмешательства в ее внутренние процессы. Некоторые могут счесть это достаточным основанием для прекращения сбора и использования данных. Но я вижу это по-другому и сделал бы ставку на то, что многие другие ученые – специалисты в области данных – чувствуют то же самое: вместо того чтобы контролировать и ограничивать, нужно воспитывать людей. Мы должны сообщить нашим детям, что их деятельность в интернете приведет к появлению аватара, который может быть использован в их пользу – или против них. Мы должны убедиться, что люди в целом лучше разбираются в том, как используют их данные и зачем.

Таков мир, в котором мы сейчас живем. Нам будет намного легче избавиться от этой эмоциональной привязанности, чем сопротивляться. В конце концов, сегодня на сцену выходит молодое поколение и рекламируются новые потребительские компании. Это подтверждается тем, что многие компании (от Amazon до Outfittery¹⁰) работают в интернете. Сейчас потребители готовы предоставить свою личную информацию в обмен на лучшую адаптацию продуктов и услуг к их потребностям. Посмотрите на Instagram или Twitter, и вы убедитесь, что передача личной информации в интернете – в самых разных областях – может восприниматься как вторая натура поколения миллениалов. Если вы не планируете жить вне Сети на лоне дикой природы и говорить только с птицами, кибербезопасность – просто еще один риск нынешней действительности. Борьба с этой угрозой будет так же бесполезна, как усилия луддитов в XIX в.: сколь яростно ни сопротивлялись они автоматизации производства, это мало что изменило в долгосрочной перспективе.

Намного менее вероятно то, что мы откажемся от услуг, которые уже интегрированы в нашу жизнь и считаются само собой разумеющимися, – прежде всего потому, что сейчас мы нуждаемся в них. Когда-то эти услуги были роскошью, но технологии быстро превратились в основную потребность, определяющую то, как мы живем и работаем. Технологии развивались, и впредь нам нужно использовать данные.

Когда одни события в мире быстро сменяются другими и есть возможность наблюдать за ними в режиме реального времени с помощью социальных сетей, настойчиво выплескивающих информацию, или новостных сайтов, которые постоянно, в любое время суток, обновляют свои страницы, публикуя новые сведения о происходящем, – в этих условиях можно испытывать чувство подавленности. Лавина данных наступает со всех сторон, и нет способа ее остановить. Вы не можете заткнуть вулкан пробкой и ожидать, что он не взорвется.

Однако мы можем управлять данными и анализировать их. Вероятно, вы слышали о «кураторах контента» и «сайтах-агрегаторах», таких как Feedly, через которые можно отбирать и классифицировать новости из интересующих вас блогов и сайтов. Люди и компании работают над организацией важных для них самих или их подписчиков данных. Эти попытки управления информацией должны обеспечить нам комфорт, и они представляют собой одну из множества опций обработки данных. По мере совершенствования технологий, которые помогут нам управлять данными и анализировать их, мы примем это как неотъемлемую часть нашего существования в компьютерную эпоху. Поэтому отбросьте свои сомнения и давайте вместо этого сосредоточимся на возможностях данных и на том, как они могут улучшить нашу жизнь.

02
Как данные удовлетворяют наши потребности

В науке о данных не так уж много таинственного – она, в конце концов, полностью вписана в современные реалии. И все же преобладает неверное представление, будто данные сложны и даже непостижимы. К сожалению, многие сегодня либо охотно отказываются видеть, как широко применяется наука о данных, либо намеренно отвергают ее как нечто недоступное или неприменимое к их работе. Наука о данных как дисциплина предполагает что-то весьма замысловатое. Это похоже на то, чем люди занимаются в маленьких кабинетах без окон, сгорбившись над своими столами.

Такой взгляд совершенно неверен.

В этой главе мы точно узнаем, насколько данные вездесущи, как широко они генерируются и собираются и почему наука о данных никогда не может считаться причудой.

Проникновение данных

Чтобы проиллюстрировать, насколько важны данные для всех аспектов нашей жизни – что это необходимость, а не роскошь, я буду использовать пирамиду потребностей Маслоу, которая, я уверен, знакома многим бизнес-практикам. В литературе по бизнес-психологии о ней написано очень много. Я считаю, что эта модель на удивление хорошо сочетается с распространенностью и преимуществами данных¹¹.

Иерархия потребностей была разработана Абрахамом Маслоу в 1943 г. для отображения сложной мотивации, обуславливающей поведение людей. Иерархия представлена в форме пирамиды, которая в последовательности снизу вверх включает в себя потребности – от наиболее к наименее фундаментальным (рис. 2.1). Короче говоря, иерархия организована таким образом, что потребности, находящиеся на самом нижнем уровне пирамиды, должны быть удовлетворены до того, как у индивидуума, о котором идет речь, появится мотивация для удовлетворения потребностей более высоких уровней¹².

Наука о данных и физиология

В основе иерархии Маслоу лежат физиологические факторы – основные потребности людей для простого выживания. Как данные могут поспособствовать лучшему удовлетворению этих основных потребностей?

Давайте возьмем в качестве примера воздух, которым мы дышим. Загрязнение воздуха – один из наиболее серьезных поводов для глобального беспокойства со времен промышленной революции конца XVIII и начала XIX в. Мы могли бы считать смог феноменом прошлого – так, в 1950-х гг. выбросы, образовавшиеся при сгорании угля, регулярно окутывали Лондон. Но смесь дыма, тумана и пыли остается большой проблемой во многих городах по всему миру, от Китая до Бразилии.

Любые технологии, предназначенные для уменьшения загрязнения воздуха в городах, зависят от данных: чтобы улучшить состояние воздуха, его состав необходимо сначала контролировать.

Кейс: экологические данные и «Зеленый горизонт»
Программа «Зеленый горизонт» (Green Horizon) была запущена компанией IBM в 2014 г. в связи с необходимостью отреагировать на ужасное качество воздуха в Китае путем «преобразования его национальных энергетических систем и поддержки потребностей в устойчивой урбанизации» (IBM, 2017a). «Зеленый горизонт»¹³ использует данные 12 глобальных исследовательских лабораторий и применяет когнитивные модели к собранным данным, чтобы предоставить информацию, связанную с главной целью проекта – сокращением загрязнения. Данные необходимы для мониторинга колебаний загрязнения воздуха в отдельных районах, а также для того, чтобы ученые могли проанализировать различные факторы, которые прямо или косвенно влияют на качество, температуру и состояние воздуха, и начать улучшать физическую среду в Китае.
Огромное преимущество этих проектов заключается в том, что экологические данные чаще всего являются общедоступными и в глобальном масштабе. Это означает, что технологические разработки, направленные на борьбу с загрязнением воздуха, могут быстро развиваться. Наличие доступа к важным массивам данных, связанных с удовлетворением наших самых основных потребностей, необходимо для понимания того, как имеющиеся технологии могут работать лучше. Вот почему у нас теперь есть специальные стеклянные панели, которые могут быть установлены в зданиях, чтобы окна могли «дышать», очищая воздух внутри помещения и тем самым защищая находящихся там людей. Вот почему у нас есть фильтры, которые могут быть использованы на фабриках в целях уменьшения вредных выбросов и защиты местных жителей от отравления.

Возобновляемые продовольственные ресурсы

Еда еще один пример того, как данные связаны с самыми основными потребностями человека (физиологические факторы в пирамиде Маслоу). Для некоторых это может показаться научной фантастикой, но уже в течение многих лет еда выращивается в лабораториях, а использование искусственного мяса становится все более актуальным феноменом. Memphis Meats, стартап в Кремниевой долине, который с момента своего создания разработал разные виды искусственного мяса, от говядины до домашней птицы, – всего лишь один из подобных институтов.

Поскольку это все еще некая «серая» область для регулирующих органов, религии и науки, искусственное мясо вызвало и похвалы, и гнев мирового сообщества (Devitt, 2017). Но нравится нам это или нет, искусственное мясо в недалеком будущем может стать заменой того, что мы едим. Резко сократив потребление воды и выбросы углерода, оно станет экологически безопасным решением в условиях, когда сельское хозяйство негативно влияет на мир природы. И данные, которые мы собираем для производства такого мяса, в конечном итоге выйдут за рамки исследования ДНК. Поскольку пищевые технологии становятся все более обыденными, дополнительные потребительские данные будут использоваться для других целей, таких как определение оптимальных способов приготовления искусственного мяса, – это позволит не только сделать мясо вкуснее, но и, что особенно важно для производящих компаний, повысить его продаваемость.

Наука о данных и безопасность

Как только физиологические потребности оказываются удовлетворены, приоритетом, согласно пирамиде Маслоу, становится безопасность (физическая, финансовая, личная). Таким образом, безопасность – это уровень, который в значительной степени включает в себя личное здоровье и благополучие, а медицина – одна из тех областей, для которых наука о данных особенно важна. В медицинской промышленности наука о данных радикально меняет инструменты для диагностики и лечения болезней. Все медицинские эксперименты проводятся с опорой на данные участников, и эти собранные данные могут использоваться для уточнения диагноза, подбора разных практических подходов и создания новых продуктов. Чтобы выявить сложные и редкие заболевания, практикующие медики должны владеть информацией о различных их проявлениях и симптомах – это поможет избежать ошибки при постановке диагноза, найти корень проблемы и эффективно ее решать. Когда недуг усугубляется и требует безотлагательного вмешательства врачей, течение болезни может не контролироваться на протяжении недель и месяцев, которые уходят на то, чтобы пациенты записались на прием к нужному специалисту.

От ученых – аналитиков данных требуется разработать передовые алгоритмы и обучить им машины для получения наиболее точных данных. На основе этих данных могут быть спрогнозированы необычные ситуации. Более того, собранные данные не зависят от благополучия научного сотрудника, работающего с ними (извините). Как только специалисты-медики выходят на пенсию, вместе с ними уходят их специфические знания. Когда аналитики данных уходят на заслуженный отдых, алгоритмы, которые они оставили, или собранные ими данные могут использоваться как основа для расширения существующих знаний. Наука о данных всегда опирается на то, что осталось, на информацию о нашем прошлом.

Именно эта способность позволяет столь эффективно использовать плоды науки о данных в медицине: пока данные сохраняются, накопленные знания не будут зависеть от отдельных людей.

Кейс: диагностика с помощью SkinVision
На рынке существует множество цифровых приложений, которые собирают данные по различным темам, от звезд в ночном небе до веснушек на вашей коже.
SkinVision – это приложение для мобильных устройств, помогающее тестировать родинки пользователей, чтобы выявить рак кожи. Используя агрегированные пользовательские данные, алгоритм SkinVision может определить вероятность появления у пользователя родинки с злокачественными симптомами. Это действительно очень просто: с помощью приложения вы делаете фото вашей кожи, SkinVision его зарегистрирует и проанализирует – а потом вы получите рекомендацию относительно следующих шагов, которые вы можете предпринять вместе с врачом.
Не стоит думать, что ставить диагноз с помощью мобильного устройства легкомысленно. По мере того как будет собрано все больше и больше сведений о болезни, базы данных о ее причинах и последствиях увеличатся и станут определять диагноз намного лучше, чем это делает опытный хирург. Чем больше людей используют цифровое приложение подобное SkinVision, чтобы узнать свой диагноз, тем выше вероятность, что технология сможет отличить доброкачественную родинку от злокачественной, потому что у нее будет большой массив данных, с помощью которых можно перекрестно изучить пользовательские данные – представленные изображения. Подумайте, что бы вы предпочли: получить диагноз от человека, которому довелось рассмотреть 1000 отдельных случаев, или от машины, которая накопила информацию о миллионе отдельных случаев?

Объем знаний

Отнюдь не только цифровые приложения прокладывают путь медицине, основанной на данных. Суперкомпьютер IBM Watson, по словам разработчиков, – это «когнитивная технология, которая может мыслить как человек» (IBM, 2017b). Watson прославился, когда стал первым искусственным интеллектом, победившим человека в игре Jeopardy!. Но на самом деле это просто пища для СМИ¹⁴. Что же делает Watson столь привлекательным для нас? Эта технология позволяет применять данные в здравоохранении. Watson полезен прежде всего тем, что помогает врачам выявлять болезни пациентов.

Watson применяет тот же принцип, что и приложение SkinVision: собранные данные служат для диагностики – только для этого, естественно, требуются более изощренные алгоритмы. В одном удивительном случае Watson смог диагностировать редкий тип лейкемии у женщины всего за десять минут, в то время как у врачей это заняло бы несколько недель (Otake, 2016).

Все еще сомневаетесь относительно перспективы использования ИИ в медицине?

Разумеется, Watson не является решением всех наших проблем. Искусственный интеллект машин все еще может ошибаться. Но разница между машинами-врачами и людьми-медиками – это данные, и, по мере того как технология обработки растущих объемов информации совершенствуется, меняется и разница между человеком и машиной. В конце концов, люди могут поглощать информацию на конференциях, из медицинских журналов и статей, но все мы имеем ограниченную способность хранить знания. Более того, знания, которыми обладают люди-врачи, в значительной степени зависят от их жизненного опыта. В то же время врач-машина может совершенствоваться, только получая все больше данных. Благодаря мгновенному доступу к данным с других компьютеров через облако общие данные могут способствовать постановке более точных диагнозов и выполнению операций по всему миру. Благодаря экспоненциальному росту эти машины будут хранить информацию о всех видах изменений в человеческом теле, оставляя знания людей далеко позади.

7.Опасения по поводу технологической безработицы не новы – Джон Мейнард Кейнс писал об этом в 1930-х гг.: «Мы страдаем от новой болезни, названия которой некоторые читатели, возможно, еще не слышали, но о которой они многое услышат в ближайшие годы, а именно – о технологической безработице» (Кейнс, 1963).

8.Относительно транзисторной инфраструктуры у закона Мура есть ограничения. При размере около 1 нм свойства полупроводникового материала нарушаются такими квантовыми эффектами, как квантовое туннелирование. Кроме того, дальнейшее развитие инфраструктуры потребует альтернативы кремнию, который сейчас используется в качестве основного материала. – Прим. науч. ред.

9.Ошибка в программном обеспечении OpenSSL, которая позволяет несанкционированно читать оперативную память. Вызывает двустороннюю уязвимость: не только вы можете читать данные с уязвимого сервера, но и злоумышленник оказывается способен получить доступ к вашей оперативной памяти, если у вас поврежденная версия OpenSSL. – Прим. науч. ред.

10.Базирующаяся в Берлине компания, торгующая мужской одеждой. Продает коробки с индивидуально подобранными для каждого клиента товарами.

11.Это не даст нам исчерпывающих сведений о том, как и где наука о данных используется в нашей жизни, поскольку пирамида Маслоу принижает неосновные человеческие потребности. Такие области, как, например, военная оборона и освоение космического пространства, сюда не будут включены, поскольку они не являются основными потребностями человека.

12.Я использую пирамиду потребностей Маслоу в качестве примера для описания всеобъемлющей силы данных, но, если вы хотите узнать больше о том, как эта иерархия может быть применена в бизнесе, см. Conley (2007).

13.Программа использует интернет вещей и ИИ, чтобы предсказывать уровень загрязнения воздуха. – Прим. науч. ред.

14.Что, кстати, является еще одним примером того, как данные меняют наш способ потребления информации. Самые читаемые новостные онлайн-статьи будут выталкиваться на вершину кучи, что делает это войной за самый интригующий заголовок, а не за самый убедительный контент.