Большие данные big data определение. Big Data: аналитика и решения

Инструмент 27.06.2020

Предисловие

“Big data” - модный нынче термин, фигурирующий почти на всех профессиональных конференциях, посвященных анализу данных, прогностической аналитике, интеллектуальному анализу данных (data mining), CRM. Термин используется в сферах, где актуальна работа с качественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: экономике, банковской деятельности, производстве, маркетинге, телекоммуникациях, веб-аналитике, медицине и др.

Вместе со стремительным накоплением информации быстрыми темпами развиваются и технологии анализа данных. Если еще несколько лет назад было возможно, скажем, лишь сегментировать клиентов на группы со схожими предпочтениями, то теперь возможно строить модели для каждого клиента в режиме реального времени, анализируя, например, его перемещение по сети Интернет для поиска конкретного товара. Интересы потребителя могут быть проанализированы, и в соответствии с построенной моделью выведена подходящая реклама или конкретные предложения. Модель также может настраиваться и перестраиваться в режиме реального времени, что было немыслимо еще несколько лет назад.

В области телекоммуникации, например, развиты технологии для определения физического расположения сотовых телефонов и их владельцев, и, кажется, в скором времени станет реальностью идея, описанная в научно-фантастическом фильме «Особое мнение», 2002 года, где отображение рекламной информации в торговых центрах учитывала интересы конкретных лиц, проходящих мимо.

В то же время, существуют ситуации, когда увлечение новыми технологиями может привести и к разочарованию. Например, иногда разреженные данные (Sparse data ), дающие важное понимание действительности, являются гораздо более ценными, чем Большие данные (Big Data), описывающие горы, зачастую, не существенной информации.

Цель данной статьи - прояснить и обдумать новые возможности Big Data и проиллюстрировать, как аналитическая платформа STATISTICA компании StatSoft может помочь в эффективном использовании Big Data для оптимизации процессов и решения задач.

Насколько большие Big Data?

Конечно, правильный ответ на данный вопрос должен звучать - «это зависит…»

В современных обсуждениях понятие Big Data описывают как данные объема в порядках терабайт.

На практике (если речь идет о гигабайтах или терабайтах), такие данные легко хранить и управлять ими с помощью «традиционных» баз данных и стандартного оборудования (сервера баз данных).

Программное обеспечение STATISTICA использует многопоточную технологию для алгоритмов доступа к данным (чтения), преобразования и построения прогностических (и скоринговых) моделей, поэтому такие выборки данных могут быть легко проанализированы, и не требуют специализированных инструментов.

В некоторых текущих проектах StatSoft обрабатываются выборки порядка 9-12 миллионов строк. Умножим их на 1000 параметров (переменных), собранных и организованных в хранилище данных для построения рисковых или прогностических моделей. Такого рода файл будет иметь объем “только” около 100 гигабайт. Это, конечно, не маленькое хранилище данных, но его размеры не превышают возможностей технологии стандартных баз данных.

Линейка продуктов STATISTICA для пакетного анализа и построения скоринговых моделей (STATISTICA Enterprise ), решения, работающие в режиме реального времени (STATISTICA Live Score ), и аналитические инструменты для создания и управления моделями (STATISTICA Data Miner , Decisioning ) легко масштабируются на несколько серверов с многоядерными процессорами.

На практике это означает, что достаточная скорость работы аналитических моделей (например, прогнозы в отношении кредитного риска, вероятности мошенничества, надежности узлов оборудования, и т.д.) позволяющая принимать оперативные решения, почти всегда может быть достигнута с помощью стандартных инструментов STATISTICA .

От больших объемов данных к Big Data

Как правило, обсуждение Big Data сосредоточено вокруг хранилищ данных (и проведении анализа, основанных на таких хранилищах), объемом намного больше, чем просто несколько терабайт.

В частности, некоторые хранилища данных могут вырасти до тысячи терабайт, т.е., до петабайт (1000 терабайт = 1 петабайт).

За пределами петабайт, накопление данных может быть измерено в эксабайтах, например, в производственном секторе по всему миру в 2010 году, по оценкам, накоплено в общей сложности 2 эксабайта новой информации (Manyika et al., 2011 г.).

Существуют отрасли, где данные собираются и накапливаются очень интенсивно.

Например, в производственной сфере, такой как электростанции, непрерывный поток данных генерируется иногда для десятков тысяч параметров каждую минуту или даже каждую секунду.

Кроме того, за последние несколько лет, внедряются так называемые “smart grid” технологии, позволяющие коммунальным службам измерять потребление электроэнергии отдельными семьями каждую минуту или каждую секунду.

Для такого рода приложений, в которых данные должны храниться годами, накопленные данные классифицируются как Extremely Big Data.

Растет и число приложений Big Data среди коммерческих и государственных секторов, где объем данных в хранилищах, может составлять сотни терабайт или петабайт.

Современные технологии позволяют «отслеживать» людей и их поведение различными способами. Например, когда мы пользуемся интернетом, делаем покупки в Интернет-магазинах или крупных сетях магазинов, таких как Walmart (согласно Википедии, хранилище данных Walmart оценивается более чем в 2 петабайт), или перемещаемся с включенными мобильными телефонами - мы оставляем след наших действий, что приводит к накоплению новой информации.

Различные способы связи, от простых телефонных звонков до загрузки информации через сайты социальных сетей, таких как Facebook (согласно данным Википедии, обмен информацией каждый месяц составляет 30 млрд. единиц), или обмен видео на таких сайтах, как YouTube (Youtube утверждает, что он загружает 24 часа видео каждую минуту; см. Wikipedia), ежедневно генерируют огромное количество новых данных.

Аналогичным образом, современные медицинские технологии генерируют большие объемы данных, относящиеся к оказанию медицинской помощи (изображения, видео, мониторинг в реальном времени).

Итак, классификацию объемов данных можно представить так:

Большие наборы данных: от 1000 мегабайт (1 гигабайт) до сотен гигабайт

Огромные наборы данных: от 1000 гигабайт (1терабайт) до нескольких терабайт

Big Data: от нескольких терабайт до сотен терабайт

Extremely Big Data: от 1000 до 10000 терабайт = от 1 до 10 петабайт

Задачи, связанные с Big Data

Существуют три типа задач связанных с Big Data:

1. Хранение и управление

Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных.

2. Неструктурированная информация

Большинство всех данных Big Data являются неструктурированными. Т.е. как можно организовать текст, видео, изображения, и т.д.?

3. Анализ Big Data

Как анализировать неструктурированную информацию? Как на основе Big Data составлять простые отчеты, строить и внедрять углубленные прогностические модели?

Хранение и управление Big Data

Big Data обычно хранятся и организуются в распределенных файловых системах.

В общих чертах, информация хранится на нескольких (иногда тысячах) жестких дисках, на стандартных компьютерах.

Так называемая «карта» (map) отслеживает, где (на каком компьютере и/или диске) хранится конкретная часть информации.

Для обеспечения отказоустойчивости и надежности, каждую часть информации обычно сохраняют несколько раз, например - трижды.

Так, например, предположим, что вы собрали индивидуальные транзакции в большой розничной сети магазинов. Подробная информация о каждой транзакции будет храниться на разных серверах и жестких дисках, а «карта» (map) индексирует, где именно хранятся сведения о соответствующей сделке.

С помощью стандартного оборудования и открытых программных средств для управления этой распределенной файловой системой (например, Hadoop ), сравнительно легко можно реализовать надежные хранилища данных в масштабе петабайт.

Неструктурированная информация

Большая часть собранной информации в распределенной файловой системе состоит из неструктурированных данных, таких как текст, изображения, фотографии или видео.

Это имеет свои преимущества и недостатки.

Преимущество состоит в том, что возможность хранения больших данных позволяет сохранять “все данные”, не беспокоясь о том, какая часть данных актуальна для последующего анализа и принятия решения.

Недостатком является то, что в таких случаях для извлечения полезной информации требуется последующая обработка этих огромных массивов данных.

Хотя некоторые из этих операций могут быть простыми (например, простые подсчеты, и т.д.), другие требуют более сложных алгоритмов, которые должны быть специально разработаны для эффективной работы на распределенной файловой системе.

Один топ-менеджер однажды рассказал StatSoft что он «потратил целое состояние на IT и хранение данных, но до сих пор не начал получать денег», потому что не думал о том, как лучше использовать эти данные для улучшения основной деятельности.

Итак, в то время как объем данных может расти в геометрической прогрессии, возможности извлекать информацию и действовать на основе этой информации, ограничены и будут асимптотически достигать предела.

Важно, чтобы методы и процедуры для построения, обновления моделей, а также для автоматизации процесса принятия решений были разработаны наряду с системами хранения данных, чтобы гарантировать, что такие системы являются полезными и выгодными для предприятия.

Анализ Big Data

Это действительно большая проблема, связанная с анализом неструктурированных данных Big Data: как анализировать их с пользой. О данном вопросе написано гораздо меньше, чем о хранении данных и технологиях управления Big Data.

Есть ряд вопросов, которые следует рассмотреть.

Map-Reduce

При анализе сотни терабайт или петабайт данных, не представляется возможным извлечь данные в какое-либо другое место для анализа (например, в STATISTICA Enterprise Analysis Server ).

Процесс переноса данных по каналам на отдельный сервер или сервера (для параллельной обработки) займет слишком много времени и требует слишком большого трафика.

Вместо этого, аналитические вычисления должны быть выполнены физически близко к месту, где хранятся данные.

Алгоритм Map-Reduce представляет собой модель для распределенных вычислений. Принцип его работы заключается в следующем: происходит распределение входных данных на рабочие узлы (individual nodes) распределенной файловой системы для предварительной обработки (map-шаг) и, затем, свертка (объединение) уже предварительно обработанных данных (reduce-шаг).

Таким образом, скажем, для вычисления итоговой суммы, алгоритм будет параллельно вычислять промежуточные суммы в каждом из узлов распределенной файловой системы, и затем суммировать эти промежуточные значения.

В Интернете доступно огромное количество информации о том, каким образом можно выполнять различные вычисления с помощью модели map-reduce, в том числе и для прогностической аналитики.

Простые статистики, Business Intelligence (BI)

Для составления простых отчетов BI, существует множество продуктов с открытым кодом, позволяющих вычислять суммы, средние, пропорции и т.п. с помощью map-reduce.

Таким образом, получить точные подсчеты и другие простые статистики для составления отчетов очень легко.

Прогнозное моделирование, углубленные статистики

На первый взгляд может показаться, что построение прогностических моделей в распределенной файловой системой сложнее, однако это совсем не так. Рассмотрим предварительные этапы анализа данных.

Подготовка данных. Некоторое время назад StatSoft провел серию крупных и успешных проектов с участием очень больших наборов данных, описывающих поминутные показатели процесса работы электростанции. Цель проводимого анализа заключалась в повышении эффективности деятельности электростанции и понижении количества выбросов (Electric Power Research Institute, 2009).

Важно, что, несмотря на то, что наборы данных могут быть очень большими, информация, содержащаяся в них, имеет значительно меньшую размерность.

Например, в то время как данные накапливаются ежесекундно или ежеминутно, многие параметры (температура газов и печей, потоки, положение заслонок и т.д.) остаются стабильными на больших интервалах времени. Иначе говоря, данные, записывающиеся каждую секунду, являются в основном повторениями одной и той же информации.

Таким образом, необходимо проводить “умное” агрегирование данных, получая для моделирования и оптимизации данные, которые содержат только необходимую информацию о динамических изменениях, влияющих на эффективность работы электростанции и количество выбросов.

Классификация текстов и предварительная обработка данных. Проиллюстрируем ещё раз, как большие наборы данных могут содержать гораздо меньше полезной информации.

Например, StatSoft участвовал в проектах, связанных с анализом текстов (text mining) из твитов, отражающих, насколько пассажиры удовлетворены авиакомпаниями и их услугами.

Несмотря на то, что ежечасно и ежедневно было извлечено большое количество соответствующих твитов, настроения, выраженные в них, были довольно простыми и однообразными. Большинство сообщений - жалобы и краткие сообщения из одного предложения о “плохом опыте”. Кроме того, число и “сила” этих настроений относительно стабильны во времени и в конкретных вопросах (например, потерянный багаж, плохое питание, отмена рейсов).

Таким образом, сокращение фактических твитов до скора (оценки) настроения, используя методы text mining (например, реализованные в STATISTICA Text Miner ), приводит к гораздо меньшему объему данных, которые затем могут быть легко сопоставлены с существующими структурированными данными (фактические продажи билетов, или информация о часто летающих пассажирах). Анализ позволяет разбить клиентов на группы и изучить их характерные жалобы.

Существует множество инструментов для проведения такого агрегирования данных (например, скор настроений) в распределенной файловой системе, что позволяет легко осуществлять данный аналитический процесс.

Построение моделей

Часто задача состоит в том, чтобы быстро построить точные модели для данных, хранящихся в распределенной файловой системе.

Существуют реализации map-reduce для различных алгоритмов data mining/прогностической аналитики, подходящих для масштабной параллельной обработки данных в распределенной файловой системе (что может быть поддержано с помощью платформы STATISTICА StatSoft).

Однако, именно из-за того, что вы обработали очень большое количество данных, уверенны ли вы, что итоговая модель является действительно более точной?

На самом деле, скорее всего, удобнее строить модели для небольших сегментов данных в распределенной файловой системе.

Как говорится в недавнем отчете Forrester: «Два плюс два равняется 3,9 - это обычно достаточно хорошо» (Hopkins & Evelson, 2011).

Статистическая и математическая точность заключается в том, что модель линейной регрессии, включающая, например, 10 предикторов, основанных на правильно сделанной вероятностной выборке из 100 000 наблюдений, будет так же точна, как модель, построенная на 100 миллионах наблюдений.

Большие данные – это широкий термин для обозначения нетрадиционных стратегий и технологий, необходимых для сбора, упорядочивания и обработки информации из больших наборов данных. Хотя проблема работы с данными, превышающими вычислительную мощность или возможности хранения одного компьютера, не является новой, в последние годы масштабы и ценность этого типа вычислений значительно расширились.

В этой статье вы найдете основные понятия, с которыми вы можете столкнуться, исследуя большие данные. Также здесь рассматриваются некоторые из процессов и технологий, которые используются в этой области в настоящее время.

Что такое большие данные?

Точное определение «больших данных» трудно сформулировать, потому что проекты, вендоры, специалисты-практики и бизнес-специалисты используют его совершенно по-разному. Имея это в виду, большие данные можно определить как:

  • Большие наборы данных.
  • Категорию вычислительных стратегий и технологий, которые используются для обработки больших наборов данных.

В этом контексте «большой набор данных» означает набор данных, который слишком велик, чтобы обрабатываться или храниться с помощью традиционных инструментов или на одном компьютере. Это означает, что общий масштаб больших наборов данных постоянно меняется и может значительно варьироваться от случая к случаю.

Системы больших данных

Основные требования к работе с большими данными такие же, как и к любым другим наборам данных. Однако массовые масштабы, скорость обработки и характеристики данных, которые встречаются на каждом этапе процесса, представляют серьезные новые проблемы при разработке средств. Целью большинства систем больших данных является понимание и связь с большими объемами разнородных данных, что было бы невозможно при использовании обычных методов.

В 2001 году Даг Лэйни (Doug Laney) из Gartner представил «три V больших данных», чтобы описать некоторые характеристики, которые отличают обработку больших данных от процесса обработки данных других типов:

  1. Volume (объем данных).
  2. Velocity (скорость накопления и обработки данных).
  3. Variety (разнообразие типов обрабатываемых данных).

Объем данных

Исключительный масштаб обрабатываемой информации помогает определить системы больших данных. Эти наборы данных могут быть на порядки больше, чем традиционные наборы, что требует большего внимания на каждом этапе обработки и хранения.

Поскольку требования превышают возможности одного компьютера, часто возникает проблема объединения, распределения и координации ресурсов из групп компьютеров. Кластерное управление и алгоритмы, способные разбивать задачи на более мелкие части, становятся в этой области все более важными.

Скорость накопления и обработки

Вторая характеристика, которая существенно отличает большие данные от других систем данных, — это скорость, с которой информация перемещается по системе. Данные часто поступают в систему из нескольких источников и должны обрабатываться в режиме реального времени, чтобы обновить текущее состояние системы.

Этот акцент на мгновенной обратной связи заставил многих специалистов-практиков отказаться от пакетно-ориентированного подхода и отдать предпочтение потоковой системе реального времени. Данные постоянно добавляются, обрабатываются и анализируются, чтобы успевать за притоком новой информации и получать ценные данные на ранней стадии, когда это наиболее актуально. Для этого необходимы надежные системы с высокодоступными компонентами для защиты от сбоев по конвейеру данных.

Разнообразие типов обрабатываемых данных

В больших данных существует множество уникальных проблем, связанных с широким спектром обрабатываемых источников и их относительным качеством.

Данные могут поступать из внутренних систем, таких как логи приложений и серверов, из каналов социальных сетей и других внешних API-интерфейсов, с датчиков физических устройств и из других источников. Целью систем больших данных является обработка потенциально полезных данных независимо от происхождения путем объединения всей информации в единую систему.

Форматы и типы носителей также могут значительно различаться. Медиафайлы (изображения, видео и аудио) объединяются с текстовыми файлами, структурированными логами и т. д. Более традиционные системы обработки данных рассчитывают, что данные попадают в конвейер уже помеченными, отформатированными и организованными, но системы больших данных обычно принимают и сохраняют данные, стараясь сохранить их исходное состояние. В идеале любые преобразования или изменения необработанных данных будут происходить в памяти во время обработки.

Другие характеристики

Со временем специалисты и организации предложили расширить первоначальные «три V», хотя эти нововведения, как правило, описывают проблемы, а не характеристики больших данных.

  • Veracity (достоверность данных): разнообразие источников и сложность обработки могут привести к проблемам при оценке качества данных (и, следовательно, качества полученного анализа).
  • Variability (изменчивость данных): изменение данных приводит к широким изменениям качества. Для идентификации, обработки или фильтрации данных низкого качества могут потребоваться дополнительные ресурсы, которые смогут повысить качество данных.
  • Value (ценность данных): конечная задача больших данных – это ценность. Иногда системы и процессы очень сложны, что затрудняет использование данных и извлечение фактических значений.

Жизненный цикл больших данных

Итак, как на самом деле обрабатываются большие данные? Существует несколько различных подходов к реализации, но в стратегиях и программном обеспечении есть общие черты.

  • Внесение данных в систему
  • Сохранение данных в хранилище
  • Вычисление и анализ данных
  • Визуализация результатов

Прежде чем подробно рассмотреть эти четыре категории рабочих процессов, поговорим о кластерных вычислениях, важной стратегии, используемой многими средствами для обработки больших данных. Настройка вычислительного кластера является основой технологии, используемой на каждом этапе жизненного цикла.

Кластерные вычисления

Из-за качества больших данных отдельные компьютеры не подходят для обработки данных. Для этого больше подходят кластеры, так как они могут справляться с хранением и вычислительными потребностями больших данных.

Программное обеспечение для кластеризации больших данных объединяет ресурсы многих небольших машин, стремясь обеспечить ряд преимуществ:

  • Объединение ресурсов: для обработки больших наборов данных требуется большое количество ресурсов процессора и памяти, а также много доступного пространства для хранения данных.
  • Высокая доступность: кластеры могут обеспечивать различные уровни отказоустойчивости и доступности, благодаря чему аппаратные или программные сбои не повлияют на доступ к данным и их обработку. Это особенно важно для аналитики в реальном времени.
  • Масштабируемость: кластеры поддерживают быстрое горизонтальное масштабирование (добавление новых машин в кластер).

Для работы в кластере необходимы средства для управления членством в кластере, координации распределения ресурсов и планирования работы с отдельными нодами. Членство в кластерах и распределение ресурсов можно обрабатывать с помощью программ типа Hadoop YARN (Yet Another Resource Negotiator) или Apache Mesos.

Сборный вычислительный кластер часто выступает в качестве основы, с которой для обработки данных взаимодействует другое программное обеспечение. Машины, участвующие в вычислительном кластере, также обычно связаны с управлением распределенной системой хранения.

Получение данных

Прием данных – это процесс добавления необработанных данных в систему. Сложность этой операции во многом зависит от формата и качества источников данных и от того, насколько данные отвечают требованиям для обработки.

Добавить большие данные в систему можно с помощью специальных инструментов. Такие технологии, как Apache Sqoop, могут принимать существующие данные из реляционных БД и добавлять их в систему больших данных. Также можно использовать Apache Flume и Apache Chukwa – проекты, предназначенные для агрегирования и импорта логов приложений и серверов. Брокеры сообщений, такие как Apache Kafka, могут использоваться в качестве интерфейса между различными генераторами данных и системой больших данных. Фреймворки типа Gobblin могут объединить и оптимизировать вывод всех инструментов в конце конвейера.

Во время приема данных обычно проводится анализ, сортировка и маркировка. Этот процесс иногда называют ETL (extract, transform, load), что означает извлечение, преобразование и загрузку. Хотя этот термин обычно относится к устаревшим процессам хранения данных, иногда он применяется и к системам больших данных. среди типичных операций – изменение входящих данных для форматирования, категоризация и маркировка, фильтрация или проверка данных на соответствие требованиям.

В идеале, поступившие данные проходят минимальное форматирование.

Хранение данных

После приема данные переходят к компонентам, которые управляют хранилищем.

Обычно для хранения необработанных данных используются распределенные файловые системы. Такие решения, как HDFS от Apache Hadoop, позволяют записывать большие объемы данных на несколько нод в кластере. Эта система обеспечивает вычислительным ресурсам доступ к данным, может загрузить данные в ОЗУ кластера для операций с памятью и обрабатывать сбои компонентов. Вместо HDFS могут использоваться другие распределенные файловые системы, включая Ceph и GlusterFS.

Данные также можно импортировать в другие распределенные системы для более структурированного доступа. Распределенные базы данных, особенно базы данных NoSQL, хорошо подходят для этой роли, поскольку они могут обрабатывать неоднородные данные. Существует множество различных типов распределенных баз данных, выбор зависит от того, как вы хотите организовывать и представлять данные.

Вычисление и анализ данных

Как только данные будут доступны, система может начать обработку. Вычислительный уровень, пожалуй, является самой свободной частью системы, так как требования и подходы здесь могут значительно отличаться в зависимости от типа информации. Данные часто обрабатываются повторно: с помощью одного инструмента, либо с помощью ряда инструментов для обработки различных типов данных.

Пакетная обработка – это один из методов вычисления в больших наборах данных. Этот процесс включает разбивку данных на более мелкие части, планирование обработки каждой части на отдельной машине, перестановку данных на основе промежуточных результатов, а затем вычисление и сбор окончательного результата. Эту стратегию использует MapReduce от Apache Hadoop. Пакетная обработка наиболее полезна при работе с очень большими наборами данных, для которых требуется довольно много вычислений.

Другие рабочие нагрузки требуют обработки в режиме реального времени. При этом информация должна обрабатываться и готовиться немедленно, и система должна своевременно реагировать по мере поступления новой информации. Одним из способов реализации обработки в реальном времени является обработка непрерывного потока данных, состоящих из отдельных элементов. Еще одна общая характеристика процессоров реального времени – это вычисления данных в памяти кластера, что позволяет избежать необходимости записи на диск.

Apache Storm, Apache Flink и Apache Spark предлагают различные способы реализации обработки в реальном времени. Эти гибкие технологии позволяют подобрать наилучший подход для каждой отдельной проблемы. В общем, обработка в режиме реального времени лучше всего подходит для анализа небольших фрагментов данных, которые меняются или быстро добавляются в систему.

Все эти программы являются фреймворками. Однако есть много других способов вычисления или анализа данных в системе больших данных. Эти инструменты часто подключаются к вышеуказанным фреймворкам и предоставляют дополнительные интерфейсы для взаимодействия с нижележащими уровнями. Например, Apache Hive предоставляет интерфейс хранилища данных для Hadoop, Apache Pig предоставляет интерфейс запросов, а взаимодействия с данными SQL обеспечиваются с помощью Apache Drill, Apache Impala, Apache Spark SQL и Presto. В машинном обучении применяются Apache SystemML, Apache Mahout и MLlib от Apache Spark. Для прямого аналитического программирования, которое широко поддерживается экосистемой данных, используют R и Python.

Визуализация результатов

Часто распознавание тенденций или изменений в данных с течением времени важнее полученных значений. Визуализация данных – один из наиболее полезных способов выявления тенденций и организации большого количества точек данных.

Обработка в реальном времени используется для визуализации метрик приложения и сервера. Данные часто меняются, и большие разлеты в показателях обычно указывают на значительное влияние на состояние систем или организаций. Проекты типа Prometheus можно использовать для обработки потоков данных и временных рядов и визуализации этой информации.

Одним из популярных способов визуализации данных является стек Elastic, ранее известный как стек ELK. Logstash используется для сбора данных, Elasticsearch для индексирования данных, а Kibana – для визуализации. Стек Elastic может работать с большими данными, визуализировать результаты вычислений или взаимодействовать с необработанными метриками. Аналогичный стек можно получить, объединив Apache Solr для индексирования форк Kibana под названием Banana для визуализации. Такой стек называется Silk.

Другой технологией визуализации для интерактивной работы в области данных являются документы. Такие проекты позволяют осуществлять интерактивное исследование и визуализацию данных в формате, удобном для совместного использования и представления данных. Популярными примерами этого типа интерфейса являются Jupyter Notebook и Apache Zeppelin.

Глоссарий больших данных

  • Большие данные – широкий термин для обозначения наборов данных, которые не могут быть корректно обработаны обычными компьютерами или инструментами из-за их объема, скорости поступления и разнообразия. Этот термин также обычно применяется к технологиям и стратегиям для работы с такими данными.
  • Пакетная обработка – это вычислительная стратегия, которая включает обработку данных в больших наборах. Обычно этот метод идеально подходит для работы с несрочными данными.
  • Кластеризованные вычисления – это практика объединения ресурсов нескольких машин и управления их общими возможностями для выполнения задач. При этом необходим уровень управления кластером, который обрабатывает связь между отдельными нодами.
  • Озеро данных – большое хранилище собранных данных в относительно сыром состоянии. Этот термин часто используется для обозначения неструктурированных и часто меняющихся больших данных.
  • Добыча данных – это широкий термин для обозначения разных практик поиска шаблонов в больших наборах данных. Это попытка организовать массу данных в более понятный и связный набор информации.
  • Хранилище данных (data warehouse) — это большое, упорядоченное хранилище для анализа и отчетности. В отличие от озера данных хранилище состоит из отформатированных и хорошо упорядоченных данных, интегрированных с другими источниками. Хранилища данных часто упоминаются в отношении больших данных, но часто они являются компонентами обычных систем обработки данных.
  • ETL (extract, transform, и load) – извлечение, преобразование и загрузка данных. Так выглядит процесс получения и подготовки необработанных данных к использованию. Он связан с хранилищами данных, но характеристики этого процесса также обнаруживаются в конвейерах систем больших данных.
  • Hadoop – это проект Apache с открытым исходным кодом для больших данных. Он состоит из распределенной файловой системы под названием HDFS и планировщика кластеров и ресурсов, который называется YARN. Возможности пакетной обработки предоставляются механизмом вычисления MapReduce. Вместе с MapReduce в современных развертываниях Hadoop можно запускать другие вычислительные и аналитические системы.
  • Вычисления в памяти – это стратегия, которая предполагает полное перемещение рабочих наборов данных в память кластера. Промежуточные вычисления не записываются на диск, вместо этого они хранятся в памяти. Это дает системам огромное преимущество в скорости по сравнению с системами, связанными с I/O.
  • Машинное обучение – это исследование и практика проектирования систем, которые могут учиться, настраиваться и улучшаться на основе передаваемых им данных. Обычно под этим подразумевают реализацию прогнозирующих и статистических алгоритмов.
  • Map reduce (не путать с MapReduce от Hadoop) – это алгоритм планирования работы вычислительного кластера. Процесс включает в себя разделение задачи между нодами и получение промежуточных результатов, перетасовку и последующий вывод единого значения для каждого набора.
  • NoSQL – это широкий термин, обозначающий базы данных, разработанные вне традиционной реляционной модели. Базы данных NoSQL хорошо подходят для больших данных благодаря их гибкости и распределенной архитектуре.
  • Потоковая обработка – это практика вычисления отдельных элементов данных при их перемещении по системе. Это позволяет анализировать данные в режиме реального времени и подходит для обработки срочных операций с использованием высокоскоростных метрик.
Tags: ,

Big Data – англ. «большие данные». Термин появился как альтернатива СУБД и стал одним из основных трендов IT-инфраструктуры, когда большинство гигантов индустрии – IBM, Microsoft, HP, Oracle и другие начали использовать это понятие в своих стратегиях. Под Big Data понимают огромный (сотни терабайт) массив данных, который нельзя обработать традиционными способами; иногда – инструменты и методы обработки этих данных.

Примеры источников Big Data: события RFID, сообщения в соцсетях, метеорологическая статистика, информация о местонахождении абонентов сетей мобильной сотовой связи и данные с устройств аудио-/видеорегистрации. Поэтому «большие данные» широко используются на производстве, в здравоохранении, госуправлении, интернет-бизнесе – в частности, при анализе целевой аудитории.

Характеристика

Признаки big data определяются как «три V»: Volume – объем (действительно большие); variety – разнородность, множество; velocity – скорость (необходимость очень быстрой обработки).

Большие данные чаще всего неструктурированные, и для их обработки нужны особые алгоритмы. Кметодам анализа больших данных относятся:

  • («добыча данных») – комплекс подходов для обнаружения скрытых полезных знаний, которые не могут быть получены стандартными способами;
  • Crowdsourcing (crowd — «толпа», sourcing – использование в качестве источника) – решение значимых задач общими усилиями добровольцев, не состоящих в обязательном трудовом договоре и отношениях, координирующих деятельность при помощи инструментов IT;
  • Data Fusion & Integration («смешение и внедрение данных») – набор методов для соединения множества источников в рамках проведения глубокого анализа;
  • Machine Learning («машинное обучение») – подраздел исследований искусственного интеллекта, изучающий методы использования анализа статистики и получения прогнозов на основе базовых моделей;
  • распознавание образов (например, распознавание лиц в видоискателе фотоаппарата или видеокамеры);
  • пространственный анализ – использование топологии, геометрии и географии для построения данных;
  • визуализация данных – вывод аналитической информации в виде иллюстраций и диаграмм при помощи интерактивных инструментов и анимации для отслеживания результатов и построения фундамента дальнейшего мониторинга.

Хранение и анализ информации осуществляется на большом количестве серверов высокой производительности. Ключевой технологией является Hadoop, с открытым исходным кодом.

Так как количество информации со временем будет только увеличиваться, то сложность состоит не в том, чтобы получить данные, а в том как их обработать с максимальной пользой. В целом, процесс работы с Big Data включает в себя: сбор информации, ее структурирование, создание инсайтов и контекстов, разработка рекомендаций к действию. Еще до первого этапа важно четко определить цель работы: для чего именно нужны данные, к примеру – определение целевой аудитории продукта. Иначе есть риск получить массу сведений без понимания о том, как конкретно их можно использовать.

В свое время я услышал термин “Big Data” от Германа Грефа (глава Сбербанка). Мол, они сейчас у себя активно работают над внедрением, потому что это поможет им сократить время работы с каждым клиентом.

Второй раз я столкнулся с этим понятием в интернет-магазине клиента, над которым мы работали и увеличивали ассортимент с пары тысяч до пары десятков тысяч товарных позиций.

Третий раз, когда увидел, что в Yandex требуется аналитик big data. Тогда я решил поглубже разобраться в этой теме и заодно написать статью, которая расскажет, что это за термин такой, который будоражит умы ТОП-менеджеров и интернет-пространство.

Что это такое

Обычно любую свою статью я начинаю с пояснения, что же это за термин такой. Эта статья не станет исключением.

Однако, это вызвано прежде всего не желанием показать, какой я умный, а тем, что тема по-настоящему сложная и требует тщательного пояснения.

К примеру, Вы можете почитать что такое big data в Википедии, ничего не понять, а потом вернуться в эту статью, чтобы все-таки разобраться в определении и применимости для бизнеса. Итак, начнём с описания, а потом к примерам для бизнеса.

Big data это большие данные. Удивительно, да? Реально, с английского это переводится как “большие данные”. Но это определение, можно сказать, для чайников.

Технология big data – это подход/метод обработки большего числа данных для получения новой информации, которые тяжело обработать обычными способами.

Данные могут быть как обработанными (структурированными), так и разрозненными (то есть неструктурированными).

Сам термин появился относительно недавно. В 2008 году в научном журнале этот подход предсказывался, как нечто необходимое для работы с большим объемом информации, которая увеличивается в геометрической прогрессии.

К примеру, ежегодно информация в интернете, которую нужно хранить, ну и само собой обрабатывать, увеличивается на 40%. Еще раз: +40% каждый год появляется в интернете новой информации.

Если распечатанные документы понятны и способы обработки их тоже понятны (перенести в электронный вид, сшить в одну папку, пронумеровать), то что делать с информацией, которая представлена в совершенно других “носителях” и других объёмах:

  • Интернет-документы;
  • Блоги и социальные сети;
  • Аудио/видео источники;
  • Измерительные устройства.

Есть характеристики, которые позволяют отнести информацию и данные именно к big data. То есть не все данные могут быть пригодны для аналитики. В этих характеристиках как раз и заложено ключевое понятие биг дата. Все они умещаются в три V.

  1. Объем (от англ. volume). Данные измеряются в величине физического объема “документа”, подлежащего анализу;
  2. Скорость (от англ. velocity). Данные не стоят в своем развитии, а постоянно прирастают, именно поэтому и требуется их быстрая обработка для получения результатов;
  3. Многообразие (от англ. variety). Данные могут быть не одноформатными. То есть могут быть разрозненными, структурированным или структурированными частично.

Однако, периодически к VVV добавляют и четвертую V (veracity - достоверность/правдоподобность данных) и даже пятую V (в некоторых вариантах это – viability - жизнеспособность, в других же это – value - ценность).

Где-то я видел даже 7V, которые характеризуют данные, относящиеся к биг дата. Но на мой взгляд это из серии (где периодически добавляются P, хотя для понимания достаточно начальных 4-х).

НАС УЖЕ БОЛЕЕ 29 000 чел.
ВКЛЮЧАЙТЕСЬ

Кому это нужно

Встает логичный вопрос, как можно использовать информацию (если что, биг дата это сотни и тысячи терабайт)?

Даже не так. Вот есть информация. Так для чего придумали тогда биг дата? Какое применение у big data в маркетинге и в бизнесе?

  1. Обычные базы данных не могут хранить и обрабатывать (я сейчас говорю даже не про аналитику, а просто хранение и обработку) огромного количества информации.
    Биг дата же решает эту главную задачу. Успешно хранит и управляет информацией с большим объемом;
  2. Структурирует сведения, приходящие из различных источников (видео, изображений, аудио и текстовых документов), в один единый, понятный и удобоваримый вид;
  3. Формирование аналитики и создание точных прогнозов на основании структурированной и обработанной информации.

Это сложно. Если говорить просто, то любой маркетолог, который понимает, что если изучить большой объем информации (о Вас, Вашей компании, Ваших конкурентах, Вашей отрасли), то можно получить очень приличные результаты:

  • Полное понимание Вашей компании и Вашего бизнеса со стороны цифр;
  • Изучить своих конкурентов. А это, в свою очередь, даст возможность вырваться вперед за счет преобладания над ними;
  • Узнать новую информацию о своих клиентах.

И именно потому, что технология big data дает следующие результаты, все с ней и носятся. Пытаются прикрутить это дело в свою компанию, чтобы получить увеличение продаж и уменьшение издержек. А если конкретно, то:

  1. Увеличение кросс продаж и дополнительных продаж за счет лучшего знания предпочтений клиентов;
  2. Поиск популярных товаров и причин почему их покупают (и наоборот);
  3. Усовершенствование продукта или услуги;
  4. Улучшение уровня обслуживания;
  5. Повышение лояльности и клиентоориентированности;
  6. Предупреждение мошенничества (больше актуально для банковской сферы);
  7. Снижение лишних расходов.

Самый распространенный пример, который приводится во всех источниках – это, конечно ж, компания Apple, которая собирает данные о своих пользователях (телефон, часы, компьютер).

Именно из-за наличия эко-системы корпорация столько знает о своих пользователях и в дальнейшем использует это для получения прибыли.

Эти и другие примеры использования Вы можете прочитать в любой другой статье кроме этой.

Современный пример

Я же Вам расскажу о другом проекте. Вернее о человеке, который строит будущее, используя big data решения.

Это Илон Маск и его компания Tesla. Его главная мечта – сделать автомобили автономными, то есть Вы садитесь за руль, включаете автопилот от Москвы до Владивостока и… засыпаете, потому что Вам совершенно не нужно управлять автомобилем, ведь он все сделает сам.

Казалось бы, фантастика? Но нет! Просто Илон поступил гораздо мудрее, чем Google, которые управляют автомобилями с помощью десятков спутников. И пошел другим путем:

  1. В каждый продаваемый автомобиль ставится компьютер, который собирают всю информацию.
    Всю – это значит вообще всю. О водителе, стиле его вождения, дорогах вокруг, движении других автомобилей. Объем таких данных доходит до 20-30 ГБ в час;
  2. Далее эта информация по спутниковой связи передается в центральный компьютер, который занимается обработкой этих данных;
  3. На основе данных big data, которые обрабатывает данный компьютер, строится модель беспилотного автомобиля.

К слову, если у Google дела идут довольно скверно и их автомобили все время попадают в аварии, то у Маска, за счет того, что идет работа с big data, дела обстоят гораздо лучше, ведь тестовые модели показывают очень неплохие результаты.

Но… Это все из экономики. Что мы все о прибыли, да о прибыли? Многое, что может решить биг дата, совершенно не связано с заработком и деньгами.

Статистика Google, как раз таки основанная на big data, показывает интересную вещь.

Перед тем, как медики объявляют о начале эпидемии заболевания в каком-то регионе, в этом регионе существенно возрастает количество поисковых запросов о лечении данного заболевания.

Таким образом, правильное изучение данных и их анализ может сформировать прогнозы и предсказать начало эпидемии (и, соответственно, ее предотвращение) гораздо быстрее, чем заключение официальных органов и их действия.

Применение в России

Однако Россия как всегда немного притормаживает. Так, само определение big data в России появилось не более, чем 5 лет назад (я сейчас именно про обычные компании).

И это не смотря на то, что это один из самых быстрорастущих рынков в мире (наркотики и оружие нервно курят в сторонке), ведь ежегодно рынок программного обеспечения для сбора и анализа big data прирастает на 32%.

Чтобы охарактеризовать рынок big data в России, мне вспоминается одна старая шутка. Биг дата это как секс до 18 лет. Все об этом говорят, вокруг этого много шумихи и мало реальных действий, и всем стыдно признаться, что сами-то они этим не занимаются. И правда, вокруг этого много шумихи, но мало реальных действий.

Хотя известная исследовательская компания Gartner уже в 2015 году объявила, что биг дата уже не возрастающий тренд (как, кстати, и искусственный интеллект), а вполне самостоятельные инструменты для анализа и развития передовых технологий.

Наиболее активные ниши, где применяется big data в России, это банки/страхование (недаром я начал статью с главы Сбербанка), телекоммуникационная сфера, ритейл, недвижимость и… государственный сектор.

Для примера расскажу более подробно о паре секторов экономики, которые используют алгоритмы big data.

1. Банки

Начнём с банков и той информации, которую они собирают о нас и наших действиях. Для примера я взял ТОП-5 российских банков, которые активно инвестируют в big data:

  1. Сбербанк;
  2. Газпромбанк;
  3. ВТБ 24;
  4. Альфа Банк;
  5. Тинькофф банк.

Особенно приятно видеть в числе российских лидеров Альфа Банк. Как минимум, приятно осознавать, что банк, официальным партнером которого ты являешься, понимает необходимость внедрения новых маркетинговых инструментов в свою компанию.

Но примеры использования и удачного внедрения big data я хочу показать на банке, который мне нравится за нестандартный взгляд и поступки его основателя.

Я говорю про Тинькофф банк. Их главной задачей стояла разработка системы для анализа больших данных в режиме реального времени из-за разросшейся клиентской базы.

Результаты : время внутренних процессов сократилось минимум в 10 раз, а для некоторых – более, чем в 100 раз.

Ну и небольшое отвлечение. Знаете, почему я заговорил про нестандартные выходки и поступки Олега Тинькова? Просто на мой взгляд именно они помогли ему превратиться из бизнесмена средней руки, коих тысячи в России, в одного из самых известных и узнаваемых предпринимателей. В подтверждение посмотрите это необычное и интересное видео:

2. Недвижимость

В недвижимости все гораздо сложнее. И это именно тот пример, который я хочу Вам привести для понимания биг даты в пределах обычного бизнеса. Исходные данные:

  1. Большой объем текстовой документации;
  2. Открытые источники (частные спутники, передающие данные об изменениях земли);
  3. Огромный объем неконтролируемой информации в Интернет;
  4. Постоянные изменения в источниках и данных.

И на основе этого нужно подготовить и оценить стоимость земельного участка, например, под уральской деревней. У профессионала на это уйдет неделя.

У Российского общества оценщиков & РОСЭКО, собственно которые и внедрили себе анализ big data с помощью программного обеспечения, уйдет на это не более 30 минут неторопливой работы. Сравните, неделя и 30 минут. Колоссальная разница.

Инструменты создания

Конечно же огромные объемы информации не могут храниться и обрабатываться на простых жестких дисках.

А программное обеспечение, которое структурирует и анализирует данные – это вообще интеллектуальная собственность и каждый раз авторская разработка. Однако, есть инструменты, на основе которых создается вся эта прелесть:

  • Hadoop & MapReduce;
  • NoSQL базы данных;
  • Инструменты класса Data Discovery.

Если честно, я не смогу Вам внятно объяснить, чем они отличаются друг от друга, так как знакомству и работе с этими вещами учат в физико-математических институтах.

Зачем тогда я об этом заговорил, если не смогу объяснить? Помните, во всех кино грабители заходят в любой банк и видят огромное число всяких железяк, подключенных к проводам? То же самое и в биг дате. К примеру, вот модель, которая является на данный момент одним из лидеров на рынке.

Инструмент Биг дата

Стоимость в максимальной комплектации доходит до 27 миллионов рублей за стойку. Это, конечно, люксовая версия. Я это к тому, чтобы Вы заранее примерили создание big data в своем бизнесе.

Коротко о главном

Вы можете спросить, зачем же Вам, малому и среднему бизнесу работа с биг дата?

На это я отвечу Вам цитатой одного человека: “В ближайшее время клиентами будут востребованы компании, которые лучше понимают их поведение, привычки и максимально соответствуют им”.

Но давайте взглянем правде в глаза. Чтобы внедрить биг дата в малом бизнесе, это надо обладать не только большими бюджетами на разработку и внедрение софта, но и на содержание специалистов, хотя бы таких как аналитик big data и сисадмин.

И это я сейчас молчу о том, что у Вас должны быть такие данные для обработки.

Окей. Для малого бизнеса тема почти не применима. Но это не значит, что Вам нужно забыть все, что прочитали выше. Просто изучайте не свои данные, а результаты аналитики данных известных как зарубежных, так и российских компаний.

К примеру, розничная сеть Target с помощью аналитики по big data выяснила, что беременные женщины перед вторым триместром беременности (с 1-й по 12-ю неделю беременности) активно скупают НЕароматизированные средства.

Благодаря этим данным они отправляют им купоны со скидками на неароматизированные средства с ограниченным сроком действия.

А если Вы ну прям совсем небольшое кафе, к примеру? Да очень просто. Используйте приложение лояльности. И через некоторое время и благодаря накопленной информации, Вы сможете не только предлагать клиентам релевантные их потребностям блюда, но и увидеть самые непродающиеся и самые маржинальные блюда буквально парой щелчков мышки.

Отсюда вывод. Внедрять биг дата малому бизнесу вряд ли стоит, а вот использовать результаты и наработки других компаний – обязательно.

Мы регулярно натыкаемся на модные слова и определения, смысл которых нам интуитивно вроде бы понятен, но четкой картины того, что это все-таки за штука и как она работает, у нас нет.

Одним из таких понятий является Big Data, в русском языке иногда можно встретить буквальный перевод - «большие данные», но чаще люди говорят и пишут как есть: Big Data. Все наверняка слышали или, по крайней мере, встречали это словосочетание в интернете, и оно вроде бы несложное, но что конкретно имеется в виду, далеким от тонкостей диджитал-мира офисным гуманитариям понятно не всегда.

Отличной попыткой восполнить этот пробел в мозгах самого широкого круга пользователей является статья одного из наших любимых авторов Бернарда Марра , которая так и называется «Что такое Big Data? Суперпростое объяснение для каждого» . Без заумного жаргона с единственной целью объяснить ключевые идеи этого феномена для каждого вне зависимости от образования и сферы деятельности.

На самом деле последние несколько лет мы уже живем в мире, насквозь пронизанном Big Data, но продолжаем путаться в понимании того, что же это все-таки такое. Отчасти это происходит и потому, что сама по себе концепция Big Data постоянно трансформируется и переосмысляется, потому что мир высоких технологий и обработки больших массивов информации очень быстро меняется, включая в себя все новые и новые опции. А объем этой информации постоянно растет.

Итак, что значит Big Data - 2017?

Все началось со взрывным ростом количества данных, которые мы создаем с начала цифровой эры. Это стало возможным в основном благодаря росту числа и мощности компьютеров, расширению интернета и развитию технологий, способных захватывать информацию из реального, физического мира, в котором все мы живем, и конвертировать ее в цифровые данные.

В 2017-м мы производим данные, когда заходим в интернет, когда пользуемся нашими укомплектованными GPS-смартфонами, когда общаемся с друзьями в соцсетях, скачиваем мобильные приложения или музыку, когда совершаем покупки.

Можно сказать, что мы оставляем за собой множество цифровых следов, что бы мы ни делали, если наши действия включают в себя какие-либо цифровые транзакции. То есть уже почти всегда и везде.

Помимо этого, с огромной скоростью растет количество данных, сгенерированных самими машинами. Данные создаются и передаются, когда наши умные девайсы коммуницируют друг с другом. Производственные предприятия по всему миру оснащаются оборудованием, которое денно и нощно собирает и передает данные.

В ближайшем будущем наши улицы будут заполнены самоуправляемыми автомобилями, самостоятельно прокладывающими маршруты на основе четырехмерных карт, данные которых генерируются в режиме реального времени.

Что может Big Data?

Бесконечно растущий поток сенсорной информации, фотографий, текстовых сообщений, аудио- и видеоданных лежит в основе Big Data, которые мы можем использовать так, как невозможно было даже представить себе несколько лет назад.

Прямо сейчас основанные на Big Data проекты помогают:

- Лечить болезни и предотвращать рак . Основанная на использовании Big Data медицина анализирует огромное количество медицинских записей и снимков, что делает возможным очень раннюю диагностику и способствует созданию новых методов лечения.

- Бороться с голодом . Сельское хозяйство переживает настоящую революцию Big Data, которая позволяет использовать ресурсы так, чтобы максимально увеличить урожайность при минимальном вмешательстве в экосистему и оптимизировать использование машин и оборудования.

- Открывать далекие планеты . НАСА, к примеру, анализирует огромное количество данных и выстраивает с их помощью модели будущих миссий в далекие миры.

- Предсказывать чрезвычайные ситуации различной природы и минимизировать возможный ущерб. Данные многочисленных сенсоров могут предсказать, где и когда произойдет следующее землетрясение или возможное поведение людей в чрезвычайной ситуации, что повышает шансы на выживание.

- Предотвращать преступления за счет использования технологий, которые позволяют более эффективно распределять ресурсы и направлять их туда, где они наиболее необходимы.

И самое близкое большинству из нас: Big Data делает жизнь обычного человека проще и удобнее - это и онлайн-шопинг, и планирование поездок, и навигация в условиях мегаполиса.

Выбрать лучшее время для покупки авиабилетов и решить, какой фильм или сериал посмотреть, стало гораздо легче именно благодаря работе Big Data.

Как это работает?

Big Data работает на принципе: чем больше вы знаете о чем-либо, тем точнее вы можете предсказать, что случится в будущем. Сравнение отдельных данных и отношений между ними (речь идет об огромном количестве данных и невероятно большом количестве возможных связей между ними) позволяет обнаружить ранее скрытые закономерности. Это дает возможность заглянуть внутрь проблемы и в конечном итоге понимание того, как мы можем управлять тем или иным процессом.

Чаще всего процесс обработки больших объемов информации включает в себя построение моделей, базирующихся на собранных данных, и запуск симуляций, в процессе которого постоянно меняются ключевые настройки, при этом каждый раз система мониторит, как «смена настроек» влияет на возможный результат.

Этот процесс полностью автоматизирован, ведь речь идет об анализе миллионов симуляций, перебора всех возможных вариантов вплоть до того момента, пока паттерн (нужная схема) не будет найден или пока не случится «просветление», что поможет решить задачу, ради которой все и затевалось.

В отличие от привычного нам мира предметов и вычислений, данные принимаются в неструктурированной форме, то есть их сложно засунуть в привычные нам, людям, таблицы с ячейками и столбиками. Огромное количество данных передается как изображения или видео: от спутниковых снимков до селфи, которые вы постите в инстаграм или фейсбук, - так же, как записи в email и мессенджер или телефонные звонки.

Чтобы придать всему этому бесконечному и разношерстному потоку данных практический смысл, Big Data часто использует самые передовые технологии анализа, которые включают в себя искусственный интеллект и машинное обучение (это когда программа в компьютере обучает другие программы).

Компьютеры сами обучаются определять, что представляет та или иная информация - например, распознавать изображения, язык, - и они могут делать это намного быстрее, чем люди.

Большой брат?

Пропорционально беспрецедентным возможностям, которые дает нам сегодня Big Data, растет количество опасений и вопросов, связанных с ее использованием.

НЕПРИКОСНОВЕННОСТЬ ЛИЧНЫХ ДАННЫХ. Big Data собирает огромное количество информации о нашей частной жизни. Очень много информации, которую мы предпочли бы сохранить в тайне.

БЕЗОПАСНОСТЬ. Даже если мы решили, что в передаче всех наших персональных данных машине ради какой-то конкретной, выгодной нам цели нет ничего страшного, можем ли мы быть уверены, что наши данные хранятся в безопасном месте?
Кто и как может нам это гарантировать?

ДИСКРИМИНАЦИЯ. Когда все известно, допустимо ли подвергать людей дискриминации на основании того, что о них известно благодаря Big Data? Банки используют кредитную историю, а страховые компании определяют стоимость автостраховки, исходя из того, что они знаю о вас. Как далеко это может зайти?

Можно предположить, что ради минимизации рисков компании, государственные органы и даже частные лица будут использовать то, что они могут узнать о нас, и по каким-то соображениям ограничивать нам доступ к ресурсам и информации.

При всех преимуществах мы должны признать, что все эти опасения также являются неотъемлемой частью Big Data. До последнего времени над ответами ломали голову ученые, но сейчас пришло время, когда волна докатилась до бизнеса, который хочет использовать преимущества Big Data в своих целях. А это может быть чревато в том числе и катастрофическими последствиями.



Рекомендуем почитать

Наверх