Big Data: основные понятия

Big Data: основные понятия

В этой статье мы расскажем о том, что такое Big Data, какие существуют основные свойства и проблемы в больших данных, как их хранят, собирают, обрабатывают и анализируют.

Раньше компании анализировали относительно небольшие наборы упорядоченных данных, хранящихся в корпоративных базах. Сейчас появляются технологии для сбора и обработки потоков неупорядоченной информации в онлайн-режиме. Такой информацией может быть все, что угодно, от текста до информации с датчиков.

Объемы данных огромны, а скорость поступления настолько высока, что привычные средства хранения и аналитики с ними не справляются. Например, ежеминутно на YouTube загружается 500 часов видеороликов. Для эффективной работы с такими данными нужны новые технологии и подходы вроде Hadoop, Spark, NoSQL баз данных.

Начнем с определения...

Что такое Большие данные

Большие данные (англ. Big Data) — это термин, обозначающий огромные неупорядоченные объемы данных, которые постоянно с огромной скоростью генерируются из множества источников.

Главная цель Big Data — извлечение ценности и знаний из данных, а не просто хранение.

Свойства и особенности

Big Data кардинально отличаются от традиционных структурированных данных.  Давайте узнаем об их особенностях поближе:

  • Большие объемы данных измеряются в терабайтах, петабайтах или даже экзабайтах. Это связано с постоянным ростом данных, генерируемых пользователями, датчиками и другими источниками.
  • Необходима высокая скорость обработки данных в реальном времени или с минимальными задержками: процесс обработки и анализа должен быть масштабируемым и способным обрабатывать данные на высоких скоростях.
  • Разнообразие поступающих данных происходит из-за того, что они загружаются с различных источников, таких как социальные сети, сенсоры Интернета Вещей и веб-сайты. Они могут иметь различную природу — тексты, изображения, аудио, видео или иные показатели. Также они бывают структурированными, полуструктурированными и неструктурированными.
  • Необходима проверка подлинности данных для обеспечения целостности и точности данных, а также избежания подделки или изменения данных.
  • Требуются сложные алгоритмы и инструменты такие, как машинное обучение и искусственный интеллект для обнаружения и анализа сложных связей, шаблонов или трендов, так как традиционным методам это не под силу.

* Для работы с большими данными необходимо пройти множество этапов: сбор, хранение, обработку, анализ и использование. На каждом этапе применяются свои технологии и инструменты.

Сбор больших данных

Сбор Big Data — это процесс извлечения информации из многих источников и передачи их в систему хранения.

Источники данных

  • Интернет: глобальная сеть содержит огромный объем информации в виде сайтов, блогов, почты, чатов, видео и другого контента.
  • Мобильные устройства: смартфоны и планшеты генерируют данные о звонках, сообщениях, фото, видео, геолокации, использовании приложений.
  • Различные приборы: данные поступают от многочисленных датчиков и сенсоров, которые с высокой точностью измеряют температуру, давление, влажность, освещенность, звук и другие физические параметры.
  • Медицинская техника: предоставляющая данные анализов, снимков, электрокардиограмм, томографии для диагностики и лечения.
  • Спутники: они делают снимки и карты Земли, а также собирают данные о других космических объектах
  • А также социальные сети, видеокамеры, умные дома и автомобили.

Для сбора информации из этих источников используются специальные программы, которые называются краулерами (crawlers), парсерами (parsers), скраперами (scrapers) или коллекторами (collectors). Эти программы способны автоматически обходить веб-страницы, извлекать нужную информацию, преобразовывать ее в нужный формат и отправлять ее в систему хранения.

* Поисковые системы, такие как Google или Bing, используют краулеры для индексации содержимого интернета.

Для передачи данных в систему хранения существуют специальные протоколы и форматы данных, которые обеспечивают высокую скорость и надежность передачи.

Например, для передачи потоковых данных применяются протоколы, такие как Apache Kafka или Amazon Kinesis, а для передачи пакетных данных используются форматы, такие как Apache Avro или Apache Parquet.

При извлечении данных важно учитывать

  • Тип и формат данных: текст, изображение, видео или что-то другое. Для каждого типа подходят свои методы сбора и обработки
  • Доступность данных: открытые или закрытые. Нужно соблюдать правила и ограничения на использование
  • Разрешение: выбирать оптимальное качество данных для анализа
  • Частоту и объем поступления данных: подбор подходящих протоколов и форматов передачи данных.

Учет всех этих факторов позволит максимально эффективно извлечь данные из первоисточников для дальнейшего анализа и использования. Это критически важный этап работы с big data.

Хранение

Хранение больших объемов данных — сложная задача, требующая тщательно продуманного подхода. Традиционные реляционные базы данных не подходят для работы огромными массивами информации, поскольку не масштабируются и не отвечают требованиям по продуктивности и гибкости. Чтобы решить данную проблему, применяют специализированные системы, такие как:

  • NoSQL базы данных. Они используют нестандартные модели данных, оптимизированные для высокой производительности и масштабируемости. Они позволяют гибко структурировать данные и обрабатывать огромные массивы информации в режиме реального времени.

* Примеры популярных NoSQL баз данных: MongoDB, Cassandra, Redis.

  • Распределенные файловые системы. Эти системы предназначены для надежного хранения информации на кластерах из сотен и тысяч серверов. Они обеспечивают высокую доступность данных за счет репликации и балансировки нагрузки.

* Наиболее известные распределенные файловые системы: HDFS, Google File System.

Также для хранения Big Data активно используются облачные решения, такие как Amazon S3, Google Cloud Storage, Azure Blob Storage. Они предоставляют практически неограниченное хранилище по модели оплаты по мере использования и избавляют от необходимости закупать и обслуживать дорогостоящее оборудование.

Обработка

Перед проведением анализа данных необходимо выполнить процесс подготовки данных для того, чтобы устранить шум, исправить ошибки и привести данные в удобный для анализа формат. Обработка больших данных включает в себя следующие этапы:

  1. Очистка — удаление лишних, ошибочных или некорректных данных. Устранение дубликатов, пропусков, шумов.
  2. Интеграция — объединение данных из разных источников в единый набор. Соединение таблиц, приведение к одному формату.
  3. Трансформация — изменение формы или содержания данных. Происходит фильтрация, сортировка, группировка, вычисление новых значений.
  4. Редукция — сокращение объема данных за счет удаления или сжатия избыточной информации.
  5. Агрегация — обобщение данных путем вычисления итогов по группам. Подсчет средних, минимумов, максимумов, сумм.

Для реализации этих этапов применяются специальные технологии и инструменты: Hadoop, Spark, Hive и Pig, а также параллельные вычисления, распределенные вычисления, потоковая обработка, облачные вычисления и другие технологии.

Качественная обработка — залог успешного анализа big data!

Анализ

Как на самом деле происходит анализ больших данных

Аналитика больших данных (Big Data Analytics) — это процесс извлечения полезных знаний из огромных массивов информации при помощи специальных технологий. Цель — выявить закономерности, тенденции, корреляции, прогнозы.

* Как же анализируют большие данные?..

Существует четыре типа анализа

  • Описательная аналитика показывает общую картину в данных. Использует статистику для подсчета, измерения, визуализации. Помогает увидеть основные характеристики наборов данных.
  • Диагностическая аналитика выявляет причины явлений в данных. Определяет факторы, влияющие на результаты или поведение систем. Помогает найти корень проблем.
  • Предиктивная аналитика прогнозирует будущее на основе прошлого и настоящего. Использует машинное обучение для построения моделей и выработки прогнозов по новым данным.
  • Прескриптивная аналитика предлагает оптимальные решения и действия для достижения нужного результата. Применяет методы оптимизации и поиска лучших вариантов.

Использование Big Data

Если вы захотите узнать, где, зачем и для чего используют эту технологию, то переходите по этой ссылке. Там же вы узнаете, в каких профессиях вам пригодится навык работы с Большими данными, и в чем разница между Big Data и Data Science.

Проблемы больших данных

Наряду с очевидной пользой, большие данные несут и серьезные риски для человека и общества.

Одна из главных опасностей — нарушение приватности из-за несовершенности алгоритмов, а также из-за сбора и анализа личной информации без явного согласия пользователя.  Так работают многие ИТ-гиганты вроде Facebook и Google. Это чревато утечкой или злоупотреблением данными. Иногда компании намеренно нарушают приватность пользователей и перепродают данные другим организациям. Но чаще всего они просто халатно относятся к своим обязательствам.

* Недавно Великобритания оштрафовала TikTok (сервис для просмотра и создания коротких видео) на £12,7 млн за многочисленные нарушения закона о защите данных, в том числе за использование личных данных детей без согласия родителей.

Еще один риск — проблемы кибербезопасности, связанные с хакерскими атаками на хранилища данных. Это грозит потерей, искажением или утечкой информации.

* Например, в августе 2023 года злоумышленники слили персональные данные почти 3 млн клиентов сервиса для изучения иностранных языков Duolingo.

Еще один вызов — проблемы этики при использовании big data в неблаговидных, несправедливых или вредных целях: для дискриминации, манипулирования, тотального контроля. Это нарушает права и свободы человека.

* Советуем прочитать на эту тему книгу Дарелла Хаффа «Как лгать при помощи статистики».

Опасность представляет низкое качество данных из-за шумов, неполноты, противоречий. К примеру, интернет-данные могут содержать ошибки, фейки, спам. Это приводит к искажению аналитики и решений.

Для снижения рисков необходимы меры защиты данных: шифрование, аудит, анонимизация; соблюдение этических и правовых норм при работе с big data. Ключевыми принципами являются прозрачность, ответственность, справедливость, согласие пользователя.
Софья Пирогова

Софья Пирогова

Главный редактор / Автор статей
Георгий Бабаян

Георгий Бабаян

Основатель и CEO Эльбрус Буткемп