17 окт. 2024 г. Время чтения: Около 7 мин. Data Science

Обнаружение мошенничества с помощью Data Science

Рост онлайн-коммерции и цифрового банкинга создал благодатную почву для мошенников. Чтобы защитить данные клиентов и их средства, компаниям необходимы современные системы анализа данных для выявления и предотвращения хищений.

Современные технологии, которые двигают бизнес вперед, одновременно открывают огромные возможности для злоумышленников. Они активно используют их для кражи интеллектуальной собственности, уклонения от налогов, хищения конфиденциальных данных и денежных средств клиентов. Это наносит колоссальный ущерб экономике и репутации компаний. Фирмы несут огромные финансовые потери, теряют доверие клиентов и партнеров. Возникают конфликты между игроками рынка. Всё это подрывает основы цифровой экономики.

В этой статье мы расскажем про Data Science технологии, которые позволяют в режиме реального времени выявлять подозрительные транзакции, распознавать мошеннические схемы на ранних стадиях их реализации.

Как машинное обучение способствует обнаружению мошенничества

Машинное обучение критически важно для своевременного обнаружения и предотвращения хищений при использовании банковских карт, в страховании, бухучете и других сферах. Особенно это актуально для банковской безопасности. Чем раньше выявлено мошенничество, тем быстрее можно заблокировать доступ к счетам и минимизировать ущерб. Внедряя аналитические системы, финансовые организации получают необходимую защиту. Процесс выявления подозрительных действий включает в себя:

Получение и подготовку обучающих данных.
Построение и тестирование моделей.
Развертывание модели в рабочей среде.

Поскольку данные всегда уникальны, каждый случай требует индивидуальной настройки аналитиками. Это предполагает глубокие знания методов интеллектуального анализа: кластеризации, классификации, прогнозной аналитики.

Например, система может выявлять подозрительные крупные транзакции по новым счетам, приостанавливать их до подтверждения владельцем. Также она способна распознавать группы новых аккаунтов со схожими признаками.

Получение выборок данных для оценки модели и предварительного тестирования

Создание выборок происходит в несколько этапов:

Сбор данных. Для того чтобы построить эффективную модель машинного обучения для обнаружения мошенничества, крайне важно собрать репрезентативные данные. Эти данные должны включать как примеры подлинных, так и мошеннических транзакций или действий. Прежде всего, необходимо определиться с источниками данных. Это могут быть базы транзакций, логи информационных систем или отчеты о мошеннических случаях. Важно охватить максимально длительный период, чтобы данные отражали различные тренды и сезонности.
Предобработка данных. Данные проходят такие этапы, как восстановление пропущенных значений, удаление дубликатов и аномалий, разрешение противоречий.
Формирование двух выборок: обучающей и тестовой. Модель будет обучаться на первой выборке, а ее качество оцениваться на второй.

Очень важно, чтобы обе выборки были сбалансированы по количеству случаев мошенничества и обычных транзакций. Иначе модель будет давать смещенные прогнозы. Кроме того, часть данных желательно отложить для финального тестирования уже обученной модели перед внедрением.

Такой подход гарантирует качественную оценку эффективности модели машинного обучения для поиска мошенничества на всех этапах ее разработки и развертывания.

Оценка модели

После того, как модель машинного обучения для обнаружения мошенничества обучена, необходимо оценить ее работу на отдельном тестовом наборе данных. Это позволяет понять, насколько хорошо модель сможет работать на реальных данных, которые не использовались при ее обучении. Для оценки используются различные метрики:

Точность (accuracy) — доля верных предсказаний из всех сделанных моделью.
Полнота (recall) — доля верно предсказанных мошеннических транзакций от всех реальных мошеннических транзакций в тестовых данных.
F1-мера — среднее гармоническое значение точности и полноты.
ROC-кривая и AUC — оценка качества бинарной классификации при разных порогах.

Также важно проанализировать матрицу ошибок — сколько ложных срабатываний и пропусков допустила модель. На этапе оценки также подбирается оптимальное пороговое значение для принятия решения о том, является ли транзакция мошеннической. Это позволяет настроить баланс между ложными срабатываниями и пропусками в соответствии с бизнес-требованиями. По результатам оценки принимается решение о необходимости доработки модели или о том, что ее качество является достаточным для внедрения в рабочий процесс.

Стадия тестирования

Перед тем, как внедрить модель машинного обучения для обнаружения мошенничества в рабочую среду, необходимо протестировать её на новых данных, которые не использовались ни на одном из предыдущих этапов (ни для обучения модели, ни для её валидации).

Цель тестирования — оценить способность модели обобщать полученные знания и обнаруживать ранее не встречавшиеся схемы мошенничества в реальных условиях.

На этапе тестирования анализируют:

Метрики качества работы модели (точность, полноту, F1-меру и др.).
Матрицу ошибок, чтобы понять, какие типы ошибок допускает модель.
Поведение модели на разных временных промежутках, чтобы выявить временные тренды.

Если результаты тестирования неудовлетворительные, возможно потребуется дополнительная оптимизация модели или сбор других данных.

Существующие модели обучения против мошенничества

Что же выбрать, чтобы выявить мошенников и их схемы? Обучение с учителем, без или с частичным привлечением учителя? Или использовать другие модели? Давайте разберемся вместе ↓

Обучение с учителем

Обучение с учителем (англ. Supervised Learning) или еще по-другому контролируемое обучение использует систему маркировки хороших и плохих данных. Недостаток этой модели — зависимость от статистики. Если определенный вид мошенничества не включен в статистику, алгоритмы не смогут его идентифицировать.

Обучение без учителя

Плюсы модели: лучше реагирует на редкие случаи мошенничества и наиболее эффективна при поиске взаимосвязей и отслеживании подозрительного поведения.

Неконтролируемое обучение (англ. Unsupervised Learning) — обучение без учителя, которое самостоятельно выявляет аномалии и подозрительные закономерности в данных. При такой модели обучения система непрерывно обрабатывает данные и автоматически маркирует их.

Обучение с частичным привлечением учителя

Плюсы модели: позволяет существенно сэкономить на ручной разметке больших массивов данных. При этом качество работы полуавтоматических моделей может быть вполне сопоставимо с полностью надзорным обучением.

Подход Semi-Supervised Learning применяют, когда разметка всего объёма данных для обучения алгоритмов требует слишком больших ресурсов или вовсе невозможна. В этом случае эксперты вручную аннотируют и маркируют лишь небольшую часть доступных данных. На основе этих примеров обучается предварительная модель машинного обучения. Далее она самостоятельно классифицирует оставшиеся неразмеченные данные.

* Полунадзорное обучение широко используется в задачах классификации изображений, распознавания речи и других сферах, где разметка данных требует значительных трудозатрат.

Самообучение

Плюсы модели: позволяет существенно сократить ручную разметку данных. Качество модели последовательно улучшается за счет добавления наиболее достоверных автоматических меток.

Один из простейших вариантов полунадзорного обучения — самообучение модели (англ. Self-Learning). Процесс самообучения происходит примерно так:

Сначала на небольшом наборе размеченных данных (например, фотографиях кошек и собак) тренируется базовая модель с использованием контролируемых алгоритмов.
Затем эта модель применяется для предсказания меток на оставшихся неразмеченных данных — это псевдомаркировка. При этом модель может вносить смещения, основываясь на особенностях первоначального обучающего набора.
Далее самые надежные псевдометки (уверенность модели выше 80%) добавляются в размеченный набор для улучшенного обучения.
Процесс повторяется в несколько итераций.

Совместное обучение

Плюсы модели: позволяет генерировать дополнительные размеченные данные и улучшать качество на ограниченном стартовом наборе.

Co-training подход применяют, когда есть лишь небольшой объем размеченных данных. Суть в том, чтобы обучить два отдельных классификатора на разных представлениях одних и тех же объектов. Например, для веб-страниц — это слова на странице и слова во входящих ссылках. Каждое представление несёт дополнительную информацию об объекте. Алгоритм выглядит так:

На основе размеченного набора обучаются два классификатора, по одному на каждое представление данных.
Затем классификаторы друг друга улучшают, используя наиболее надёжные псевдометки для неразмеченных данных.
В итоге получается комбинированный результат на основе предсказаний обоих моделей.

Обучение с подкреплением

Особенности модели: удобно использовать в играх, робототехнике, экономике — везде, где нужно принимать сложные стратегические решения в условиях неопределённости для получения максимальной выгоды.

Reinforced Learning — это один из методов машинного обучения, который учит модель принимать оптимальные решения в динамической среде для получения максимальной выгоды. Основные элементы такого подхода:

Агент — обучаемая программа, которая взаимодействует со средой.
Среда — реальная или виртуальная, в которой агент совершает действия.
Действия агента, меняющие среду.
Вознаграждение или штраф за каждое действие.

За счёт подкрепления успешных решений вознаграждением агент постепенно учится оптимальному поведению для решения поставленной задачи. По сути агент учится как человек — методом проб и ошибок на собственном опыте взаимодействия со средой.

Что такое «Белые ящики»

Очень важно, чтобы аналитики понимали принцип работы систем машинного обучения, которые они используют для выявления мошенничества. Такие прозрачные, интерпретируемые модели называют «белыми ящиками» в отличие от непонятных «черных ящиков».

К сожалению, большинство алгоритмов машинного обучения работают как «черные ящики» — невозможно объяснить, почему модель пришла к конкретному решению. Это сильно затрудняет их применение.

Существуют методы для повышения интерпретируемости таких моделей. Например, можно добавлять оценку важности различных параметров для принятия решения или генерировать текстовые описания логики работы модели. Эти приёмы не идеальны, но позволяют аналитикам лучше разобраться в принципах функционирования системы и дают полезные рекомендации по выявлению типовых схем мошенничества.

Методы обработки данных в предотвращении мошенничества

Существует целый ряд методов анализа данных, которые могут использоваться в различных комбинациях или по одиночке для предотвращения и своевременного выявления случаев мошенничества:

Анализ отклонений от нормы. Заключается в поиске аномальных или нехарактерных данных, значительно отличающихся от обычного, «нормального» поведения. Для этого применяются статистические методы, машинное обучение, нейронные сети.
Распознавание паттернов. Подразумевает анализ данных с целью выявления повторяющихся закономерностей или взаимосвязей, которые могут указывать на мошеннические транзакции. Используются методы интеллектуального анализа данных.
Предиктивная аналитика. Включает построение машинных моделей на основе исторических данных для прогноза вероятности мошеннических действий в будущем. Применяются методы машинного и глубокого обучения.
Поведенческий анализ. Заключается в отслеживании динамики действий пользователя с целью выявления подозрительной активности, не соответствующей обычному порядку вещей.
Анализ сетей. Подразумевает изучение связей между различными субъектами, участвующими в транзакциях, для поиска подозрительных ассоциаций. Применяются методы анализа социальных графов.

Технологии и инструменты для обнаружения мошенничества

Для построения эффективных систем обнаружения мошенничества на основе анализа данных используется целый ряд технологий и инструментов:

Облачные платформы машинного обучения: Microsoft Azure Machine Learning, Google Cloud AI Platform, Amazon SageMaker. Они позволяют масштабировать вычисления и хранение больших объемов данных, необходимых для обучения моделей.
Библиотеки и фреймворки машинного обучения: TensorFlow, PyTorch, SciKit-Learn, XGBoost, LightGBM. С их помощью реализуются алгоритмы обучения моделей — логистическая регрессия, случайный лес, нейронные сети.
Инструменты визуализации данных: Tableau, Power BI, Matplotlib. Используются для выявления скрытых зависимостей в данных, построения дашбордов.
СУБД с поддержкой аналитики: ClickHouse, Apache Spark, BigQuery. Позволяют эффективно хранить и обрабатывать большие объемы данных о транзакциях.
Языки программирования: Python, R, Scala. На них пишется код для реализации алгоритмов машинного обучения и анализа данных.

Грамотное сочетание перечисленных технологий в единой архитектуре позволяет создавать масштабируемые и высокопроизводительные системы для борьбы с мошенничеством с использованием анализа данных.

Эффективность и вызовы при использовании методов обработки данных в борьбе с мошенничеством

Применение методов анализа данных для выявления и предотвращения мошенничества может быть весьма эффективным, однако есть и определенные сложности.

К положительным моментам можно отнести:

Возможность автоматического выявления подозрительных транзакций и аномального поведения в режиме реального времени. Это позволяет оперативно заблокировать мошеннические операции.
Отсутствие предвзятости и усталости, присущих человеку. Алгоритмы могут непрерывно анализировать большие объемы данных.
Возможность выявления изощренных схем мошенничества за счет глубокого анализа взаимосвязей между различными типами данных.

Однако есть и определенные проблемы:

Невозможность полной автоматизации. Всегда требуется контроль и подтверждение аномалий человеком.
Сложность интеграции аналитических систем с действующими бизнес-процессами компаний.
Трудоемкость этапов сбора, обработки и маркировки данных, необходимых для обучения и тестирования алгоритмов.
Сложность быстрой переориентации моделей на новые, ранее неизвестные схемы мошенничества.

Тем не менее, при правильном применении подходы анализа данных могут стать мощным оружием в борьбе с мошенничеством. Главное их интегрировать с человеческим фактором, добиваясь синергетического эффекта.