23 июня 2024 г. Время чтения: Около 7 мин. Data Science

35 популярных библиотек Python для Data Science

В этой статье мы расскажем о самых используемых библиотеках Python для Data Science, которые помогут вам решать различные проблемы с данными.

Одна из причин популярности применения языка Python для Data Science — это огромное количество библиотек, которые расширяют его функциональность и упрощают работу с данными. Но как выбрать подходящую библиотеку для своей задачи?

Библиотеки Python для взаимодействия с данными

Для работы с данными в Python необходимо уметь загружать, сохранять, обрабатывать, очищать, агрегировать, фильтровать, преобразовывать и анализировать данные разных форматов и источников. Для этих целей существуют такие библиотеки, как:

Pandas — это библиотека для работы с табличными данными, такими как CSV, Excel, SQL, JSON. Она позволяет выполнять такие операции над данными, такие как сортировка, группировка, агрегация, слияние, соединение, разделение, заполнение пропусков, удаление дубликатов.
PySpark — это библиотека для анализа и обработки больших объемов данных, разработанная на основе Apache Spark. Она обеспечивает возможности распределенного вычисления данных на кластерах, позволяет обрабатывать данные параллельно и эффективно, что делает ее широко используемой в области анализа данных и машинного обучения.
Polars — это высокопроизводительная библиотека для анализа данных и работы с данными в формате таблиц, разработанная на языке Rust. Она имеет пакет Python, а также легко интегрируется с такими библиотеками, как NumPy, PyArrow, Pandas, Matplotlib, Plotly, Scikit-learn и TensorFlow. Polars позволяет осуществлять различные операции с данными, такие как фильтрация, сортировка, слияние, объединение и группировка данных.
SQLAlchemy — библиотека для работы с базами данных, которая предоставляет удобный и гибкий способ взаимодействия с различными СУБД (такими как PostgreSQL, MySQL, SQLite, Oracle, MS SQL) с использованием объектно-реляционного отображения (ORM).
Dask — библиотека для параллельных вычислений и обработки больших объемов данных, работающая как с отдельными машинами, так и с кластерами. Dask также использует концепцию ленивых вычислений, что позволяет оптимизировать использование ресурсов памяти и процессора.

Добыча/скраппинг данных

Requests — библиотека для отправки HTTP-запросов, что полезно при работе с API и загрузке данных из интернета. Requests поддерживает все основные методы HTTP запросов, такие как GET, POST, PUT, DELETE, PATCH. Также библиотека позволяет создавать сессии для выполнения нескольких запросов на один и тот же веб-сервер, что упрощает управление куками, аутентификацией и другими параметрами между запросами.
Beautiful Soup — это библиотека Python для работы с HTML и XML документами, которая позволяет извлекать данные с веб-страниц, что полезно для веб-скрапинга. Beautiful Soup создает дерево разбора для разобранных страниц, которое можно использовать для поиска, изменения и навигации по элементам HTML. Beautiful Soup поддерживает разные парсеры HTML и XML, такие как html.parser, lxml и html5lib.
Selenium — это библиотека Python для работы с автоматизацией веб-браузеров, которая позволяет создавать и запускать скрипты, которые могут имитировать действия пользователя с веб-сайтами. Selenium поддерживает разные браузеры, платформы и языки программирования. Она используется в основном для автоматизации тестирования веб-приложений, но также может использоваться для других целей, таких как скрапинг, мониторинг и создания ботов.

Библиотеки машинного обучения

Машинное обучение (Machine Learning или ML) — это область Data Science, которая занимается созданием и обучением алгоритмов, способных обучаться на данных и делать прогнозы или решения.

Вот самые широко используемые библиотеки:

Scikit-learn предоставляет алгоритмы для решения разных задач, таких как линейная и логистическая регрессия, деревья решений, случайный лес, k-ближайших соседей, k-средних, наивный байес, опорные векторы. Кроме того она предоставляет инструменты для предобработки данных, выбора модели, оценки качества, кросс-валидации, поиска гиперпараметров.
TensorFlow позволяет создавать и обучать нейронные сети разной сложности и архитектуры, а также решает задачи глубокого обучения, такие как классификация изображений, распознавание речи, генерация текста, обработка естественного языка и проектирование рекомендательных систем.
Keras работает поверх TensorFlow, Theano или CNTK. По факту — это высокоуровневый API для глубокого обучения. Библиотека позволяет создавать и обучать нейронные сети с помощью простого и интуитивного интерфейса, который абстрагирует от низкоуровневых деталей. Keras поддерживает множество типов нейронных сетей, таких как сверточные, рекуррентные, сети с долгой краткосрочной памятью и сети с вниманием. Keras также предоставляет инструменты для предобработки данных, построения сложных архитектур, сохранения и загрузки моделей, визуализации.
Statsmodels применяется для статистического анализа данных и предоставляет множество методов для разных задач, таких как линейные и обобщенные линейные модели, анализ временных рядов, анализ выживаемости, анализ дисперсии, тестирование гипотез, оценка параметров. Кроме того она имеет инструменты для визуализации данных, диагностики моделей, сравнения моделей.
PyTorch используется для компьютерного зрения, обработки естественного языка и создания нейросетей. Ее главные особенности: динамический вычислительный граф, поддержка GPU ускорения и мега активное сообщество разработчиков, которые постоянно вносят свой вклад в развитие библиотеки.
Hugging Face является одним из лидеров в области NLP и машинного обучения, помогающая создавать прорывы в области искусственного интеллекта. Библиотека имеет широкий выбор предварительно обученных моделей, таких как BERT, GPT, RoBERTa, которые можно легко загрузить и ювелирно настроить под себя.
Eli5 — библиотека, помогающая объяснить и отладить модели машинного обучения и их предсказания. Eli5 предоставляет два уровня объяснений для моделей машинного обучения: глобальное объяснение ( показывает общую важность признаков или весов модели, например значимость признаков, permutation importances или коэффициенты линейных моделей) и локальное объяснение (вклад каждого признака или веса в конкретный прогноз или выход модели, например SHAP значения, LIME значения или пути принятия решений). Также Eli5 предоставляет инструменты для инспекции, сравнения и визуализации разных моделей и их объяснений.

Библиотеки Python для работы с математикой

Для работы с математическими задачами необходимо уметь выполнять различные операции над числами, массивами, матрицами, векторами, функциями, уравнениями, статистикой, алгеброй, геометрией. Все это можно делать с помощью:

NumPy работает с многомерными массивами, которые являются основой для хранения и обработки данных в Python. Библиотека позволяет выполнять различные операции над массивами, такие как арифметические, логические, матричные, статистические и тригонометрические. NumPy также предоставляет инструменты для создания, изменения, сортировки, объединения, разделения, индексирования и срезания массивов.
SciPy подходит для работы с научными вычислениями. Библиотека имеет множество модулей для разных задач, таких как оптимизация, интеграция, интерполяция, линейная алгебра, специальные функции, статистика, обработка сигналов и обработку изображений.
SymPy применяется для работы с символьной математикой, которая позволяет выполнять различные операции над символами, выражениями, уравнениями, функциями, матрицами, векторами, полиномами, дробями, степенями, корнями, логарифмами, тригонометрией, алгеброй, геометрией и другими. Библиотека позволяет решать, упрощать, дифференцировать, интегрировать, приближать, подставлять и факторизовать.

Библиотеки для визуализации данных

Визуализация данных — это процесс графического или пикториального представления информации, чтобы помочь понять, проанализировать, интерпретировать и передать ее. Визуализация данных может служить различным целям, таким как исследование данных, формирование гипотез, подтверждение результатов, принятия решений и демонстрации выводов. Она может быть статической или динамической, одномерной или многомерной, дискретной или непрерывной, качественной или количественной.

Python предлагает несколько библиотек для визуализации данных, которые предоставляют инструменты и методы для создания и отображения различных типов графиков, таких как линейные, столбчатые, круговые, точечные, гистограммы, контурные, поверхностные и трехмерные. Некоторые из этих библиотек также поддерживают интерактивность, анимацию, сохранение, печать и другие возможности. Ниже представлены некоторые из наиболее популярных и полезных библиотек для визуализации данных:

Matplotlib позволяет создавать и отображать различные типы графиков: линейные, столбчатые, круговые, точечные, гистограммы, контурные, поверхностные и трехмерные. Кроме того она поддерживает разные стили, цвета, маркеры, легенды, подписи, сетки, оси, масштабы и другие элементы графиков. А также предоставляет инструменты для работы с анимацией, интерактивностью, сохранением, печатью.
Seaborn может создавать и отображать различные типы графиков. Библиотека основана на Matplotlib и предоставляет инструменты для работы с цветовыми палитрами, темами, статистическими функциями, группировкой и фасетированием.
Plotly позволяет создавать красивые интерактивные визуализации данных. Это отличный инструмент для обнаружения закономерностей в наборах данных и наглядного представления информации пользователям. Plotly больше всего известна своими графиками: линейными, точечными и гистограммами.
Bokeh дает возможность создавать и отображать разнообразные типы графиков. Она базируется на javascript-библиотеке D3.js и поддерживает создание интерактивных динамических визуализаций, позволяющих взаимодействовать с данными — масштабировать, перемещать, выделять и аннотировать.
NetworkX позволяет создавать и обрабатывать структурированные и неструктурированные данные в виде узлов, ребер, атрибутов, сетей. Также она поддерживает разные типы графов, такие как неориентированные, ориентированные, взвешенные, мультиграфы, гиперграфы. В NetworkX можно выполнять различные операции над графами, такие как добавление, удаление, изменение, поиск, обход, анализ и визуализацию.

Библиотеки для интеллектуального анализа и обработки естественного языка

Интеллектуальный анализ и обработка естественного языка (Natural Language Processing, NLP) — это область компьютерных наук, которая изучает взаимодействие между человеческим языком и машинами. NLP позволяет выполнять различные задачи, связанные с анализом, пониманием, генерацией, переводом, суммаризацией и классификацией.

Для работы с NLP в Python существует несколько библиотек:

NLTK (Natural Language Toolkit) — это целый пакет библиотек для обработки естественного языка на Python. Основные возможности: токенизация и нормализация текста, морфологический и синтаксический анализ, классификация и кластеризация текстов, извлечение информации, интеграция со словарями и онтологиями, а также корпусная лингвистика.
Spacy работает с естественным языком, включая такие способы обработки данных, как токенизация, лемматизация, частеречная разметка, синтаксический анализ, именованные сущности, семантический анализ, классификация текста и извлечение информации. Spacy поддерживает множество языков, в том числе русский, и предоставляет предобученные модели для разных задач и языков.
Transformers, также известная как Hugging Face Transformers, является инструментом для работы с моделями обработки естественного языка (NLP) на основе трансформеров. Главные особенности: поддержка техники transfer learning, мультиязычность, наличие предобученных моделей (включая BERT, GPT, RoBERTa, DistilBERT).
Gensim предоставляет удобные инструменты для работы с корпусами текстовых данных, включая загрузку, предобработку и индексацию документов. Это упрощает обработку текстов и подготовку данных для дальнейшего анализа. Также Gensim подходит для создания тематических моделей с помощью алгоритма Latent Dirichlet Allocation (LDA). Тематическое моделирование позволяет выявлять скрытые темы в текстовых данных и проводить анализ содержания. Кроме того библиотека поддерживает создание векторных представлений слов с использованием алгоритмов Word2Vec, FastText.

Библиотеки для распознавания аудио и изображений

Распознавание аудио и изображений — это область «компьютерного зрения» и «машинного слуха», которая изучает способы обнаружения, идентификации, классификации, сегментации, локализации, аннотации, анализа, синтеза, улучшения и других операций над аудио и изображениями.

Вот примеры нескольких библиотек для этих целей:

OpenCV (Open Source Computer Vision Library) — это библиотека для работы с компьютерным зрением, которая предоставляет модули для решения разных задач, таких как обработка изображений, распознавание объектов, лиц, жестов, движений, сцен, текста, цветов. OpenCV предоставляет доступ к разным алгоритмам и моделям, таким как SIFT, SURF, ORB, HOG, Haar, LBP, DNN, CNN, RNN.
Librosa — это библиотека для работы с аудио и музыкой, которая помогает решать такие задачи, как загрузку, запись, обработку, анализ, синтез, классификацию, извлечение признаков, транскрибирование, сегментацию и выравнивание. Librosa поддерживает разные форматы и источники аудио, такие как WAV, MP3, OGG, FLAC.
Detectron2 — это библиотека компании Facebook, предназначенная для обнаружения объектов и семантической сегментации на изображениях с использованием глубокого обучения, то есть она отлично подходит для работы с компьютерным зрением. Detectron2 включает в себя широкий выбор предобученных моделей, таких как Faster R-CNN, RetinaNet, AFDNet, которые можно легко применить для решения задач обнаружения объектов на пользовательских данных.

Библиотеки для работы с изображениями

Для работы с изображениями в языке Python существуют такие библиотеки:

Pillow предоставляет разнообразный функционал для манипулирования изображениями — открытие, сохранение в разных форматах, преобразование, применение фильтров и эффектов.
Scikit-Image надстраивается поверх библиотеки NumPy и позволяет производить фильтрацию, сегментацию, геометрических преобразований, обнаружение объектов, цветовую модификацию и активное контурное модулирование.
Mahotas используется для компьютерного зрения и обработки изображений, также основанная на NumPy. Она предоставляет быстрые алгоритмы для обработки изображения, поддерживает различные форматы и предоставляет простой интерфейс.

Библиотеки для создания сайтов

Gradio используется для создания интерактивных интерфейсов для моделей машинного обучения, которая позволяет легко и быстро создавать веб-страницы с разными типами входных и выходных данных, такими как текст, изображения, аудио и видео. Gradio позволяет тестировать и демонстрировать ваши модели машинного обучения, получать обратную связь от пользователей, сравнивать разные модели.
Streamlit больше даже фреймворк, чем библиотека. Он применяется для развертывания моделей машинного обучения в интерактивные веб-приложения. Фреймворк поддерживает множество типов визуализаций и элементов управления, таких как графики, таблицы, виджеты, что делает процесс создания дашбордов более гибким и удобным.