13 дек. 2024 г. Время чтения: Около 6 мин. Data Science

Где брать реальные данные для Data Science проектов. ТОП-50 ресурсов

Для работы моделям машинного обучения необходимо топливо в виде данных. Но где его брать? Сейчас расскажем!

Собирать наборы данных с нуля — трудозатратный и долгий процесс. Поэтому и начинающие, и опытные программисты (особенно представители Data Science профессий) периодически используют готовые датасеты в своих проектах. В этой статье мы собрали для вас те источники данных, которые чаще всего используются программистами в рабочем процессе ↓

Сборная солянка: тут вы можете найти всё или почти всё

Энтузиасты, ученые и разработчики, стремясь обмениваться знаниями и вносить вклад в развитие IT и машинного обучения, создают целые платформы с огромными коллекциями данных на любой вкус. Самые популярные из них:

Kaggle — социальная сеть от Google для DS-специалистов, а также платформа для проведения конкурсов по исследованию данных среди дата-сайентистов и дата-аналитиков. Сайт предоставляет множество бесплатных датасетов для работы: от наборов для обнаружения кибербуллинга в онлайн-контенте до изображений модных мужских костюмов, от рецептов до социологических опросов.
Awesome Public Datasets — репозиторий на платформе GitHub, созданный и обновляемый пользователями. Он содержит большую коллекцию бесплатных датасетов для хостинга проектов. Наборы разбиты на 36 тем, в числе которых данные о сельском хозяйстве, наборы для машинного обучения, временные ряды.

* На GitHub можно найти и другие репозитории с датасетами. Например, тут собран набор для распознавания Русского Жестового Языка, а здесь — 100 известных русских романов.

Hugging Face — экосистема, которая позволяет пользователям обмениваться реализованными проектами, ai-моделями и инструментами для их создания, опытом, советами и вспомогательными материалами. Сюда же люди выкладывают готовые датасеты. Среди них можно найти коллекцию пользовательских лицензий на фильмы с IMDb, подборки статей из Википедии, новости, коллекции изображений.
data.world — платформа для поиска, распространения и хранения датасетов. Пользователи сервиса имеют возможность совместно разрабатывать проекты, создавать собственные наборы и делиться ими с другими. Поэтому на data.world можно найти множество разнообразных пользовательских датасетов.
Datahub — большая бесплатная коллекция данных по разным темам: изменения климата, демографические данные, информация о системе образования в США, датасеты о футболе, наборы для NLP, данные о межгосударственных конфликтах и международных отношениях и многое другое.
UCI Machine Learning Repository — репозиторий машинного обучения Калифорнийского университета. Коллекция насчитывает 670 датасетов. Пользователи могут пополнять запасы данных своими наборами и бесплатно загружать датасеты с сайта.
Azure Open Datasets — бесплатные общедоступные наборы разнообразных данных от Microsoft Azure для повышения точности моделей машинного обучения. 27 датасетов разбиты на 5 тем, большинство данных касаются США.
Registry of Open Data — платформа Amazon Web Services (AWS), где хранятся общедоступные наборы данных. Реестр предлагает удобный способ поиска, доступа и использования датасетов. Для каждого набора в реестре доступны сопутствующие документы, описывающие структуру данных, их источник, формат и возможности использования.
Bright Data — сервис по поиску и покупке данных. Помимо платных датасетов на сайте можно найти и бесплатные подборки на разные темы: недвижимость, цены, наборы для обучения языковых моделей, путешествия, социальные сети.
Data & Sons — площадка для покупки и продажи данных. На сайте есть и бесплатные наборы для образовательных целей и создания реальных проектов.
Statista — статистические данные 150 стран по 170 отраслям включая компьютерные игры, электронную коммерцию, моду, использования социальных сетей.
Zyte — платный сервис, который предоставляет услуги по парсингу информации с веб-сайтов, очистке полученных данных и их форматированию. Цены за услуги начинаются от 450$ в месяц.

Медицина и здравоохранение

Data Science находит широкое применение в медицине, фармакологии и здравоохранении, поэтому в сети есть большое количество открытых источников медицинских данных для обучения моделей. Вот некоторые из них:

Openneuro — открытая платформа для обмена данными в виде снимков МРТ, КТ, PET-CT, МЭГ, ЭЭГ и результатов исследований функций головного мозга человека. Насчитывает 1 232 бесплатных набора данных.
The Cancer Imaging Archive (TCIA) — это сервис, который анонимизирует данные пациентов с онкологическими заболеваниями и публикует медицинские изображения раковых опухолей для публичной загрузки. Данные собраны в коллекции по виду онкологии, типам изображения, фокусам исследования.
MURA (Musculoskeletal Radiographs) — датасет рентгенограмм. Набор содержит 40 561 размеченных вручную рентгеновских снимков верхних конечностей.
Global Health Observatory (GHO) — большой сборник данных ВОЗ со статистикой о здравоохранении в 194 странах, включая Россию.
Health Science Library — библиотека медицинских данных и исследований Вашингтонского университета.
Health Data — портал Министерства здравоохранения и социальных служб США с большой базой данных о здоровье граждан.
Centers for Disease Control and Prevention Data Portal — архив данных Центра по контролю и профилактике заболеваний США.

Человек и окружающий мир

Существуют и другие тематические подборки данных, связанных, например, с финансами, социологическими исследованиями, криминалом, экономикой, климатом, географией. К крупных источникам подобных данных можно отнести:

IMF Data — датасеты международного валютного фонда о ценообразовании и финансовой статистике.
World Bank Open Data — открытые данные Всемирного банка. Сервис предоставляет возможность поиска датасетов по ключевым словам и странам.
Data.gov — сайт-хранилище данных правительства США. 301 657 наборов затрагивают множества сфер: преступность, количество электромобилей в определенном году, актуальные цен на фрукты и овощи в Америке.
Five Thirty Eight — сайт, посвященный анализу социологический опросов общественного мнения в США.
Pew Internet — еще один веб-сайт с результатами социологических исследований, но на этот раз не только в Америке, а по всему миру.
Data Pandas — большая база данных исследований самых разных сфер жизни: промышленности, экономики, образования, преступности по странам.

* Также на сайте вы увидите рейтинг популярных датасетов, к которым среди прочих относятся данные о размере женской груди по странам, опросы о любимых сортах пива, наиболее посещаемые заправочные станции.

Eurostat — официальная база данных ЕС.
Earth Data — данные NASA о планете Земля, ее географии, биосфере и климате. Кроме результатов исследований на сайте также можно найти снимки Земли из космоса.
Oxylabs — сайт компании, предоставляющей услуги по сбору веб-данных. Датасеты с информацией о компаниях, вакансиях, продуктах электронной коммерции, трендах IT-сообществ и отзывах о товарах можно получить за 1 000$ в месяц.
Coresignal — датасеты 200 различных источников о трудоустройстве: вакансиях, компаниях, зарплатах, сотрудниках и стартапах. Все это доступно за 1 000$ в месяц.
Bloomberg — каталог датасетов корпоративных данных, подборки новостей, информация о рынках. Многие наборы доступны в бесплатной демо-версии.
Google Trends — данные о поисковой статистике и самых трендовых запросах.
Yelp Open Dataset — датасет с пользовательскими отзывами на рестораны.
Портал открытых данных Минкульта — в базе вы найдете 54 набора данных с информацией о музеях, галереях, культурных мероприятий России, прокатных удостоверениях и разрешениях на археологические раскопки.
Портал открытых данных правительства Москвы — на портале опубликовано около 1000 датасетов со сведениями по различным направлениям: от инфраструктуры до увеселительных мероприятиях города Москвы. Для получения данных нужно пройти регистрацию.
Amazon Product Dataset — 571 миллиона пользовательских отзывов о товарах, собранных на платформе Amazon Reviews.

Компьютерное зрение

В искусственном интеллекте есть область, которая связана с анализом визуальной информации. Она называется компьютерным зрением. Научить компьютер «видеть» помогают наборы визуальных данных, и вот где их можно найти:

ImageNet — 1 281 167 обучающих изображений, распределенных на 1000 классов по объектам.
USGS Landsat — база снимков Земли USGS EROS — центра изучения ресурсов планеты Геологической службы США.
Chars74K — набор картинок с изображением латинского алфавита и арабских цифр в разных шрифтах и цветах. Датасет содержит 7705 фотографий шрифтов, 3410 изображений с рукописным текстом и 62 992 скриншота компьютерных шрифтов.
CIFAR-10 — набор из 60 000 цветных изображений разбитых на 10 категорий: самолеты, автомобили, птицы, коты, олени, собаки, лягушки, лошади, корабли, грузовики.
CelebA Dataset — крупномасштабный датасет насчитывающий более 200 000 изображений лиц знаменитостей с аннотациями.
xView — один из крупнейших общедоступных наборов данных с фотографиями Земли снятыми с воздуха. Датасет содержит изображения городских и природных ландшафтов со всего мира, аннотированные с помощью ограничивающих рамок.
MNIST — набор изображений рукописных шрифтов, который часто используется в качестве стартового датасета для обучения моделей распознавания образов.
Roboflow — более 500 000 готовых наборов для компьютерного зрения.

Обработка естественного языка

Еще одной важной областью искусственного интеллекта является обработка естественного языка или Natural Language Processing (NLP). Задача этой области — научить компьютер понимать и воспроизводить естественный язык. Для этого используются подобные наборы данных:

Google Audioset — масштабный набор аудиоданных и коротких видео из YouTube, аннотированных вручную. Датасет насчитывает 2,1 миллиона видео и 5 800 часов аудиозаписей, разделенных на 527 категорий.
CREMA-D — набор аудиовизуальных данных для распознавания эмоций. Сет состоит из 7 442 клипов на которых 90 актеров произносят предложения с различными эмоциями: радостно, грустно, гневно, испуганно, с отвращением и нейтрально.
LibriSpeech — 1 000 часов аудиоматериалов и их транскрипции, которые используются для задач распознавания речи.
Sentiment analysis — набор положительных и отрицательных пользовательских обзоров на фильмы из Internet Movie Database, который позволяет обучать модель оценивать интонации и настроение.
DataShare — коллекция зашумленных и чистых записей речи, предназначенных для обучения моделей распознаванию естественного языка в сложных условиях.

Сервисы для поиска датасетов

Поиск необходимых датасетов в крупных библиотеках — кропотливый процесс. Гораздо проще искать подходящие материалы через специализированные поисковики, которые самостоятельно обработают тысячи ресурсов и предложат наиболее релевантные источники данных. К популярными сервисам по поиску данных относятся:

Open Data Network — сервис от поставщика программного обеспечения Tyler Technologies.
Google Dataset Search — поисковая система от Google.
Datarade — система поиска данных среди 500 поставщиков по всему миру.

Софья Пирогова

Главный редактор / Автор статей