Data Science в медицине

Data Science  в медицине

В этой статье мы вам расскажем, как Data Scientist может применить свои навыки в сфере здравоохранения и изменить мир к лучшему, а также возможно ли попасть в медицину без «корочки доктора» и какие перспективы у такого специалиста.

Data Scientist занимается обработкой и анализом данных, созданием моделей и прогнозов. Он использует математические, статистические методы и машинное обучение, чтобы извлечь ценную информацию из больших объемов данных. DS-навыки пользуются большим спросом в медицине и здравоохранении, давайте узнаем почему ↓

Какие области Data Science используются в медицине?

Математика, статистика, информатика

  • Создание математических моделей распространения заболевания может помочь, например, в прогнозировании эпидемий и разработки стратегий борьбы с ними
  • Используется для оптимизации работы клиник с помощью разработки и поддержки систем управления медицинскими записями и персоналом
  • Применяется при создании алгоритмов для выявления патологий на основе анализов.

Сбор, хранение и очистка данных

  • Создание и корректировка баз данных, где содержится полная информация об анамнезах пациентов
  • Обновление информации о пациентах после получения результатов лабораторных анализов и осмотра врачей
  • Обеспечение конфиденциальности медицинской информации.

Аналитика данных

Использование больших объемов данных о здоровье пациентов помогает врачам и ученым:

  • Ставить более точные диагнозы
  • Предсказывать развитие болезни
  • Улучшать лечение пациентов.
«Аналитики данных анализируют продажи препаратов, делают отчеты для производителей лекарств, исправляют ошибки в собранных данных» — делится своими рабочими обязанностями выпускник Elbrus Bootcamp, Артём Дойников.

Глубокое обучение

Deep Learning — один из основных компонентов DS, который используется для создания и обучения нейронных сетей. Он нужен для:

  • Анализа текстовой информации и выявления паттернов в данных о пациенте
  • Прогнозирования эффективности лекарств
  • Создания алгоритмов для раннего выявления проблем со здоровьем и предупреждения о них.

Машинное обучение

Создание алгоритмов и моделей, которые обучаются на основе данных, помогают автоматизировать создание прогнозов. Способы применения Machine learning в медицине:

  • Создание персонализированного плана лечения на основе индивидуальных характеристик пациента
  • Визуализация, анализ и сканирование медицинских изображений (МРТ, КТ, рентген-снимков) на предмет патологий
  • Проведение и контроль клинических исследований.

Искусственный Интеллект

Применение искусственного интеллекта (англ. Artificial Intelligence) в здравоохранении не ограничивается созданием роботов-хирургов. ИИ помогает избежать неточностей и ошибок, которые может допустить человек, а именно:

  • Более точно рассчитать дозировку лекарства
  • Диагностировать заболевание, учитывая все симптомы, описанные пациентов
  • Разгружать персонал больницы, обслуживая клиентов и отвечая на их вопросы.
«С помощью обработки естественного языка (NLP) создаются приложения, для обработки текстовых документов с данными анализов. ИИ обрабатывает информацию и дает заключение о том, какие параметры отклонены от нормы.» — рассказывает наша выпускница по DS направлению Виктория Иванова.

Интернет вещей

Интернет вещей или IoT — это концепция подключения физических объектов к виртуальной сети. Такими объектами могут быть умные часы, фитнес-трекеры и другие приспособления, фиксирующие жизненные показатели человека. Отслеживание пациента в реальном времени помогает:

  • Предотвратить приступы и кризы, связанные с хроническим заболеванием
  • Изучать воздействие препарата на жизненные показатели
  • Регулировать лечение и образ жизни пользователя.

Какие задачи решает Data Scientist в медицине

Применение Data Science и ИИ в здравоохранении — это не фантазии о далеком будущем, когда андроиды начнут мечтать об электровозах. IT-сфера уже давно решает множество задач в медицине. Вот некоторые из них:

Создание лекарств

Фармакологические исследования требуют больших вложений, как финансовых, так и временных. Для оптимизации процесса создания новых препаратов фармацевты используют аналитику данных для обработки результатов исследований и поиска новых эффективных комбинаций веществ. Технологии DS также позволяют проводить эксперименты in silico.

* In silico (от лат. «в кремнии») — способ проведения исследования с помощью компьютерного моделирования. Термин образован по аналогии с «in vitro» (от лат. «в стекле»), когда эксперимент с клетками происходит в пробирке, и «in vivo» (от лат. «в живом»), когда опыты проводятся на живых организмах.

Пример. В 2019 году ученым из MIT с помощью Deep Learning удалось найти новое применение препарату SU-3327. В 2009 он разрабатывался для лечения диабета, но не показал нужных результатов. Спустя 10 лет ИИ обнаружил, что комбинация молекул препарата имеют антибиотические свойства. SU-3327 был перепрофилирован в антибиотик и переименован в «халицин» в честь компьютера HAL 9000 из фильма «Космическая одиссея 2001 года».

Геномика

Это раздел генетики, изучающий функции, изменения и редактирование генов. Человеческий геном состоит из 3 099 734 149 пар оснований. Если это не Big Data, то что тогда? На исследования такого объема данных может уйти пол человеческой жизни. Компьютерный анализ занимает значительно меньше времени.

Пример. В 1993 в Технологическом институте Джорджии был разработан метод поиска генов под названием GeneMark. В 1995 году метод был использован для описания и последующего выявления бактерии Haemophilus influenzae — возбудителя гемофильной инфекции.

Прогнозирование состояний пациентов с помощью IoT-устройств

Данные, полученные с датчиков IoT, используются для анализа и мониторинга различных параметров, таких как температура, влажность, давление. Алгоритмы машинного обучения могут помочь выявить аномалии и предсказать изменение состояния пациента.

Пример. Continuous Glucose Monitor — устройство для измерения уровня глюкозы в крови в режиме реального времени. Информация с устройства отправляется на смартфон или умные часы носителя или его опекуна, чтобы отслеживать состояние здоровья больного диабетом.

Прогнозирование эпидемий и моделирование распространения болезней

Создание математической модели для построения прогнозов эпидемии не проблема для дата-сайентистов. В основу алгоритма ложатся данные о заболевании из открытых источников. Из них формируется уравнение, которое позволяет предсказать вспышки эпидемий, динамику распространения болезни и меры борьбы с ней.

Пример. В рамках проекта AIME (Artificial Intelligence in Medical Epidemiology) был разработан способ прогнозирования вспышек лихорадки денге. Алгоритм машинного обучения SVM помогает вычислять степени влияние факторов, от которых зависит рост заболеваемости денге, и предсказать пики заболеваемости с точностью 89%.

Управление медицинскими данными и электронными медицинскими записями

Data-наука помогает обрабатывать, хранить и анализировать большие объемы медицинских данных. Это позволяет улучшить доступность и точность электронных медицинских записей, а также оптимизировать процессы управления информацией в медицинских учреждениях.

Пример. В 2018 году был запущен проект EHDEN (European Health Data Evidence Network). Это база данных, содержащая всю информацию о здравоохранительных организациях Европы: от историй болезни до финансовых отчетов. EHDEN была создана с целью создания точной картины здоровья населения и оптимизации процессов в сфере здравоохранения.

Онлайн-диагностика ИИ на основе симптоматики

Специалистами по обработке данных создаются платформы и приложения для виртуальной помощи пациентам (в том числе, с психологическими проблемами, такими как тревога и депрессия).

Пример. Ada — приложение разработанное компанией «Ada Health». Оно представляет из себя виртуального медицинского консультанта. Пользователь может описать свои симптомы, ответить на вопросы и получить консультацию о возможных причинах беспокойств и способах их решить. Кроме того, Ada может записать вас к врачу в больнице-партнере сервиса.

Компании, которые используют DS, аналитику данных и ИИ

Многие всемирно известные компании вносят свой вклад в развитие здравоохранении и медицины с помощью IT-технологий. Вот некоторые из них:

Microsoft. Совместно с Университетом здоровья и науки штата Орегон Ганноверский проект Microsoft работает над поисками наиболее эффективных способов медикаментозного лечения рака для пациента. Для этого они используют анализ медицинских изображений.

Google. Дочернее общество Google под названием «DeepMind» сотрудничает с Национальной службой здравоохранения Великобритании в разработке электронных инструментов, упрощающих работу врачей. Например, «DeepMind» разработало приложение для смартфонов, которое умеет диагностировать острую почечную недостаточность.

IBM. Компания занимается созданием компьютерных системы и ПО к ним. IBM сотрудничает со многими клиниками и университетами. Одна из таких связей — совместная работа с Johnson & Johnson над анализом научных работ и исследований для поиска новых лекарственных препаратов.

* О других заслугах перед медициной этих компаний, а также прочих интересных способах применения DS читайте здесь.

Плюсы и минусы применения Data Science в медицине

Плюсы

Уменьшение количества ошибок. Методы машинного обучения могут повысить точность диагностики и исключить возможность ошибки из-за человеческой невнимательности.

Снижение расходов. DS поможет сэкономить как пациентам, так и работникам сферы здравоохранения. Наука о данных дает возможность отслеживать историю лечения больных с помощью электронных медицинских карт, куда добавляется информация обо всех анализах и методах лечения. Благодаря этому пациенту не будут назначаться способы лечения и тестирования, которые он уже проходил. В то же время анализ данных помогает оптимизировать расходы на медицинское обслуживание, предсказывая потребность в ресурсах, например, в персонале на ближайшее время.

Создание персонализированной медицины. Благодаря анализу геномных данных и других персональных факторов Data Science помогает создавать индивидуальные методы лечения.

Минусы

Аномалии, исключения, ошибки. Полностью исключать человеческий фактор из медицины нельзя. Единичные случаи и аномалии могут быть приняты компьютером, как ошибки. В это же время человеческий опыт и гибкость мышления позволяет рассматривать сразу несколько вариантов диагноза.

Мошенничество. Неосведомленность о реальных возможностях IT-технологий и медицины — это не грех. Однако этой неосведомленностью могут воспользоваться мошенники.

Один из самых ярких примеров — история Элизабет Холмс. Ее стартап «Theranos» был освоен в 2003 году. Компания обещала дать возможность делать полный анализ здоровья человека на основе одной капли крови из пальца. На пике рыночной стоимости «Theranos» был оценен в $10 млрд, а в состав директоров входил бывший министр обороны США. Холмс удалось убедить миллионы людей в жизнеспособности своей идеи. Но вопросы, накопившиеся у профессионального сообщества, все же привели компанию к банкротству, а Холмс к тюремному заключению.

Медицина лидирует по утечкам данных. Согласно исследованию «Positive Technologies», более 80% случаев успешных кибератак приходится на медицинские базы данных. Из-за этого происходит утечка конфиденциальной информации, приостановки деятельности медучреждений и, как следствие, угроза жизни пациентам. С другой стороны, это создает возможности для работы в сфере кибербезопасности в медицине.

Как стать медицинским дата-сайентистом

Нужно ли быть медиком для этого

Не обязательно. Для разработки ПО и работы с данными необходимы лишь навыки DS. Даже для прогнозирования эпидемий не требуется углубленных знаний медицины. Доказательством тому является статья под названием «Covid-19, ваше общество и вы с точки зрения Data Science» опубликованная 9 марта 2020 года на сайте fast.ai. С помощью навыков DS программистам удалось предсказать динамику развития заболевания еще до «официального» начала пандемии.

Однако, если вы хотите напрямую участвовать в разработке лекарств, обрабатывать медицинские изображения или проводить клинические испытания, вам понадобиться медицинское или биологическое образование.
Кстати, Вика Иванова до обучения в буткемпе закончила мединститут. По ее опыту: «компании при поиске подобного специалиста, отдают приоритет соискателям с медицинским образованием. Но это не является обязательным условием».

Где и как учиться

Есть множество курсов, которые предлагают обучение навыкам DS с уклоном в медицину. Но для входа в профессию вполне достаточно знаний Data Science без профильного уклона.

Среди выпускников Elbrus Bootcamp по направлению DS есть те, кто связал свою жизнь со здравоохранением. О сотрудничестве с ЕМИАС (Единая медицинская информационно-аналитическая система) и разработке приложения, определяющего диагноз по фотографии, рассказала наша выпускница на дне открытых дверей. Запись вы можете посмотреть на нашем YouTube-канале.

А другая выпускница Виктория подтвердила, что «полученных во время обучения в Elbrus Bootcamp навыков хватает для работы в сфере медицины. Проведение A/B-тестирования, разработку моделей, классификации и регрессии студенты изучают уже на первой фазе обучения».

* О нашем пре-курсе по DS вы можете прочитать тут.

Книги по Data Science медицине

Если ваш уровень английского языка достаточно высокий, узнайте больше о профессии Data Scientist в медицине с помощью профильной литературы:

  • Мэтью Марчетич: «Data Pulse: A Brief Tour of Artificial Intelligence in Healthcare»
  • Хариш К. Риджвани и Хина Канал: «Healthcare Decoded: Begin Your Health IT Journey»
  • Кэтрин Роуэлл: «Visualizing Health and Healthcare Data: Creating Clear and Compelling Visualizations to "See How You're Doing"»
  • «Statistics and Machine Learning Methods for EHR Data: From Data Extraction to Data Analytics».

Какие знания могут понадобиться

В зависимости от направления, в котором вы будете работать, вам могут понадобиться различные навыки. Основными из них являются:

  1. Machine Learning
  2. Deep Learning
  3. Data Mining
  4. Методы прогнозирования и моделирования
  5. Работа с Big Data
  6. Знакомство с системами медицинских данных
  7. Умение сегментировать изображения
  8. Нейронные сети
  9. Основы высшей математики
  10. Python, как самый применяемый язык программирования в этой области.

* О том, с чего стоит начинать изучения Python читайте в нашей статье.

Перспективы трудоустройства

На рост спроса на IT-специалистов в сфере медицины влияет множество факторов, среди которых:

  • Фокус на предикативной медицине
  • Внедрение технологий в здравоохранение, таких как электронные медицинские записи
  • Постоянный рост объема медицинских данных
  • Развитие телемедицины
  • Развитие биоинформатики для анализа генетических данных.

Распространенными профессиями в этой области являются:

  • Аналитик медицинских данных. Средняя месячная зарплата за рубежом: $7 500
  • Биоинформатик: $12 000
  • Специалист по обработке медицинских изображений: $5 000
  • Специалист по клиническим испытаниям: $6 000
  • Аналитик затрат в здравоохранении: $7 000
  • Специалист по медицинской статистике: $13 000.

* О самых высокооплачиваемых профессиях в IT читайте тут.

Что Data Science может дать медицине в будущем

DS может  помочь в борьбе с такими заболеваниями, как:

Рак. Молекулярное моделирование и генетические анализы могут помочь выявить болезнь на ранней стадии и начать борьбу с онкологией, когда это наиболее перспективно.

Диабет и сердечно-сосудистые заболевания. Мониторинг физических показателей с помощью IoT поможет пациенту поддерживать состояние своего здоровья на высоком уровне.

Нейродегенеративные заболевания. Использование алгоритмов для анализа медицинских изображений может предсказать риск развития подобных заболеваний. Например, болезни Альцгеймера.

Инфекционные болезни. С помощью прогнозирования распространения заболевания и поиска возможных лекарств.

Аутоиммунные заболевания. Анализ генетических поможет извлечь закономерности и использовать их для прогнозирования течения болезни и улучшения клинического ведения пациента.

Софья Пирогова

Софья Пирогова

Главный редактор / Автор статей
Георгий Бабаян

Георгий Бабаян

Основатель и CEO Эльбрус Буткемп