Как Counterfactual SMOTE улучшает диагностику редких заболеваний

В медицине машинное обучение помогает выявлять болезни на ранних стадиях и подбирать лечение.

Но есть проблема: данные часто несбалансированы. Например, редкие заболевания в выборках встречаются намного реже, чем обычные случаи. Из-за этого алгоритмы учатся игнорировать редкие, но опасные состояния, сосредотачиваясь на большинстве.

Результаты опубликованы в издании Data Science and Management.

Существующие методы вроде SMOTE (Synthetic Minority Oversampling Technique) пытаются исправить дисбаланс, создавая искусственные примеры редких случаев. Но часто эти данные получаются зашумленными или бесполезными, что ведет к ошибкам в диагностике.

25 января 2025 года исследователи Гонсалу Алмейда и Фернандо Бакао из NOVA Information Management School представили улучшенный метод — Counterfactual SMOTE. Вместо случайной генерации данных он создает синтетические примеры рядом с границами решений, где ошибки классификации наиболее вероятны. Это позволяет точнее определять редкие случаи без лишнего шума.

Метод протестировали на 24 медицинских наборах данных. Результаты показали:

  • Улучшение точности (F1-score) на 10% по сравнению с аналогами.
  • Снижение числа пропущенных редких случаев на 24–34%.
  • Минимальный рост ложных срабатываний.

Хотя алгоритм требует больше вычислений, его точность оправдывает затраты, особенно в критических областях вроде медицины.

Гонсалу Алмейда, руководитель исследования:

Наш метод не просто уравновешивает данные — он заставляет модели учиться распознавать редкие случаи, а не угадывать большинство. Это важно для диагностики, где каждая ошибка может стоить жизни.

Counterfactual SMOTE полезен не только в медицине. Например:

  1. В финансах — для выявления редких мошеннических операций, что было бы полезно, например, для банков.
  2. В телекоме — для прогнозирования оттока клиентов.
  3. В производстве — для обнаружения дефектов.

Код метода уже открыт, и в будущем его можно адаптировать для работы с категориальными данными и многоклассовыми задачами.

Главный плюс Counterfactual SMOTE — практичность. Большинство методов борьбы с дисбалансом либо создают шум, либо требуют тонкой настройки. Этот подход автоматически генерирует полезные данные, не перегружая модель ложными срабатываниями.

Особенно ценно, что метод не требует изменения архитектуры моделей — его можно внедрить в существующие системы.

Для медицины, где ложные диагнозы дорого обходятся, даже 10% рост точности — прорыв.

Открытый код ускоряет внедрение в других областях: от банковского мониторинга до контроля качества на заводах.

Ранее мы выяснили, какие профессии вытеснит ИИ.

18.04.2025

Подписаться: Телеграм | Дзен | Вконтакте


Здоровье

Депрессия начинается здесь: открыта новая значимая мишень для лечения
Депрессия начинается здесь: открыта новая значимая мишень для лечения

Сегодня ученые, возможно, нашли первый надежны...

Железное терпение: почему роботы справляются там, где пасуют врачи
Железное терпение: почему роботы справляются там, где пасуют врачи

В мире растёт распространённость нейрокогнитив...

Ножницы для мутаций: можно ли вырезать болезнь из ДНК
Ножницы для мутаций: можно ли вырезать болезнь из ДНК

Митохондриальная ДНК, или мтДНК, &md...

HER3 — новая мишень в лечении рака
HER3 — новая мишень в лечении рака

HER3 долгое время оставался в тени своих ...

Новая вакцина блокирует 85% аллергических реакций на кошек
Новая вакцина блокирует 85% аллергических реакций на кошек

Аллергия на кошек мучает каждого четверто

Неравный бой: почему мужчины чаще проигрывают коронавирусу
Неравный бой: почему мужчины чаще проигрывают коронавирусу

Шведские ученые из Университета Умео нашл...

Киллер, нанятый Альцгеймером, встретил своего палача
Киллер, нанятый Альцгеймером, встретил своего палача

Ученые из австралийского института WEHI в...

Студенты МИФИ создают экзоскелет для реабилитации ног
Студенты МИФИ создают экзоскелет для реабилитации ног

Три студента МИФИ — Антон Москалюк,...

Климатические изменения увеличили смертность от пожаров
Климатические изменения увеличили смертность от пожаров

Ученые выяснили: из-за климатических изменений...

Сладкая наука: почему мы не можем остановиться перед десертом
Сладкая наука: почему мы не можем остановиться перед десертом

Наша любовь к сахару зашла слишком далеко...

Ученые выяснили, как мозг перестраивается при обучении
Ученые выяснили, как мозг перестраивается при обучении

Ученые из Калифорнийского университета в&...

Петли ДНК появились 700 млн лет назад
Петли ДНК появились 700 млн лет назад

Жизнь зависит от того, насколько точно ге...

Как торговля дикими животными привела к пандемии COVID-19
Как торговля дикими животными привела к пандемии COVID-19

Новое исследование показало: предок вируса, вы...

Новый метод микроскопии показывает связи в мозге
Новый метод микроскопии показывает связи в мозге

Наш мозг — это сложный механиз...

У пожилых людей нашли шесть групп риска диабета
У пожилых людей нашли шесть групп риска диабета

Недавнее исследование показало: у пожилых...

ИИ против рака: как алгоритмы учатся читать между клеток
ИИ против рака: как алгоритмы учатся читать между клеток

Группа ученых из Тяньцзиньского онкоцентр...

Ученые нашли способ обмануть возраст — и это не спортзал
Ученые нашли способ обмануть возраст — и это не спортзал

Международное исследование под руководств...

A&D: Как люди реагируют на раннюю диагностику Альцгеймера
A&D: Как люди реагируют на раннюю диагностику Альцгеймера

Узнать о риске болезни Альцгеймера &...

Гены влияют на возраст первого шага у детей
Гены влияют на возраст первого шага у детей

Ученые выяснили, какие гены влияют на то,...

Поиск на сайте

ТОП - Новости мира, инновации

Ученые нашли материал, который ловит CO₂ даже во влажном воздухе
Ученые нашли материал, который ловит CO₂ даже во влажном воздухе
Ученые выяснили, как именно вегетарианцы не любят мясо
Ученые выяснили, как именно вегетарианцы не любят мясо
Компьютерная симуляция раскрывает тайны космической турбулентности
Компьютерная симуляция раскрывает тайны космической турбулентности
Радуга в клетке: ученые укротили цветовой хаос в AR-очках
Радуга в клетке: ученые укротили цветовой хаос в AR-очках
Запутанная арифметика: сколько частиц нужно, чтобы измерить то, чего нет
Запутанная арифметика: сколько частиц нужно, чтобы измерить то, чего нет
Ученые предложили управлять тараканами с помощью ультрафиолета
Ученые предложили управлять тараканами с помощью ультрафиолета
Зациклились: почему бизнес перестает выбрасывать деньги на ветер
Зациклились: почему бизнес перестает выбрасывать деньги на ветер
Деревья закрывают устьица раньше, чем считалось, чтобы сохранить рост
Деревья закрывают устьица раньше, чем считалось, чтобы сохранить рост
Лишние узлы — долой: нейросеть научилась видеть главное в графах
Лишние узлы — долой: нейросеть научилась видеть главное в графах
Гриб, который заменит пластик: мицелий стал материалом будущего
Гриб, который заменит пластик: мицелий стал материалом будущего

Новости компаний, релизы

Бактерии против грибов: как наука защищает картофель без химии
Овцы вместо мышей: как ученые нашли новый способ тестировать материалы для зубов
Пробирки, зелень и взрывы: фестиваль для тех, кто любит науку
Ход конем: в Шагонаре прошел первый шахматный турнир для дошколят
Школьник из Сосногорска запустил кружок будущего