Как Counterfactual SMOTE улучшает диагностику редких заболеваний
В медицине машинное обучение помогает выявлять болезни на ранних стадиях и подбирать лечение.
Но есть проблема: данные часто несбалансированы. Например, редкие заболевания в выборках встречаются намного реже, чем обычные случаи. Из-за этого алгоритмы учатся игнорировать редкие, но опасные состояния, сосредотачиваясь на большинстве.
Результаты опубликованы в издании Data Science and Management.
Существующие методы вроде SMOTE (Synthetic Minority Oversampling Technique) пытаются исправить дисбаланс, создавая искусственные примеры редких случаев. Но часто эти данные получаются зашумленными или бесполезными, что ведет к ошибкам в диагностике.
25 января 2025 года исследователи Гонсалу Алмейда и Фернандо Бакао из NOVA Information Management School представили улучшенный метод — Counterfactual SMOTE. Вместо случайной генерации данных он создает синтетические примеры рядом с границами решений, где ошибки классификации наиболее вероятны. Это позволяет точнее определять редкие случаи без лишнего шума.
Метод протестировали на 24 медицинских наборах данных. Результаты показали:
- Улучшение точности (F1-score) на 10% по сравнению с аналогами.
- Снижение числа пропущенных редких случаев на 24–34%.
- Минимальный рост ложных срабатываний.
Хотя алгоритм требует больше вычислений, его точность оправдывает затраты, особенно в критических областях вроде медицины.
Гонсалу Алмейда, руководитель исследования:
Наш метод не просто уравновешивает данные — он заставляет модели учиться распознавать редкие случаи, а не угадывать большинство. Это важно для диагностики, где каждая ошибка может стоить жизни.
Counterfactual SMOTE полезен не только в медицине. Например:
- В финансах — для выявления редких мошеннических операций, что было бы полезно, например, для банков.
- В телекоме — для прогнозирования оттока клиентов.
- В производстве — для обнаружения дефектов.
Код метода уже открыт, и в будущем его можно адаптировать для работы с категориальными данными и многоклассовыми задачами.
Главный плюс Counterfactual SMOTE — практичность. Большинство методов борьбы с дисбалансом либо создают шум, либо требуют тонкой настройки. Этот подход автоматически генерирует полезные данные, не перегружая модель ложными срабатываниями.
Особенно ценно, что метод не требует изменения архитектуры моделей — его можно внедрить в существующие системы.
Для медицины, где ложные диагнозы дорого обходятся, даже 10% рост точности — прорыв.
Открытый код ускоряет внедрение в других областях: от банковского мониторинга до контроля качества на заводах.
Ранее мы выяснили, какие профессии вытеснит ИИ.