MIT: Данным для обучения больших языковых моделей часто не хватает прозрачности

Исследователи создали простой инструмент, который помогает специалистам по ИИ находить нужные данные. Это повышает точность и уменьшает погрешность модели.

Для обучения мощных больших языковых моделей исследователи используют обширные коллекции данных из тысяч веб-источников. Но при объединении этих наборов данных информация об их происхождении часто теряется или путается. Из-за этого могут возникнуть проблемы юридического и этического характера, а также ухудшиться производительность модели. Например, если набор данных неправильно классифицирован, то человек может использовать для обучения модели неподходящие данные.

Исследователи из Массачусетского технологического института и других университетов проверили более 1800 текстовых наборов данных на популярных хостингах. Оказалось, что более чем в 70% случаев информация об авторах и лицензии отсутствовала, а примерно в половине — содержались ошибки.

На основе полученных данных учёные создали инструмент Data Provenance Explorer. Он автоматически формирует понятные отчёты о создателях, источниках, лицензиях и способах использования наборов данных.

Инструменты, подобные Data Provenance Explorer, помогают принимать обоснованные решения о внедрении ИИ и способствуют ответственному развитию этой технологии. Об этом говорит Алекс «Сэнди» Пентланд, профессор Массачусетского технологического института.

Data Provenance Explorer помогает специалистам в области ИИ создавать более эффективные модели. Инструмент позволяет выбирать обучающие наборы данных, которые соответствуют назначению модели. Это может повысить точность моделей ИИ в реальных ситуациях, например, при оценке заявок на получение кредитов или ответов на запросы клиентов.

Один из способов понять возможности и ограничения модели искусственного интеллекта — это узнать, на каких данных она обучалась. Когда возникает путаница в происхождении данных, появляется проблема прозрачности, — говорит Роберт Махари, аспирант Массачусетского технологического института и кандидат юридических наук Гарвардской школы права, один из авторов статьи.

В исследовании также приняли участие Шейн Лонгпре, аспирант Media Lab, Сара Хукер, возглавляющая исследовательскую лабораторию Cohere for AI, а также другие специалисты из разных университетов и компаний. Результаты исследования опубликованы в журнале Nature Machine Intelligence.

Фокус на тонкой настройке

Исследователи улучшают возможности языковой модели с помощью техники под названием «тонкая настройка». Они собирают данные, чтобы модель лучше решала конкретную задачу, например, отвечала на вопросы.

Исследователи MIT изучают эти наборы данных. Их создают исследователи, академические организации или компании и лицензируют для определённого использования.

Когда краудсорсинговые платформы объединяют такие наборы в большие коллекции, часть исходной информации о лицензии теряется.

Махари считает, что лицензии должны быть осуществимы и иметь значение.

Лонгпре добавляет, что люди могут обучать модели, не понимая их возможностей, опасений и рисков, связанных с данными. Это может привести к тому, что модель придётся удалить, если данные окажутся конфиденциальными.

Чтобы начать исследование, учёные дали определение проверенности данных. Затем они разработали процедуру аудита для отслеживания происхождения данных в более чем 1800 коллекциях текстовых наборов данных из популярных онлайн-репозиториев.

Оказалось, что более 70% этих наборов данных содержат «неуказанные» лицензии с неполной информацией. Исследователи заполнили пробелы, и количество таких наборов сократилось примерно до 30%.

Также выяснилось, что правильные лицензии часто были более ограничительными, чем указанные в хранилищах.

Создатели наборов данных в основном находятся на севере мира, поэтому модель, обученная на этих данных, может быть не применима в других регионах.

Например, набор данных по турецкому языку, созданный жителями США и Китая, не содержит культурно значимых аспектов.

Исследователи также заметили, что с 2023–2024 годов создатели стали чаще ограничивать использование своих наборов данных. Это может быть связано с опасениями, что данные будут использованы в коммерческих целях.

Удобный инструмент

Исследователи создали Data Provenance Explorer, чтобы помочь людям получить информацию без ручного аудита.

Инструмент позволяет сортировать и фильтровать данные по определённым критериям, а также загружать карту достоверности данных для структурированного обзора характеристик набора данных.

Махари выразил надежду, что это поможет людям делать более осознанный выбор данных при обучении.

В будущем исследователи планируют расширить анализ и изучить происхождение мультимодальных данных, включая видео и речь. Они также хотят исследовать, как условия предоставления услуг на веб-сайтах влияют на наборы данных.

Они обращаются к регулирующим органам, чтобы обсудить результаты исследований и их значение для авторского права, связанное с точной настройкой данных.

Нам нужно, чтобы данные были подтверждены и прозрачны с самого начала, — говорит Лонгпре.

01.09.2024

Подписаться в Telegram

Net&IT

В МФТИ создали бота для распознавания нот

Студенты МФТИ создали программу под назва...

В Московском Политехе создали алгоритм для прогнозирования пешеходного трафика

Студент первого курса Московского Политеха Арт...

Ученые рассказали об уязвимостях в системе безопасности медицинских ИТ

Сотрудники кафедры ИБ Московского Политех...

EgoTouch управляет VR-миром с ладони — речь идет о новом уровне взаимодействия

В обычной жизни мы не хотим постоянн...

Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса

Благодаря новым технологиям искусственный инте...

Челябинские ученые сделают коммунальные машины автономными

Программу для управления техникой, котора...

Школьники создали для музея бота-проводника по коммуналкам и книгам Булгакова

Сегодня музейные чат-боты могут гораздо больше...

Студенты ТИСБИ разработали проект онлайн-платформы для геймеров

Студенты Университета управления ТИСБИ в ...

Nature: Созданные ИИ тексты будут размечаться водяными знаками

Исследователи из лондонской лаборатории G...

Российская игра о наполеоновских войнах станет бесплатной

У российской аудитории растет интерес к в

Ученые МГУ с коллегами предложили новый подход для создания квантового интернета

Создать устройство для гибридных квантовы...

В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев»

В Новосибирском государственном университете з...

Российские ученые создали расчетные модули для системы инженерного анализа

Ученые из нескольких научных организаций ...

Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме

Технологические корпорации всё чаще обращ...

По событиям Смутного времени создадут игру — интерактивную новеллу

Компания Сайберия Нова и создатели игры С...

JCM: ИИ быстрее человека определяет устойчивость бактерий к антибиотикам

Искусственный интеллект для поиска бактер...

HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому

В исследовании Имперского колледжа Лондона люд...

В России создана нейросеть для оценки отторжения пересаженной почки

ИИ-модель, которая с помощью компьютерног...

UIST: Приложение для смартфона делает захват движений тела в реальном времени

Инженеры Северо-Западного университета создали...

PNAS Nexus: Разработана система мониторинга усталости рабочих на производстве

Новая разработка, система датчиков и маши...

В СПбГУ с помощью ИИ создали систему распознавания нейротропных препаратов

Новую систему для скрининга нейротропных ...

NatPhys: Поиск ошибок в процессоре поможет создать надежный квантовый компьютер

Чтобы достичь выдающихся результатов, квантовы...

Новые ИИ-модели нагрева плазмы исправляют вычисления термоядерных исследований

Новые модели искусственного интеллекта для&nbs...

ACMTAC: Новые приложения позволят слепым людям ориентироваться в помещениях

Два новых приложения помогут слепым людям орие...

Nature Communications: Ученые придумали способ ускорить разработку лекарств

Способ улучшить квантовые компьютеры для ...

PRR: Новые оптические устройства смогут преодолеть ограничения хранения данных

Поскольку наш цифровой мир создаёт о...

В МФТИ создали ПО для нефтяников и золотодобытчиков

Сотрудники МФТИ предложили цифровое решение, к...

В КФУ создали программу для определения свойств многокомпонентных материалов

Учёные вуза с помощью ИИ разработали...

В России создали систему коррекции волнового фронта для квантовой связи

Ученые МТУСИ и ИДГ РАН разработ...

MIT: Новый протокол безопасности защищает данные в облаке от злоумышленников

Модели глубокого обучения используются в ...

12 3 4 5 Вперед

Поиск на сайте

Знатоки клуба инноваций

ТОП - Новости мира, инновации

В МФТИ создали бота для распознавания нот

SciAdv: На Марсе была горячая вода — найдено доказательство в древнем метеорите

В ТОГУ будут использовать лазерные сканеры для создания идеальных зданий

Science: У шимпанзе есть слабо развитая культура

Ученые МФТИ придумали, как пропатчить сердце

Ученые научились производить заживляющие наночастицы в промышленных масштабах

В ТПУ научились управлять свойствами графена с помощью лазера

Surfaces and Interfaces: Куркума и серебро на мембранах стерилизуют вирусы

Внеклеточные везикулы — новое слово в лечении воспалительных заболеваний кишечника

1 укол вместо 15: в Челябинске предложили революционный метод лечения рака

The American Journal of Human Genetics: Бесплодие может быть вызвано мутацией

Исследована двойная роль клеточного регулятора CED-9 в апоптозе

Ученые из Новосибирска установили возраст шерсти детеныша саблезубой кошки

Челябинские ученые создали систему управления объектами электроэнергетики

PRL: Физики объяснили, как работает дробный заряд в пентаслойном графене

Новости компаний, релизы

Дмитрий Чернышенко провел рабочую встречу с главой Татарстана Рустамом Миннихановым

Нижегородский завод продемонстрировал разработанные по нацпроекту материалы на AMTEXPO

Делегация Набережночелнинского педагогического университета прибыла в Алжир

В Москве открыт памятник «отцу» советского ядерного оружия

3D-печать: от самых смелых концепций до твердой реальности

Свидетельство о регистрации Эл № ФС77 - 83723 Учредитель: Анфиногентов И.В. Главный редактор: Анфиногентов И.В.	По любым вопросам: admin@innovanews.ru Телефон: +7 (917) 228-57-80, telegram @innovanews Адрес редакции: 420066, Казань, ул. Бондаренко, 33-102
16+

Новости мира инноваций