Исследователи создали простой инструмент, который помогает специалистам по ИИ находить нужные данные. Это повышает точность и уменьшает погрешность модели. Для обучения мощных больших языковых моделей исследователи используют обширные коллекции данных из тысяч веб-источников. Но при объединении этих наборов данных информация об их происхождении часто теряется или путается. Из-за этого могут возникнуть проблемы юридического и этического характера, а также ухудшиться производительность модели. Например, если набор данных неправильно классифицирован, то человек может использовать для обучения модели неподходящие данные. Исследователи из Массачусетского технологического института и других университетов проверили более 1800 текстовых наборов данных на популярных хостингах. Оказалось, что более чем в 70% случаев информация об авторах и лицензии отсутствовала, а примерно в половине — содержались ошибки. На основе полученных данных учёные создали инструмент Data Provenance Explorer. Он автоматически формирует понятные отчёты о создателях, источниках, лицензиях и способах использования наборов данных. Инструменты, подобные Data Provenance Explorer, помогают принимать обоснованные решения о внедрении ИИ и способствуют ответственному развитию этой технологии. Об этом говорит Алекс «Сэнди» Пентланд, профессор Массачусетского технологического института. Data Provenance Explorer помогает специалистам в области ИИ создавать более эффективные модели. Инструмент позволяет выбирать обучающие наборы данных, которые соответствуют назначению модели. Это может повысить точность моделей ИИ в реальных ситуациях, например, при оценке заявок на получение кредитов или ответов на запросы клиентов.
В исследовании также приняли участие Шейн Лонгпре, аспирант Media Lab, Сара Хукер, возглавляющая исследовательскую лабораторию Cohere for AI, а также другие специалисты из разных университетов и компаний. Результаты исследования опубликованы в журнале Nature Machine Intelligence. Фокус на тонкой настройкеИсследователи улучшают возможности языковой модели с помощью техники под названием «тонкая настройка». Они собирают данные, чтобы модель лучше решала конкретную задачу, например, отвечала на вопросы. Исследователи MIT изучают эти наборы данных. Их создают исследователи, академические организации или компании и лицензируют для определённого использования. Когда краудсорсинговые платформы объединяют такие наборы в большие коллекции, часть исходной информации о лицензии теряется. Махари считает, что лицензии должны быть осуществимы и иметь значение.
Чтобы начать исследование, учёные дали определение проверенности данных. Затем они разработали процедуру аудита для отслеживания происхождения данных в более чем 1800 коллекциях текстовых наборов данных из популярных онлайн-репозиториев. Оказалось, что более 70% этих наборов данных содержат «неуказанные» лицензии с неполной информацией. Исследователи заполнили пробелы, и количество таких наборов сократилось примерно до 30%. Также выяснилось, что правильные лицензии часто были более ограничительными, чем указанные в хранилищах. Создатели наборов данных в основном находятся на севере мира, поэтому модель, обученная на этих данных, может быть не применима в других регионах. Например, набор данных по турецкому языку, созданный жителями США и Китая, не содержит культурно значимых аспектов. Исследователи также заметили, что с 2023–2024 годов создатели стали чаще ограничивать использование своих наборов данных. Это может быть связано с опасениями, что данные будут использованы в коммерческих целях. Удобный инструментИсследователи создали Data Provenance Explorer, чтобы помочь людям получить информацию без ручного аудита. Инструмент позволяет сортировать и фильтровать данные по определённым критериям, а также загружать карту достоверности данных для структурированного обзора характеристик набора данных.
В будущем исследователи планируют расширить анализ и изучить происхождение мультимодальных данных, включая видео и речь. Они также хотят исследовать, как условия предоставления услуг на веб-сайтах влияют на наборы данных. Они обращаются к регулирующим органам, чтобы обсудить результаты исследований и их значение для авторского права, связанное с точной настройкой данных.
01.09.2024 |
Net&IT
ACMTAC: Новые приложения позволят слепым людям ориентироваться в помещениях | |
Два новых приложения помогут слепым людям орие... |
Nature Communications: Ученые придумали способ ускорить разработку лекарств | |
Способ улучшить квантовые компьютеры для ... |
PRR: Новые оптические устройства смогут преодолеть ограничения хранения данных | |
Поскольку наш цифровой мир создаёт о... |
В МФТИ создали ПО для нефтяников и золотодобытчиков | |
Сотрудники МФТИ предложили цифровое решение, к... |
В КФУ создали программу для определения свойств многокомпонентных материалов | |
Учёные вуза с помощью ИИ разработали... |
В России создали систему коррекции волнового фронта для квантовой связи | |
Ученые МТУСИ и ИДГ РАН разработ... |
MIT: Новый протокол безопасности защищает данные в облаке от злоумышленников | |
Модели глубокого обучения используются в ... |
Эксперт объяснил, как ИИ меняет творческий процесс в индустрии моды | |
Александр Бутаков, продюсер и специалист ... |
Студенты КНИТУ создали двуязычного ИИ-бота для туристов | |
Студенты КНИТУ создали туристического бота с&n... |
NatComm: С помощью ИИ найдено лучшее решение для хранения энергии | |
Найти иголку в стоге сена — пр... |
ACS Photonics: Разработаны улучшенные очки дополненной реальности | |
Дополненная реальность накладывает цифровые из... |
Journal of Consumer Affairs: Трекеры активности могут сформировать зависимость | |
Технологии для профилактики здоровья, так... |
Испытание лекарств на кардиотоксичность с помощью нейросетей предложили в МФТИ | |
Новый метод позволяет обнаружить потенциально ... |
В МТУСИ разработали метод машинного обучения для обнаружения фишинговых сайтов | |
Информационная безопасность веб-приложений&nbs... |
В МФТИ разрабатывают приложение для планирования рабочего времени репетиторов | |
Студентка кафедры технологии будущего МФТИ Тат... |
FCS: Квантовые компьютеры ускоряют решение задач с матроидами | |
Квантовые компьютеры работают быстрее классиче... |
GATech: Расширения для браузеров ставят под угрозу данные пользователей | |
Расширения для браузеров пользуются огром... |
Rice: Полидактилия и другие странности анатомии от ИИ останутся в прошлом | |
Генеративный искусственный интеллект часто оши... |
IEEE TSP: Низкоорбитальные спутники можно сделать высокопроизводительными | |
Спутники на низкой орбите смогут обеспечи... |
Выпускница ЛЭТИ разработала ПО для подбора сотрудников в соцсетях | |
Приложение на основе нейросети поможет из... |
FBINF: Искать триггеры рака стало проще — на помощь пришел компьютерный алгоритм | |
Компьютерный алгоритм помогает находить генети... |
Разработан метод улучшения изображения, полученного при низкой освещенности | |
С развитием интеллектуальной эры все ... |
Nature Machine Intelligence: Генеративный ИИ берется за прогнозы в онкологии | |
Учёные из университетов Лозанны и Бе... |
Разработчик рассказал, когда искусственный интеллект превзойдет человеческий | |
Аналитик Эйтан Майкл Азофф считает, что л... |
JID: Новый анализ волос с помощью ИИ улучшит исследование здоровья | |
Новое приложение с искусственным интеллек... |
В ЛЭТИ разработали ПО для поисковых и спасательных дронов с компьютерным зрением | |
Учёные разрабатывают ПО, которое позволит дрон... |
В Киберателье УГНТУ создали «умную» одежду для работников нефтегазовой отрасли | |
Куртки с датчиками, изготовленные в ... |
В МТУСИ предложили усовершенствовать процессы SAST | |
Миллионы людей по всему миру ежедневно по... |
Radiology: ChatGPT не справился с интерпретацией радиологических снимков | |
Исследователи выяснили, что ChatGPT-4 Vis... |
Лабораторию цифровых двойников геосистем открыли в СПбГУТ | |
В Санкт-Петербургском университете телекоммуни... |