ChatGPT поможет автономным автомобилям лучше понимать пассажиров
Инженеры Университета Пурдю разработали систему, благодаря которой автономное транспортное средство может эффективно и быстро доставить вас в нужное место. Система основана на искусственном интеллекте и больших языковых моделях, таких как ChatGPT.
Это исследование будет представлено на 27-й Международной конференции IEEE по интеллектуальным транспортным системам 25 сентября.
Доцент Школы гражданского и промышленного строительства Пурдю Зиран Ванг считает, что для полной автономности автомобилям необходимо понимать все команды пассажиров, даже невысказанные. Например, водитель такси будет знать, что вы спешите, без необходимости указывать маршрут.
Современные автомобили оснащены функциями общения с человеком, но требуют более чётких формулировок. Большие языковые модели могут интерпретировать запросы и отвечать в более естественной манере, поскольку они обучены на больших объёмах текстовых данных и продолжают обучаться.
Ванг говорит, что обычные системы в автомобилях требуют нажатия кнопок или чёткой речи, а языковые модели могут более естественно понимать разные запросы.
Проведение исследования нового типа
В этом исследовании большие языковые модели не управляли автомобилем, а помогали в управлении с помощью существующих функций.
Перед началом экспериментов исследователи обучили ChatGPT с помощью различных команд: от прямых ( «Пожалуйста, езжайте быстрее») до косвенных („Меня сейчас немного укачивает“). По мере обучения ChatGPT исследователи задавали моделям параметры, требуя учитывать правила дорожного движения, дорожные условия, погоду и другую информацию, которую собирали датчики автомобиля.
Исследователи сделали большие языковые модели доступными через облако для экспериментального автомобиля с автономностью 4 уровня по классификации SAE International. Это всего лишь один уровень до полностью автономного автомобиля.
Когда система распознавания речи в ходе экспериментов получала команду от пассажира, языковые модели обрабатывали её с учётом заданных исследователями параметров и генерировали инструкции для системы drive-by-wire автомобиля. Эта система связана с дроссельной заслонкой, тормозами, передачами и рулевым управлением и отвечает за вождение в соответствии с командами.
Команда Ванга тестировала модуль памяти, который позволял большим языковым моделям учитывать исторические предпочтения пассажира.
Большинство экспериментов исследователи провели на полигоне в Колумбусе (штат Индиана), который раньше был взлетно-посадочной полосой аэропорта. Это позволило безопасно проверить реакцию автомобиля на команды при движении по полосе и прохождении перекрестков, а также парковку на стадионе Росс-Аде в Пурдю.
Во время поездки в автомобиле участники исследования использовали как знакомые команды для больших языковых моделей, так и новые.
После поездки участники опроса выразили меньший дискомфорт по поводу решений, принятых автопилотом, по сравнению с обычными ощущениями от поездки на авто без помощи больших языковых моделей.
Команда также сравнила показатели автопилота с базовыми значениями, которые определяют комфортную и безопасную поездку. Например, это время реакции автомобиля, чтобы избежать столкновения сзади, и скорость разгона и торможения. Исследователи выяснили, что даже при ответе на незнакомые команды, автопилот превзошёл все базовые значения.
Будущие направления
По словам Ванга, большие языковые модели обрабатывали команду пассажира в среднем за 1,6 секунды. Это приемлемо для некритичных по времени сценариев, но должно быть улучшено для срочных ситуаций. Проблема затрагивает большие языковые модели в целом, и над ней работают как промышленники, так и учёные.
ChatGPT и другие большие языковые модели могут ошибаться, поэтому их нельзя использовать в некоторых сферах.
В исследовании Ванга был отказоустойчивый механизм, который позволял безопасно продолжать движение при неправильном понимании моделью команд. Хотя модели улучшали своё понимание во время поездки, проблема с «галлюцинациями» остаётся открытой. Её нужно решить, прежде чем большие языковые модели можно будет использовать в транспортных средствах.
Производители транспортных средств должны провести больше испытаний с использованием больших языковых моделей.
Для интеграции этих моделей в систему управления автомобилем потребуется разрешение регулирующих органов, — говорит Ванг.
Ванг и его студенты продолжают эксперименты, которые помогут изучить возможность использования больших языковых моделей в автомобилях.
После тестирования ChatGPT исследователи оценили другие публичные и частные чат-боты на основе больших языковых моделей, такие как Gemini от Google и серию ИИ-помощников Llama от Meta. На данный момент ChatGPT показал наилучшие результаты по безопасной и экономичной поездке в автомобиле.
Теперь предстоит выяснить, могут ли большие языковые модели разных автобрендов (АВ) общаться между собой. Например, чтобы решить, кто должен ехать первым на перекрёстке.
Лаборатория Ванга также изучает использование больших моделей зрения для управления автомобилями в экстремальных зимних условиях Среднего Запада. Эти модели похожи на большие языковые, но обучаются на изображениях, а не на тексте.