Financial Analysts Journal: ChatGPT пока не может заменить финансовых спецов
В то время как большие языковые модели, такие как ChatGPT, хорошо справляются с выбором ответов на вопросы с несколькими вариантами ответов на экзаменах по финансовым лицензиям, они не справляются с более сложными задачами.
В исследовании, проведенном под руководством Университета штата Вашингтон, было проанализировано более 10 000 ответов на вопросы финансовых экзаменов, полученных с помощью языковых моделей искусственного интеллекта BARD, Llama и ChatGPT.
Исследователи попросили модели не только выбрать ответы, но и объяснить, что за ними стоит, а затем сравнили эти текстовые ответы с ответами людей. Хотя две версии ChatGPT лучше всего справились с этими задачами, они все же показали высокий уровень неточности при изучении более сложных тем.
Пока еще рано беспокоиться о том, что ChatGPT полностью займет рабочие места финансистов, — говорит автор исследования Ди Джей Фэйрхерст из Колледжа бизнеса Карсона.
Если речь идет о широких понятиях, по которым уже давно есть хорошие объяснения в Интернете, ChatGPT может проделать очень хорошую работу по синтезу этих понятий. Если же речь идет о конкретном, идиосинкразическом вопросе, то он будет испытывать серьезные трудности.
Для исследования, опубликованного в журнале Financial Analysts Journal, Фэрхерст и его соавтор Дэниел Грин из Университета Клемсона использовали вопросы из лицензионных экзаменов, включая экзамен Securities Industry Essentials, а также Series 6, 7, 65 и 66.
Чтобы выйти за рамки способности ИИ-моделей просто выбирать правильный ответ, исследователи попросили их давать письменные объяснения. Кроме того, они подобрали вопросы, основанные на конкретных рабочих задачах, которые в действительности могут выполнять финансовые специалисты.
Сдать сертификационные экзамены недостаточно. Нам нужно копнуть глубже, чтобы понять, на что действительно способны эти модели, — говорит Фэрхерст.
Из всех моделей платная версия ChatGPT, версия 4.0, показала наилучшие результаты, давая ответы, которые были наиболее похожи на ответы экспертов-людей. Ее точность также была на 18-28 процентных пунктов выше, чем у других моделей. Однако ситуация изменилась, когда исследователи доработали раннюю бесплатную версию ChatGPT 3.5, снабдив ее примерами правильных ответов и объяснениями. После такой настройки модель приблизилась к ChatGPT 4.0 по точности и даже превзошла ее в предоставлении ответов, схожих с ответами людей-профессионалов.
Однако обе модели все равно не справились с некоторыми типами вопросов. Хотя они хорошо справлялись с анализом операций с ценными бумагами и отслеживанием тенденций на финансовом рынке, модели давали более неточные ответы в специализированных ситуациях, таких как определение страхового покрытия клиента и его налогового статуса.
Фэрхерст и Грин вместе с докторантом ВГУ Адамом Бозманом сейчас работают над другими способами определить, что может и чего не может сделать ChatGPT в рамках проекта, в котором ему предлагается оценить потенциальные сделки по слиянию. Для этого они используют тот факт, что ChatGPT обучен на данных до сентября 2021 года, и используют сделки, заключенные после этой даты, когда результат уже известен. Предварительные результаты показывают, что пока модель ИИ не очень хорошо справляется с этой задачей.
В целом, по мнению исследователей, ChatGPT все же лучше использовать как вспомогательный инструмент, а не как замену опытному финансовому специалисту. С другой стороны, ИИ может изменить подход некоторых инвестиционных банков к найму аналитиков начального уровня.
Практика привлечения нескольких человек в качестве младших аналитиков, их соревнование и удержание победителей — все это становится гораздо более дорогостоящим, — говорит Фэйрхерст.
Так что это может означать сокращение числа таких вакансий, но не потому, что ChatGPT лучше аналитиков, а потому, что мы просим младших аналитиков выполнять более трудоемкие задачи.
Ранее ученые заявили, что творческий потенциал ИИ выше, чем у человека.