ИИ становится носителем всех пороков человечества, включая расизм и сексизм
Языковые движки, на которых работает генеративный искусственный интеллект, сталкиваются с широким спектром проблем, которые могут нанести вред обществу, в первую очередь из-за распространения дезинформации и дискриминационного контента, включая расистские и сексистские стереотипы.

В значительной степени эти недостатки популярных систем искусственного интеллекта, таких как ChatGPT, связаны с недостатками языковых баз данных, на которых они обучаются.
Чтобы решить эти проблемы, исследователи из Бирмингемского университета разработали новую структуру для лучшего понимания больших языковых моделей (LLM), интегрировав принципы социолингвистики — изучения языковых вариаций и изменений.
Опубликовав свое исследование в журнале Frontiers in AI, специалисты утверждают, что благодаря точному представлению различных «разновидностей языка» можно значительно повысить производительность систем искусственного интеллекта, решив важнейшие проблемы ИИ, включая социальную предвзятость, дезинформацию, адаптацию к домену и соответствие общественным ценностям.
Исследователи подчеркивают важность использования социолингвистических принципов для обучения LLM, чтобы лучше представлять различные диалекты, регистры и периоды, из которых состоит любой язык. Это открывает новые возможности для разработки систем ИИ, которые будут более точными и надежными, а также более этичными и социально ориентированными.
Ведущий автор работы профессор Джек Грив сказал:
Генеративные ИИ, такие как ChatGPT, могут с большей вероятностью создавать негативные образы представителей определенных этнических групп и полов, но наше исследование предлагает решения, как обучать LLM более принципиальным образом, чтобы смягчить социальные предубеждения.
Подобные проблемы обычно можно отследить по данным, на которых обучался LLM. Если учебный корпус содержит относительно частое выражение вредных или неточных представлений об определенных социальных группах, LLM неизбежно будет воспроизводить эти предубеждения, что приведет к появлению потенциально расистского или сексистского контента.
Исследование предполагает, что тонкая настройка LLM на наборах данных, предназначенных для представления целевого языка во всем его многообразии — как это подробно описано в десятилетиях исследований в области социолингвистики — может в целом повысить общественную ценность этих систем ИИ. Исследователи также считают, что, сбалансировав обучающие данные из разных социальных групп и контекстов, можно решить проблемы, связанные с объемом данных, необходимых для обучения этих систем.
Мы считаем, что увеличение социолингвистического разнообразия обучающих данных гораздо важнее, чем простое расширение их масштабов, — добавил профессор Грив.
По всем этим причинам мы считаем, что существует явная и срочная необходимость в социолингвистическом анализе при разработке и оценке LLM.
Понимание структуры общества и того, как эта структура отражается в моделях использования языка, имеет решающее значение для максимизации преимуществ LLM для обществ, в которые они все больше внедряются». В более широком смысле, включение знаний из гуманитарных и социальных наук имеет решающее значение для разработки систем ИИ, которые будут лучше служить человечеству.
Ранее ученые сообщили о том, как ИИ прошел тест Тьюринга.



















