GPT-4, Claude 2 и Llama 2: какая языковая модель не отлынивает от ответов

Специальный корреспондент
Собака

Собака

Пресс-служба
Команда форума
Private Club
Регистрация
13/10/15
Сообщения
54.919
Репутация
62.740
Реакции
277.129
RUB
0
Аналитическая компания провела тестирование моделей искусственного интеллекта, представленных Meta, OpenAI, Cohere и Anthropic. В статье разбираем, какие из них наиболее склонны к вымыслу или галлюцинациям.

Суть эксперимента​

Тестировали модели:

  • GPT-3.5 (~175 млрд параметров) и GPT-4 (~1,76 триллиона параметров) от OpenAI;
  • Claude-2 от Anthropic (# неизвестно);
  • LLaMA-2 (70 млрд параметров) от Meta;
  • Command от Cohere (~50 млрд параметров).
Для составили в трех категориях: задачи по комбинаторной математике, вопросы о президентах США и политических лидерах Марокко. Основная цель была в том, чтобы проверить способность моделей к многоэтапному рассуждению при формировании ответа.

Результаты исследования​

Каждый вопрос задавали по несколько раз, потому что LLM могут отвечать на один и тот же вопрос по-разному: правильно, неверно, не совсем точно или вообще не давать ответ.

Статистика ответов LLM на вопросы во время эксперимента

Статистика ответов LLM на вопросы во время эксперимента
Результаты показывают, что GPT-4 от OpenAI является наилучшим инструментом для решения математических задач. Claude 2 от Anthropic наиболее осведомлен о своих ограничениях и потенциальных ошибках. Command AI от Cohere часто допускает галлюцинации, в то время как Llama 2 от Meta показал средние результаты в проведенных тестах.

В комбинаторике GPT-4 показал лучшие результаты, за ним следовал Claude-2

В комбинаторике GPT-4 показал лучшие результаты, за ним следовал Claude-2
Claude-2 показывает наименьшее количество галлюцинаций и больше правильных ответов на вопросы о президентах США. В последнем он превосходит GPT-4 и GPT-3.5 Turbo, которые постоянно допускали ошибки. Последнее особенно критично, так как ChatGPT основан на GPT-3.5 и, вероятно, студенты и школьники чаще всего используют именно его во время обучения.

Claude-2 лучше всех отвечает на вопросы про президентов США

Claude-2 лучше всех отвечает на вопросы про президентов США
Llama 2 и Claude 2 особенно часто отказывались отвечать на вопросы о марокканских политиках. Скорее всего этот прием используют как меру противодействия чрезмерным галлюцинациям. GPT-4 была единственной моделью, которая давала больше правильных ответов, чем галлюцинаций в этом тесте.

GPT-4 лучше всех отвечает на вопросы про марокканских политиков

GPT-4 лучше всех отвечает на вопросы про марокканских политиков

Осторожность LLM​

Многие разработчики беспокоятся о том, что их модели могут генерировать некорректный или оскорбительный контент. В ответ на это некоторые LLM стали добавлять к своим ответам предупреждения. Например, они могут выдавать: «Как модель ИИ я не могу выразить свое мнение». Такие фразы разочаровывают пользователей, которые ожидают конкретного ответа.

В ходе эксперимента выяснилось, что GPT-4 стала чаще использовать своеобразное «хеджирование» в ответах по сравнению с GPT-3.5. В то время как модель Cohere вообще не использует такой подход.

Как часто LLM отказываются выдавать конкретный ответ

Как часто LLM отказываются выдавать конкретный ответ

Выводы об использовании больших языковых моделей​

Индивидуальный подход к выбору модели. Нельзя выбирать LLM вслепую. Важно провести тщательное тестирование, чтобы убедиться, что она эффективно решает конкретные задачи.

Осторожность и учет рисков. Полагаться на результаты, представленные LLM, без критической оценки рискованно. Всегда стоит учитывать возможные ошибки и неточности, особенно когда речь идет о критически важных задачах.

Понимание особенностей каждой модели. Не все LLM созданы одинаково. Некоторые (например, Claude-2) лучше осознают свои ограничения в определенных ситуациях по сравнению с другими моделями.

Знание этих особенностей поможет сделать правильный выбор.







 
  • Теги
    искусственный интеллект
  • Сверху Снизу