ChatGPT хуже 10 других своих конкурентов по некоторым запросам

Я взял один и тот же запрос и проверил его в разных сервисах-конкурентах. Хуже ChatGPT оказался только GigaChat (от Сбера).

Запрос был в стиле: «Напиши мне статью про стартап Outschool, его бизнес-модель и историю старта, используй проверенные источники и укажи их список в конце».   

Попробовал в ChatGPT, модель GPT-4 с платинами WebPilot и подобными, которые выходят в интернет. И дальше попробовал в 10 других аналогах ChatGPT.

Вот какой личный рейтинг у меня получился:

1. perplexity.ai — пока что лучшее, что оказалось для моего запроса.

2. poe.com  — сервис от Quora, там агрегатор всевозможных LLM, очень неплохо выдает  Google PaLM – но все же хуже, чем perplexity.

3. bing.com— очень неплохо,  на 3-м месте, т.к. есть цитаты и ссылки.

Вторая когорта: 4-8 место получают сервисы, которые выдали примерно схожий по качеству результат, поэтому тут я не скажу, кто из них лучше:

4. Claudie 2 — тоже интересно, но чуть хуже.

5. LLaMa-модель от Meta, примерно как Claudie 2.

6. Bard от Google — примерно тот же уровень, что Claudie2 и LLaMa.

7. Chat от Hugginface.

8. you.com — тоже интересно.

Третья когорта: 9-10 место сервисы, которые показали худший результат по моему запросу:

9. ChatGPT (pro-версия за $20 в месяц  моделью GPT-4 и плагинами) — написал худшую статью из англоязычных.

10. GigaChat от Сбера  (запрос делал на русском) – пока что ожидаемо худший результат.

В мой рейтинг не вошли:

Writesonic — хорошие шаблоны на все случаи жизни, но не для этой задачи, не нашел подходящего.

— YandexGPT — до него я пока так и не добрался, но подозреваю, что будет как GigaChat.

Это все был мой субъективный рейтинг на мой субъективный запрос. Если взять другой промт и другую задачу, наверняка получится другой результат.

Важно отметить: запрос был на английском, довольно сложный и подробный (act as и т.п.) + я неплохо разбираюсь в этой теме и могу экспертно оценить – хорошая статья и запрос про Outschool или не очень. Так что возражение «мусор на входе, мусор на выходе» — не подходит, я и есть тот эксперт, с кем можно сравнить результат на входе и выходе.

Если кто-то проделывал подобные сравнения для каких-то других задач — поделитесь.