LLM и тренды 2025

5
(2)

Недавно у нас в Product University читала лекцию Татьяна Шаврина, она работает в команде LLaMA (Meta*) над исследованием агентов и специализированными решениями для ускорения экспериментов. До этого работала в Snap и в Сбере над ruGPT.

Ниже небольшой конспект и презентация . И конечно, подпишитесь на Telegram-канал Татьяны.   

1. Путь развития AI-агентов и автоматизации.

По данным Meta, возможности автоматизации растут экспоненциально — возможности решать сложные задачи удваивается каждые 7 месяцев (измеряют временем, которое нужно человеку, чтобы решить ту же самую задачу)

Ключевые достижения:

– В 2020 году LLM делали короткие тексты (минутные задачи)

– Сейчас: задачи до 4 часов человеческой работы

2. Прорыв в научных исследованиях.

AI-агенты уже способны создавать научные статьи, которые принимаются на конференции научным сообществом(!)

Это достигнуто за счет:

– Планирования экспериментов

– Итерации по промежуточным результатам

– Анализа реальных данных и кода

– Self-improvement агентов (само-улучшение) – “святой грааль” AI 2025 года

Демонстрация: Агент улучшил архитектуру GPT-2 до GPT-3, получив 24% улучшения в обучении языковой модели.

3. Профессиональные бенчмарки (многобукв для тех, кто не глубоко в теме – пропускайте)

MMLU (Massive Multitask Language Understanding):

– Оценка знаний по множеству предметов

– Формат: вопрос + 4 варианта ответа

– Режимы: обычный и с reasoning (обдумыванием)

SWE-bench (Software Engineering):

– 18,000 реальных задач из GitHub issues

– Результаты: Claude 4 Opus – 67% решений

– Требует работы с большими кодовыми базами

HealthBench (медицина):

– Лучший результат: 67% (критически низко для медицины)

– 15% галлюцинаций в сложных случаях

– Область остается проблемной из-за цены ошибки

ML-бенчмарки (Kaggle):

– 17% агентов получают медали

– O1, GPT-5, Claude 4 работают достаточно хорошо

– Способны делать валидные сабмиты решений

4. Определения AGI (Artificial General Intelligence)

Академическое: Набор способностей – планирование, общение на естественном языке, рассуждение, представление знаний, обучение.

OpenAI (внутреннее): “Высоко автономная система, которая превосходит людей в наиболее экономически выгодных областях”

OpenAI-Microsoft (контракт): Система, способная сделать $100 млрд прибыли. Это определение мне нравится больше всего «кто больше зарабатывает, тот и умнее».

Фокус сместился с академических критериев к автоматизации конкретных профессий.

5. Выбор между Open Source и Closed Source:

– Прототип: Closed Source (быстрее, удобнее)

– После $10M оборота: подумать об Open Source

– Секретные данные: только локальное развёртывание

Локальные решения: LLAMA-CPP, Ollama, GigaChat OSS

Безопасность:

– Никогда: персональные данные, медицинские данные, пароли

– Риск воспроизведения чужого кода (до 8% в некоторых моделях)

– Дополнительное лицензирование с провайдерами

6. Бизнес-модели и монетизация

Маржа OpenAI: ~10%, думают о прибыльности как монополисты в B2C

Anthropic: 25% прибыли от кодовых ассистентов (B2B сегмент)

Риски для обёрток (Cursor и подобные):

– Продают ниже себестоимости

– Зависимы от провайдеров

– Anthropic может поднять цены или сделать собственный интерфейс

– Спасение: продаться или иметь уникальные данные

ROI внедрения LLM:

– Экономия в человеко-часах

– Новые доходы от новых продуктов

7. Ограничения и будущее

Данные: Качественные данные становятся дороже, прирост качества от добавления новых данных снижается.

Математика: Фундаментальные ограничения архитектуры трансформеров для строгой логики. Возможно потребуется новая архитектура.

Контекстное окно: 10-100 миллионов токенов возможны только с экстремальной оптимизацией. Google Gemini лидирует по длинному контексту на

  видео благодаря собственным чипам (TPU).

Мультиагентные системы: Низкая зрелость, не использовать в продакшене. Даже Claude 4 оптимизирован для одного агента.

Насколько публикация полезна?

Нажмите на звезду, чтобы оценить!

Средняя оценка 5 / 5. Количество оценок: 2

Оценок пока нет. Поставьте оценку первым.