Недавно у нас в Product University читала лекцию Татьяна Шаврина, она работает в команде LLaMA (Meta*) над исследованием агентов и специализированными решениями для ускорения экспериментов. До этого работала в Snap и в Сбере над ruGPT.
Ниже небольшой конспект и презентация . И конечно, подпишитесь на Telegram-канал Татьяны.
1. Путь развития AI-агентов и автоматизации.
По данным Meta, возможности автоматизации растут экспоненциально — возможности решать сложные задачи удваивается каждые 7 месяцев (измеряют временем, которое нужно человеку, чтобы решить ту же самую задачу)
Ключевые достижения:
– В 2020 году LLM делали короткие тексты (минутные задачи)
– Сейчас: задачи до 4 часов человеческой работы
2. Прорыв в научных исследованиях.
AI-агенты уже способны создавать научные статьи, которые принимаются на конференции научным сообществом(!)
Это достигнуто за счет:
– Планирования экспериментов
– Итерации по промежуточным результатам
– Анализа реальных данных и кода
– Self-improvement агентов (само-улучшение) – “святой грааль” AI 2025 года
Демонстрация: Агент улучшил архитектуру GPT-2 до GPT-3, получив 24% улучшения в обучении языковой модели.
3. Профессиональные бенчмарки (многобукв для тех, кто не глубоко в теме – пропускайте)
MMLU (Massive Multitask Language Understanding):
– Оценка знаний по множеству предметов
– Формат: вопрос + 4 варианта ответа
– Режимы: обычный и с reasoning (обдумыванием)
SWE-bench (Software Engineering):
– 18,000 реальных задач из GitHub issues
– Результаты: Claude 4 Opus – 67% решений
– Требует работы с большими кодовыми базами
HealthBench (медицина):
– Лучший результат: 67% (критически низко для медицины)
– 15% галлюцинаций в сложных случаях
– Область остается проблемной из-за цены ошибки
ML-бенчмарки (Kaggle):
– 17% агентов получают медали
– O1, GPT-5, Claude 4 работают достаточно хорошо
– Способны делать валидные сабмиты решений
4. Определения AGI (Artificial General Intelligence)
Академическое: Набор способностей – планирование, общение на естественном языке, рассуждение, представление знаний, обучение.
OpenAI (внутреннее): “Высоко автономная система, которая превосходит людей в наиболее экономически выгодных областях”
OpenAI-Microsoft (контракт): Система, способная сделать $100 млрд прибыли. Это определение мне нравится больше всего «кто больше зарабатывает, тот и умнее».
Фокус сместился с академических критериев к автоматизации конкретных профессий.
5. Выбор между Open Source и Closed Source:
– Прототип: Closed Source (быстрее, удобнее)
– После $10M оборота: подумать об Open Source
– Секретные данные: только локальное развёртывание
Локальные решения: LLAMA-CPP, Ollama, GigaChat OSS
Безопасность:
– Никогда: персональные данные, медицинские данные, пароли
– Риск воспроизведения чужого кода (до 8% в некоторых моделях)
– Дополнительное лицензирование с провайдерами
6. Бизнес-модели и монетизация
Маржа OpenAI: ~10%, думают о прибыльности как монополисты в B2C
Anthropic: 25% прибыли от кодовых ассистентов (B2B сегмент)
Риски для обёрток (Cursor и подобные):
– Продают ниже себестоимости
– Зависимы от провайдеров
– Anthropic может поднять цены или сделать собственный интерфейс
– Спасение: продаться или иметь уникальные данные
ROI внедрения LLM:
– Экономия в человеко-часах
– Новые доходы от новых продуктов
7. Ограничения и будущее
Данные: Качественные данные становятся дороже, прирост качества от добавления новых данных снижается.
Математика: Фундаментальные ограничения архитектуры трансформеров для строгой логики. Возможно потребуется новая архитектура.
Контекстное окно: 10-100 миллионов токенов возможны только с экстремальной оптимизацией. Google Gemini лидирует по длинному контексту на
видео благодаря собственным чипам (TPU).
Мультиагентные системы: Низкая зрелость, не использовать в продакшене. Даже Claude 4 оптимизирован для одного агента.
Сооснователь, exCEO – Groupon Russia (Darberry.ru)
Автор tweekly.ru — рассылка с бизнес-трендами
Сооснователь ProductUniversity.ru
Сооснователь UnitedInvestors.ru
Учился в МИФИ, проходил EMBA в Stanford
Скачать статью в PDF