Review of Book "AI Engineering" #2 - Chapter 2. Understanding Foundation Models
Update: 2025-07-14
Description
Вторая серия подкаста с разбором крутой книги "AI Engineering", которая дает представление о создании gen AI приложений. Книгу разбирает Александр Поломодов, технический директор Т-Банка, а также Евгений Сергеев, engineering director в Flo. Во второй серии мы обсудили вторую главу книги, которая посвящена рассмотрению foundational models. Глава была сложной, но вроде мы с Женей справились и обсудили крупными мазками следующие темы
- Введение, структура главы и стадии обучения моделей
- Данные и языки: влияние представленности языков в датасетах
- Доменные знания и необходимость специализированных моделей
- Специфические модели (пример MedPaLM)
- Мультимодальные модели (текст + изображения)
- Переход от RNN/Seq2Seq к трансформерам
- Структура трансформера и механизм внимания
- История разработки трансформеров и их распространение
- Параметры и компоненты трансформеров
- Контекстное окно и MLP-блоки
- Ограничения ресурсов и оптимизация обучения
- Пост-тренинг моделей: SFT и RLHF
- Обучение моделей через RFHF (примеры промптов и ответов)
- Сэмплирование и их стратегии
- Галлюцинации моделей и их природа
- Стоимость ошибок и сценарии применения моделей
Comments
In Channel























