Этот курс охватывает ключевые концепции обработки естественного языка (NLP), начиная от традиционных методов и заканчивая современными моделями глубокого обучения. Мы изучим векторные представления текста, языковые модели, механизмы внимания и трансформеры. Отдельное внимание будет уделено оптимизации вычислений, методам сжатия моделей, эффективному обучению и инференсу, а также мультимодальным моделям и агентам на основе больших языковых моделей (LLM).
В курсе рассматриваются следующие темы:
1. Введение в обработку естественного языка
- Основные задачи и области применения NLP
- Традиционные методы vs. глубокое обучение
- Основные этапы обработки текста
2. Регулярные выражения, токенизация и традиционные методы представления текста
- Регулярные выражения (Regex)
- Токенизация
- Bag-of-Words (BoW)
- Наивный байесовский классификатор
- TF-IDF
- n-граммы и поиск по тексту
3. Нейронные сети: основы
- Полносвязные нейронные сети (FNN)
- Основные принципы работы нейросетей
4. Векторные представления слов и сверточные сети
- Word2Vec, GloVe, FastText
- Сверточные нейронные сети (CNN) в NLP
5. Рекуррентные нейронные сети и их модификации
- RNN, LSTM, GRU, SRU
- Двунаправленные RNN
6. Архитектуры seq2seq, внимание и трансформеры
- Seq2seq модели
- Механизм внимания (Attention)
- Трансформеры и их эффективность
- Обучение с переносом (Transfer Learning)
7. Современные языковые модели: BERT, GPT, T5 и другие
- Абсолютное и относительное позиционное кодирование
- Архитектура и применение BERT, GPT, T5, XLNet
8. Эффективные трансформеры и оптимизация работы с LLM
- Разделение параметров (Parameter Sharing
- Механизмы KVC, GQA, Flash Attention
- Оптимизированные архитектуры: Paged Attention, MoE
- TorchCompile, LLAMA, Mistral, Gemma, Phi, MAMBA
9. Оптимизация вычислений, обучение и настройка моделей
- Распределенное обучение
- Квантизация моделей
- Дистилляция знаний
- Подготовка и предобработка данных
- Обучение на инструкциях (Instruction Tuning), PEFT
- Слияние весов моделей
- RLHF, DPO, оценка качества моделей
10. Инференс, промптинг и практическое применение LLM
- Эффективный инференс
- Промпт-инжиниринг: Few-shot, Zero-shot, Chain of Thought (CoT), Reasoning
- Применение LLM в Retrieval-Augmented Generation (RAG)
- Агенты на основе LLM
11. Мультимодальные модели и генерация контента
- CLIP, Chameleon, Pixtral, PaliGemma, Phi-3-Vision
- Stable Diffusion, 3D-моделирование и генерация
- Применение NLP в разработке игр