ОписаниеПроект нацелен на развитие асинхронных методов обучения языковых моделей, способных эффективно осваивать сложные задачи математического и программного рассуждения при ограниченных вычислительных ресурсах. По мере роста размеров моделей и сложности бенчмарков возрастает потребность в методах, которые не зависят от строгой синхронности и умеют работать с разреженными вознаграждениями, устаревшими траекториями и низкобитными представлениями.
В этой роли рассматриваются два направления: либо подход на базе SAC, позволяющий гибко использовать накопленный опыт, либо схема на основе PPO/GRPO, дополненная корректировками несоответствия стратегий через V-trace. Оба варианта стремятся обеспечить более высокую устойчивость и пропускную способность по сравнению с существующими решениями.
Задачи исследования- Разработка и исследование адаптивного curriculum learning для ускорения освоения сложных задач и стабилизации прогресса языковых моделей
- Исследование влияния низкобитных представлений (FP8, INT8) на качество и стабильность асинхронного RL для LLM
- Анализ устойчивости и производительности онлайновых методов (PPO/GRPO) в условиях асинхронного обучения с учетом лагов между стратегиями и эффективности корректировок через V-trac
- Сравнение и сопоставление производительности и пропускной способности асинхронных SAC и PPO/GRPO подходов на задачах требующих рассуждений
- Разработка эффективного фреймворка для асинхронного обучения больших языковых моделей, обеспечивающего стабильность и высокую пропускную способность