Асинхронное обучение с подкреплением для обучения больших языковых моделей

Асинхронное обучение с подкреплением для обучения больших языковых моделей

Описание
Проект нацелен на развитие асинхронных методов обучения языковых моделей, способных эффективно осваивать сложные задачи математического и программного рассуждения при ограниченных вычислительных ресурсах. По мере роста размеров моделей и сложности бенчмарков возрастает потребность в методах, которые не зависят от строгой синхронности и умеют работать с разреженными вознаграждениями, устаревшими траекториями и низкобитными представлениями.

В этой роли рассматриваются два направления: либо подход на базе SAC, позволяющий гибко использовать накопленный опыт, либо схема на основе PPO/GRPO, дополненная корректировками несоответствия стратегий через V-trace. Оба варианта стремятся обеспечить более высокую устойчивость и пропускную способность по сравнению с существующими решениями.

Задачи исследования

Разработка и исследование адаптивного curriculum learning для ускорения освоения сложных задач и стабилизации прогресса языковых моделей
Исследование влияния низкобитных представлений (FP8, INT8) на качество и стабильность асинхронного RL для LLM
Анализ устойчивости и производительности онлайновых методов (PPO/GRPO) в условиях асинхронного обучения с учетом лагов между стратегиями и эффективности корректировок через V-trac
Сравнение и сопоставление производительности и пропускной способности асинхронных SAC и PPO/GRPO подходов на задачах требующих рассуждений
Разработка эффективного фреймворка для асинхронного обучения больших языковых моделей, обеспечивающего стабильность и высокую пропускную способность