XMU-DeepLIT
网站首页
最新资讯
学术团队
论文发表
桃李天下
研途印象
动态成果
联系我们
Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR
Zijun Min
,
Bingshuai Liu
,
Ante Wang
,
Long Zhang
,
Anxiang Zeng
,
Haibo Zhang
,
Jinsong Su
四月 2026
研究方向
大模型训练
出版物
In Proc. of ACL 2026 findings
引用
×