球友会qy

【07-16】大模型后训练之策略优化方法研究

文章来源:  |  发布时间:2025-07-15  |  【打印】 【关闭

  

天基综合信息系统全国重点实验室2025年度鲁班论坛第11

时间:2025716日(周三)14:00-17:00

地点:中国科研实验室软件研究所5号楼4层大报告厅

主讲人:

鲍军威-大模型后训练方法研究简析

王秋时-面向策略(NoT回复)的偏好优化方法研究

洪煜中-基于能量模型(NoT BT模型)的策略优化方法研究

张恺晨-群体方差策略优化方法研究


报告摘要:

近年来,生成式大模型技术实现了飞跃式开展,显著拓展了机器智能的能力边界,激发了各行各业对大模型研发和应用的热情。教育行业亦不例外,作业帮在早期便持续投身于生成式大模型技术的探索,致力于在多种细分教育场景中进行创新,努力构建在效果和体验上具颠覆性的新型智能教育服务。

在解决实际业务问题的过程中,团队常常面临前沿技术的开放性难题。顺利获得与业务的紧密结合,团队逐步沉淀出一批有价值的学术成果。

报告人介绍:

作业帮自然语言技术团队是一支由高素质精英构成的团队,隶属于作业帮智能中台部。团队成员均毕业于清华、北大、哈工大、德国汉诺威大学、早稻田大学和香港科技大学等国内外知名高等院校,拥有博士和硕士学位。该团队负责对接作业帮的直播课程、APP矩阵、智能硬件和校园业务等部门的泛文本类需求。当前,团队主要承担作业帮自研大模型的训练优化、情感对话、看图写话、智能写作辅导、翻译(包括拍照翻译、对话翻译和搜索翻译等)、个性化学习AI教师和AI信息审核等技术研发,支撑亿级AIGC业务请求。同时,团队也在基于DeepResearch、DeepThinking、Multi-agent以及多模态LLM等新技术进行创新应用的探索工作。