奖励模型的训练方法、大语言模型的优化方法及相关设备

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
推荐专利
奖励模型的训练方法、大语言模型的优化方法及相关设备
申请号:CN202511446159
申请日期:2025-10-11
公开号:CN121031714A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种奖励模型的训练方法、大语言模型的优化方法及相关,奖励模型的训练方法包括:获取偏好训练样本对以及待训练的奖励模型,偏好训练样本对包括首选响应样本与非首选响应样本;基于待训练的奖励模型计算首选响应样本与非首选响应样本的奖励分数差;基于奖励分数差以及首选响应样本、非首选响应样本二者之间的语义关联度构建成本矩阵;基于成本矩阵,计算损失边际;基于损失边际计算得到带边际的成对偏好损失值,并以最小化基于带边际的损失值为优化目标对待训练的奖励模型的参数进行更新,得到训练好的奖励模型。提升了模型对困难样本的学习能力和整体泛化性能,避免过度依赖简单样本,进而改进大语言模型在复杂任务中的生成质量。
技术关键词
样本 语义关联度 计算机可读指令 大语言模型 矩阵 处理器 训练装置 计算机设备 模块 可读存储介质 存储器 参数 关系 信号 策略
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号