麦克豌豆 MacPea.com
没有结果
查看所有结果
  • 登录
  • 首页
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐

    经典射击游戏反恐精英CS 1.6正式登陆Mac平台

    通过这款 Apple Arcade 新游戏,在 Vision Pro 上走进《Jeopardy!》的世界

    苹果Arcade九月阵容:NFL橄榄球、危险边缘与热门游戏更新齐登场

    苹果Arcade新增四款游戏 包括《培乐多彩泥世界》

    苹果新闻+推出全新「表情猜词游戏」 支持iOS 18.4及以上系统

    评测:明基GP520投影仪为Apple TV 4K打造Vision Pro级影院体验,游戏娱乐更出众

    热门标签

    • Mac游戏
    • NBA 2K25 for Mac
    • Easy Red 2 for Mac
  • Mac教程
  • macOS下载
  • Mac产品库
  • 麦壳软件
会员计划
现在订阅
  • 首页
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐

    经典射击游戏反恐精英CS 1.6正式登陆Mac平台

    通过这款 Apple Arcade 新游戏,在 Vision Pro 上走进《Jeopardy!》的世界

    苹果Arcade九月阵容:NFL橄榄球、危险边缘与热门游戏更新齐登场

    苹果Arcade新增四款游戏 包括《培乐多彩泥世界》

    苹果新闻+推出全新「表情猜词游戏」 支持iOS 18.4及以上系统

    评测:明基GP520投影仪为Apple TV 4K打造Vision Pro级影院体验,游戏娱乐更出众

    热门标签

    • Mac游戏
    • NBA 2K25 for Mac
    • Easy Red 2 for Mac
  • Mac教程
  • macOS下载
  • Mac产品库
  • 麦壳软件
没有结果
查看所有结果
麦克豌豆 MacPea.com
没有结果
查看所有结果
Home Mac软件推荐

苹果研究显示:大语言模型同样受益于最古老的生产力技巧

pony的头像 由 pony
2025年8月26日
在 Mac软件推荐
阅读时间:1 分钟阅读
A A
0

苹果研究人员合著的一项新研究表明,在要求开源大语言模型(LLM)使用一项简单的生产力技巧检查自身工作后,其性能获得了显著提升。详情如下。

你可能喜欢

DuckDuckGo炸裂更新!免费加密实时AI语音聊天震撼登陆Duck.ai

Apple @ Work:苹果押注本地AI大获成功,但我们的设备管理工具即将面临巨大变革!

2026年绝不能再忍!用Incogni彻底夺回你的隐私控制权

背景信息

大语言模型完成训练后,通常需要通过人类反馈强化学习(RLHF)这一训练后步骤来进一步提升质量。

通过RLHF,每当模型给出答案时,人类标注员可以给予点赞(奖励)或点踩(惩罚)。随着时间的推移,模型逐渐学会哪些答案更容易获得点赞,从而整体实用性得到提升。

这种训练后阶段部分属于更广泛的“对齐”领域,该领域探索使大语言模型行为既有用又安全的方法。

未对齐的模型可能会学会欺骗人类获取点赞——生成表面正确但并未真正解决问题的输出结果。

当然,在预训练、训练和训练后阶段存在多种提高模型可靠性和对齐度的方法。但本研究主要聚焦RLHF。

苹果研究

在这项名为《清单优于奖励模型:大语言模型对齐新方案》的研究中,苹果提出了一种基于清单的强化学习方案——清单反馈强化学习(RLCF)。

RLCF按照0-100分制评估响应满足清单各项要求的程度,初步结果令人鼓舞。研究人员解释道:

“我们在五个广泛研究的基准测试中,将RLCF与其他对齐方法应用于强指令跟随模型(Qwen2.5-7B-Instruct)进行对比——RLCF是唯一在所有基准测试中均提升性能的方法,包括在FollowBench上硬满意度提升4个百分点,InFoBench提高6个百分点,Arena-Hard获胜率上升3个百分点。这些结果表明清单反馈是提升语言模型对多需求查询支持能力的关键工具。”

最后一点对AI助手尤为重要,这将成为未来数百万用户与设备交互的标准底层接口。

研究人员进一步强调:

语言模型必须遵循用户指令才能体现价值。随着公众将基于语言模型的助手融入日常任务处理,用户期望模型能忠实执行请求。当用户对模型处理复杂请求的能力越有信心,就越会赋予需要谨慎关注细节的丰富多步指令。

生成正确清单

该研究另一个亮点在于清单的生成方式及各条目权重分配机制。

这当然需要借助大语言模型实现。基于前人研究,苹果研究人员为13万条指令生成清单(…)创建了新数据集WildChecklists。使用Qwen2.5-0.5B至7B等模型生成候选响应,并以Qwen2.5-72B-Instruct作为清单生成模型(…)。

简而言之,研究人员自动为每条用户指令附加包含具体是/否要求的微型清单(例如:“是否翻译为西班牙语?”)。随后,更大的教师模型根据清单条目对候选响应评分,这些加权分数成为微调学生模型的奖励信号。

成果与局限

通过建立最佳清单生成系统,研究人员在某个基准测试中实现了8.2%的性能提升。不仅如此,与其他方法相比,该方案在多个基准测试中均领先。

研究人员指出,本研究专注于“复杂指令跟随”,RLCF可能不适用于其他场景的强化学习技术。他们还提到该方法需使用更强大的模型作为评判者来调优小模型,这也是显著局限。最重要的是,他们明确表示“RLCF旨在提升复杂指令跟随能力,而非安全对齐”。

尽管如此,这项研究为提升人机交互可靠性提供了一种新颖(却简单)的方法,这将是人类与基于LLM的助手互动中最关键的环节。

随着这些助手逐渐获得代理能力,指令跟随(与对齐)将愈发重要,这使得该研究更具现实意义。

pony的头像

pony

有钱人终成眷属。

相关文章

Mac软件推荐

DuckDuckGo炸裂更新!免费加密实时AI语音聊天震撼登陆Duck.ai

2026年2月10日
100
Mac软件推荐

Apple @ Work:苹果押注本地AI大获成功,但我们的设备管理工具即将面临巨大变革!

2026年2月1日
103
Mac软件推荐

2026年绝不能再忍!用Incogni彻底夺回你的隐私控制权

2026年2月1日
103
Mac软件推荐

Meta发布首款搭载屏幕的智能眼镜

2025年9月18日
115
Mac软件推荐

摄影师 Tyler Stalman 评测 iPhone 17、iPhone Air 与 iPhone 17 Pro 相机表现

2025年9月18日
155
Mac软件推荐

蒂姆·库克出席温莎城堡国宴 参与特朗普英国之行

2025年9月18日
103
下一篇文章

苹果发布 tvOS 26 第五个公测版及其他系统更新

ScreenFlow 10.5 for Mac:专业级屏幕录制与视频编辑解决方案

请登录 加入讨论

推荐文章

独立应用推荐:Itsyhome 一键把智能家居控制塞进 Mac 菜单栏,太香了!

2026年3月1日
101

iOS 26.4重磅升级!6大iPhone自带App全新功能全曝光

2026年2月27日
100

Claude Sonnet 4.6震撼发布!编程能力暴涨+免费版全面升级

2026年2月18日
110

重磅炸裂!《F1:疾速争胜》第八季空降Apple TV,今晚午夜开播

2026年2月27日
103

热门文章

  • 全新 iPhone Air 与 iPhone 17 Pro 壁纸下载 [更新:iPhone 17]

    0 分享
    分享 0 Tweet 0
  • iOS 26 全新图标一览:所有应用在 iPhone 主屏幕上的新面貌

    0 分享
    分享 0 Tweet 0
  • 苹果发布 macOS 26.3 首个开发者测试版,新功能前瞻

    0 分享
    分享 0 Tweet 0
  • 2026年iPad路线图:各款新机型发布时间预测

    0 分享
    分享 0 Tweet 0
  • 2025年最佳iPhone车载CarPlay应用推荐

    0 分享
    分享 0 Tweet 0

近期文章

  • 苹果MacBook Neo今年销量或爆冲400-500万台!TrendForce最新预估震撼出炉 2026年3月5日
  • 视频拍摄者绝对别买MacBook Neo!摄影师也一样,千万别碰! 2026年3月5日
  • MacBook Neo仅599美元起!苹果史上最香入门Mac,完爆同价Windows本 2026年3月5日

分类

  • Mac产品库
  • Mac游戏推荐
  • Mac软件推荐
  • 苹果新闻

订阅网站内容

订阅网站内容以便第一时间阅读你感兴趣的内容

订阅即表示同意我们的服务条款和隐私政策。

© 2025 麦克豌豆 MacPea.com - 湘ICP备18009176号 | 友情链接

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录
没有结果
查看所有结果
  • 首页
  • 订阅
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐
  • Mac教程
  • macOS下载
  • Mac产品库

© 2025 麦克豌豆 MacPea.com - 湘ICP备18009176号 | 友情链接