用暂停 token 重新训练大模型，AI 学会三思而后行

来源：量子位

让ChatGPT给出答案之前多想想步骤，就能提高准确率。

那么能不能省去提示词，直接把这种能力内化在大模型里呢？

CMU与谷歌团队的新研究，在训练大模型时加入暂停token来实现这一点。

实验中，8项评测成绩提升，其中SQuAD的EM得分提高18%，CommonSenseQA提高8%，GSM8k中的推理任务也提高1%。

研究者Jack Hack表示，自己不久前就提出类似假设，很高兴看到它被验证。

英伟达工程师Aaron Erickson表示，是不是和人类说话时加入“嗯嗯啊啊”是一个道理？

预训练微调都加入暂停token

整个研究基于一个简单的想法：

在输入序列后面追加一系列（暂停token），从而延迟模型输出下一个token。

这可以给模型额外的计算时间来处理更复杂的输入。

作者不仅在下游任务微调时引入，还在预训练时就随机在序列中插入，让模型在两阶段都学习如何利用这种计算延迟。

预训练阶段，在语料库中随机插入一定比例的暂停token到输入序列，进行标准的自回归预训练。但计算损失时会跳过暂停token的预测。

下游任务微调时，输入中也追加一定数量的暂停 token，然后对目标序列进行自回归预测，同时微调模型参数。

推理阶段也追加相同数量的暂停token，但忽略模型输出直到最后一个暂停token，然后开始提取答案。

实验使用了标准的Transformer纯Decoder模型，分为130M参数和1B参数两个版本。

其中暂停token只增加了1024个参数，也就是它本身的embedding大小。

在9个不同任务上的实验表明，仅在微调阶段引入暂停token的效果并不明显，有些任务不会提升。

但如果在预训练和finetune阶段都使用暂停token，大多数任务上都获得显著提升。

论文还探究了暂停token的数量、位置等关键超参数。发现对于不同的模型通常存在一个最优的数量。

最后作者也提出，这项工作也有不少局限性。由于暂停token增加了模型计算量，与其他方法对比是否公平还有待讨论新方法需要重新预训练，在实际应用还有一定困难对具体工作机制还缺乏深入理解推理时如果暂停token数量为0，模型表现仍然不佳

搜索引擎You.com的CEO表示，接下来是不是应该把所有提高人类认知表现的技巧都对大模型试一试？

现在已经有了“一步一步地想”和“深呼吸”。

也许下一个爆款论文就是教大模型带着问题睡一觉或者更离谱的健康饮食、注意锻炼。

论文地址：
https://arxiv.org/abs/2310.02226

参考链接：
[1]https://twitter.com/arankomatsuzaki/status/1709372124891070915

本站所有软件信息均由用户上传发布，版权归原著所有。如有侵权/违规内容，敬请来信告知邮箱：764327034@qq.com，我们将及时撤销！转载请注明出处：https://czxurui.com/zx/91087.html

「金色财经」Astar创始人：ASTR代币经济模型2.0已准备好接受审计

「金色财经」AstarNetwork创始人SotaWatanabe11月15日报道称，ASTR代币经济模型2.0版的构建已经接近尾声，并且准备进行审计新的代币经济模型在审计完成后将更新到主网，预计这将在年底或明年一季度初完成，具体时间取决于

币大大

2023-11-15 18:30:07

189 0

英特尔AuroragenAI预测模型在大模型领域崭露头角

自从ChatGPT诞生以来，越来越多的科技公司加入了生成式AI的开发领域。微软、谷歌、Meta之后，英特尔在德国汉堡举行的国际超级计算大会高性能会议上宣布与阿贡国家实验室合作，共同使用Aurora超级计算机开发了一个名为AuroragenA

币大大

2023-11-15 15:00:40

192 0

Meta首席科学家陈根推出MMS强大AI大模型

你懂几国语言？据相关资料显示，世界上一共有7000多种语言。但是，我们懂的可能就只有几种或者几十种。而目前的计算机语音识别技术所能覆盖的则有100多种。这对于很多人来说，已经是天文级的数字了。但Meta新开源的语言模型却有着更大的突破。自从

币大大

2023-11-15 13:00:43

183 0

OpenAI确认正在开发GPT5，可能拥有超级智能

OpenAI已开始构建下一代人工智能模型 ChatGPT 5，该公司的首席执行官Sam Altman在最近的一次采访中证实了这一消息，并声称这个模型有可能拥有超级智能，但是要实现这个目标，还需要其长期合作伙伴微软的进一步投资。Altman还

币大大

2023-11-14 20:00:31

219 0

「金色财经」OpenAI确认正在开发GPT5，可能拥有超级智能

「金色财经」金色财经报道，OpenAI已开始构建下一代人工智能模型ChatGPT5，该公司的首席执行官SamAltman在最近的一次采访中证实了这一消息，并声称这个模型有可能拥有超级智能，但是要实现这个目标，还需要其长期合作伙伴微软的进一步

币大大

2023-11-14 19:30:03

166 0

AI算力竞争：GPU、存算一体、量子计算三种解决方案国内能否脱颖而出

财联社5月14日讯（编辑俞琪）随着ChatGPT、百度文心一言等一系列大模型密集上线，AI大模型当下已经遍地开花。本周四，谷歌发布资深小编PaLM2与OpenAI旗下GPT-4等系统展开竞争，国内云从科技、引力传媒等多家A股上市公司亦宣布A

币大大

2023-11-14 12:00:43

202 0

Josephwek 2025年03月04日

https://virtual-local-numbers.com/countries/1240-india-toll-free-numbers.html

评论于离线比特币怎么使用，离线生成的比特币地址是如何避免冲突的
Josephwek 2025年03月03日

https://continent-telecom.com/virtual-number-usa

评论于离线比特币怎么使用，离线生成的比特币地址是如何避免冲突的
古币系统 2025年02月16日

虚拟再厉害不能托孤，往往控国之术在于放。黄金起义需要靠全民。

评论于如何把虚拟币存进硬盘，比特币怎么存储到硬盘
古币系统 2025年02月16日

虚拟再厉害不能托孤，往往控国之术在于放。黄金起义需要靠全民。

评论于如何把虚拟币存进硬盘，比特币怎么存储到硬盘
古币系统 2025年02月16日

虚拟再厉害不能托孤，往往控国之术在于放。黄金起义需要靠全民。

评论于如何把虚拟币存进硬盘，比特币怎么存储到硬盘

用暂停 token 重新训练大模型，AI 学会三思而后行

OKX欧易app

binance币安交易所

预训练微调都加入暂停token

发表回复

评论列表（0条）

用暂停 token 重新训练大模型，AI 学会三思而后行

OKX欧易app

binance币安交易所

预训练微调都加入暂停token

相关推荐

「金色财经」Astar创始人：ASTR代币经济模型2.0已准备好接受审计

英特尔AuroragenAI预测模型在大模型领域崭露头角

Meta首席科学家陈根推出MMS强大AI大模型

OpenAI确认正在开发GPT5，可能拥有超级智能

「金色财经」OpenAI确认正在开发GPT5，可能拥有超级智能

AI算力竞争：GPU、存算一体、量子计算三种解决方案国内能否脱颖而出

发表回复

评论列表（0条）