AI学习数据量枯竭:盘点2026年问题

OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册

AI胃口太大,人类的语料数据已经不够吃了。来自Epoch团队的一篇新论文表明,AI不出5年就会把所有高质量语料用光。

要知道,这可是把人类语言数据增长率考虑在内预测出的结果,换而言之,这几年人类新写的论文、新编的代码,哪怕全都喂给AI也不够。照这么发展下去,依赖高质量数据提升水平的语言大模型,很快就要迎来瓶颈。

已经有网友坐不住了:这太荒谬了。人类无需阅读互联网所有内容,就能高效训练自己。我们需要更好的模型,而不是更多的数据。还有网友调侃,都这样了不如让AI吃自己吐的东西:可以把AI自己生成的文本当成低质量数据喂给AI。

让我们来看看,人类剩余的数据还有多少?

论文主要针对文本和图像两类数据进行了预测。首先是文本数据。数据的质量通常有好有坏,作者们根据现有大模型采用的数据类型、以及其他数据,将可用文本数据分成了低质量和高质量两部分。高质量语料,参考了Pile、PaLM和MassiveText等大型语言模型所用的训练数据集,包括维基百科、新闻、GitHub上的代码、出版书籍等。低质量语料,则来源于Reddit等社交媒体上的推文、以及非官方创作的同人小说(fanfic)等。

根据统计,高质量语言数据存量只剩下约4.6×10^12~1.7×10^13个单词,相比当前最大的文本数据集大了不到一个数量级。结合增长率,论文预测高质量文本数据会在2023~2027年间被AI耗尽,预估节点在2026年左右。看起来实在有点快……

当然,可以再加上低质量文本数据来救急。根据统计,目前文本数据整体存量还剩下7×10^13~7×10^16个单词,比最大的数据集大1.5~4.5个数量级。如果对数据质量要求不高,那么AI会在2030年~2050年之间才用完所有文本数据。

再看看图像数据,这里论文没有区分图像质量。目前最大的图像数据集拥有3×10^9张图片。据统计,目前图片总量约有8.11×10^12~2.3×10^13张,比最大的图像数据集大出3~4个数量级。论文预测AI会在2030~2070年间用完这些图片。

显然,大语言模型比图像模型面临着更紧张的“缺数据”情况。那么这一结论是如何得出的呢?论文从两个角度,分别对文本图像数据生成效率、以及训练数据集增长情况进行了分析。值得注意的是,论文统计的不都是标注数据,考虑到无监督学习比较火热,把未标注数据也算进去了。

以文本数据为例,大部分数据会从社交平台、博客和论坛生成。为了估计文本数据生成速度,有三个因素需要考虑,即总人口、互联网普及率和互联网用户平均生成数据量。例如,这是根据历史人口数据和互联网用户数量,估计得到的未来人口和互联网用户增长趋势。再结合用户生成的平均数据量,就能计算出生成数据的速率。(由于地理和时间变化复杂,论文简化了用户平均生成数据量计算方法)

根据这一方法,计算得出语言数据增长率在7%左右,然而这一增长率会随着时间延长逐渐下降。预计到2100年,我们的语言数据增长率会降低到1%。同样类似的方法分析图像数据,当前增长率在8%左右,然而到2100年图像数据增长率同样会放缓至1%左右。

论文认为,如果数据增长率没有大幅提高、或是出现新的数据来源,无论是靠高质量数据训练的图像还是文本大模型,都可能在某个阶段迎来瓶颈期。

对此有网友调侃,未来或许会有像科幻故事情节一样的事情发生:人类为了训练AI,启动大型文本生成项目,大家为了AI拼命写东西。他称之为一种“对AI的教育”:我们每年给AI送14万到260万单词量的文本数据,听起来似乎比《黑客帝国》中人类当电池要更酷?

你觉得呢?

本站所有软件信息均由用户上传发布,版权归原著所有。如有侵权/违规内容,敬请来信告知邮箱:764327034@qq.com,我们将及时撤销! 转载请注明出处:https://czxurui.com/zx/79073.html

打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年09月04日
下一篇 2023年09月04日

相关推荐

  • 比特币数据如何保存,如何设置比特币数据包到d盘

    一、如何设置比特币数据包到d盘额这个比特币数据包一般存储在C:\Users\Administrator\AppData\Roaming,有个bitcoin的标志文件夹!将Bitcoin文件夹剪切或复制到D盘或其它盘;找到启动Bitcoin的快捷方式图标;在快捷方式的属性窗口中,在“目标”一栏最后加上

    2024-12-02 11:00:02
    8 0
  • 怎么查询比特币链上数据,区块链怎么查询链上数据

    一、区块链怎么搜寻***区块链怎么查询链上数据***怎么样在以太坊上查询区块链币可以输入钱包地址、交易ID、区块哈希或者区块高度等信息直接查询,非常方便。如果是查询账户余额、账户的历史交易数据等信息,建议直接输入钱包地址查询;如果是查询某笔转账的相关信息,比如是否

    2024-11-25 18:00:01
    40 0
  • 如何拿到比特币行情数据,在哪能看比特币最新价格行情

    一、怎么样才能了解比特币最近的行情个人认为,有几大因素推动。1,决定价格的短期因素:供求关系和市场情绪。供求关系,就是买比特币的资金,多于卖比特币的资金,那么,比特币价格就会上涨。买比特币的人多,那么比特币就会上涨。市场情绪,就是当时市场和媒体对比特币价格

    2024-11-22 06:00:01
    31 0
  • 比特币中数据块是什么,区块链技术中的区块是什么

    一、什么是数据区块链(BlockChain)区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),是比特币的一个重要概念,它本质上是一个去中心化的数据库,同时作为比特币的底层技术,是一串使用密码学方法相关联产生的数据块

    2024-11-17 11:00:01
    28 0
  • 元宝网到底有多少会员,E元宝网真实数据

    一、元宝网第一数字货币交易平台是骗人的吗元宝网属于社会毒瘤,由于上边有人没人敢查,元宝网以发展元宝区吸引外资,资金进入后就砸元宝币,以此来割玩家,元宝网每出一个新币就吹着多么多么赚钱,等把币卖给玩家后就一直跌,然后他们就又出来个新币继续卖,等玩家意识到被骗

    2024-11-08 23:00:01
    24 0
  • 比特币计算的是什么数据,比特币如何算出来的

    一、比特币属于什么资产比特币属于一种互联网虚拟资产。与所有的货币不同,比特币不依靠特定货币机构发行,它依据特定算法,通过大量的计算产生,比特币经济使用整个P2P网络中众多节点构成的分布式数据库来确认并记录所有的交易行为。并使用密码学的设计来确保货币流通各个环

    2024-11-07 13:00:01
    27 0

发表回复

8206
验证码

评论列表(0条)

    暂无评论

ok交易所
已有100万用户加入ok交易所

立即下载