大模型人才高度稀缺，“选择”比“培养”更重要｜对话昆仑万维

来源：量子位

近期，“百模大战”愈演愈烈。在大模型热潮中，“人才”成为各大科技公司、创业团队和研究机构激烈争夺的焦点。然而，目前AIGC领域的尖端人才，仍存在较大缺口。

到底招募什么类型人才，有利于模型研发？

去哪里招募大模型人才？

如何培养大模型研发人才？

为了回答以上问题，量子位智库特别邀请AI大模型领域的从业者及领域专家学者，向企业团队和求职者分享大模型人才的机遇挑战以及未来发展前景。

本文为量子位智库“大模型人才”系列深度访谈栏目，更多内容请关注即将发布的《2023 AIGC大模型人才发展全景报告》

访谈人物介绍

方汉，昆仑万维董事长兼CEO，中文Linux创始人之一，领导开发了国内第一款P2P下载软件DUDU加速器。

△昆仑万维董事长兼CEO方汉

2008年加入昆仑万维，先后领导研发了《三国风云》和RPG类网页游戏《武侠风云》，并且多次获奖。

精彩观点

1-2年内，算法人才的短缺情况会得到极大的缓解。我理解的人才创新意识，指的是在技术和工程角度如何创新性地解决问题、提高指标。 “选择”比“培养”更重要，自主学习比师父带徒弟更加重要。在大模型这样的全新领域，刚毕业的博士生经过半年时间的培养，也能成为领域专家。从供给角度看，目前大模型人才处于不足的阶段，3-5年后情况会极大地缓解。从宏观角度来看，与传统行业相比，大模型人才培养难题在于大学目前的算力不够。基于AI和大模型，在应用层面做出全新商业模式的企业将获得最大的红利。

访谈实录

大模型人才如何定义？

量子位智库：昆仑万维是如何划分大模型人才的？

方汉：我认为模型训练应该分成两大块，训练推断与应用开发。按照模型训练的环节，我们又把人才分为算法侧人才、架构侧人才以及应用开发侧人才，核心算法人才又细分为预训练、数据处理、微调推断优化等等。

量子位智库：算法人才、架构人才、应用开发人才，您觉得哪类人才最为稀缺？而且未来很长一段时间都有可能很稀缺。

方汉：目前看，最稀缺的肯定是核心算法人才，但供需情况会迅速得到缓解。因为这里有一个很有意思的现象，目前各个大学算力是严重不足的，大模型相关方向又是当下热点，能转向这个研究领域的人才特别多，比如NLP，所有做NLP的人才全在转向大模型。

所以，我个人看法是1-2年内，算法人才的短缺情况会得到极大缓解，因为拿到高薪的算法人才特别多，我觉得中国在人才配比上还是很市场化的。

大模型人才应当具备的能力要素

量子位智库：那在招揽人才的时候，是比较看重人才本身哪些素质？

方汉：在您所说的学术成果、实践经验、学历背景和创新意识这几个方面，我们优先考虑的是实践经验和创新意识：首先，大模型训练本质上是个工程问题，那么实践经验肯定是非常重要的。其次，大模型是创新项目，因为所有大模型企业都在齐头并进地去竞争，如果没有创新意识，很难领先于其他人的，因为这是全新的工程方向。

量子位智库：您是如何看待这种创新意识？

方汉：我理解的创新与大众定义的创新不太一样，以往更多是算法创新。我所说的创新，首先是紧跟大模型的前沿进展，全球范围内研究大模型训练的人非常多，这个方向进展很快，每天有几百篇新论文出来，在各个方向、领域做改进。第二个是能够从实际需求出发，用新方法来解决在工程上遇到的问题，这里的创新更关注的是如何在技术和工程角度创新地解决问题、提高指标。

量子位智库：您觉得是否可以通过学术成果、专利成果等来判断大模型人才的创新意识？

方汉：我认为根据专利成果来判断人才的创新意识是不太合理的。OpenAI并没有那么重视人才在申请专利方面的表现，最好的创新其实依赖的是内部的经验积累，仅从专利角度来判断是不太合理的。

然而，学术成果是可以作为比较重要的判断依据。比如说第一个做出Vicuna模型，第一个做出ControlNet都是博士生，从这个角度来看学术成果可以作为一定参考。

但是在实际操作过程中，除了发论文的大创新以外，在工程上还要有无数的小创新来实现。所以，创新意识还是要根据人才在实践中解决问题的速度和交付能力来判断。

大模型人才的培养方式

量子位智库：天工大模型从1.0升级到3.5阶段，在不同的阶段会注重配置哪些领域的人才呢？

方汉：在早期阶段我们确实是更需要对大模型底层架构、对CNN、对Transformer更加熟悉的算法人才，当然还包括数据清洗、数据处理这些方面的数据科学人才；等到大模型逐渐成熟需要转向多模态，这时就需要一批做计算机视觉的人才；如果要对外发布大模型，就需要安全审核的人才。

量子位智库：昆仑万维是如何培养自有的大模型人才？

方汉：昆仑万维从2020年开始做大模型训练，当时市面上做大模型的人才非常少，走BERT路线的人比较多，走GPT路线的人比较少，所以我们当时选择自己培养大模型人才。

培养方式就是让有算法背景的人才学习模型训练方向，那么在招聘时就要考虑选择对机器学习、深度学习熟悉的人才，同时有较强的自驱力和学习速度比较快的人才、有算法背景的人才，我们原来有一些人才研究的是CNN等技术方向，现在会更多地转向GPT训练方向。

量子位智库：您如何看待“大牛带小牛”的这种培养模式？

方汉：每个技术驱动的企业其实都会选择“大牛带小牛”的培养方式，但选择人才比培养人才更重要，自主学习比师傅带徒弟更加重要，所以在招聘时我们也十分看重人才的自主学习能力。

对于传统技术方向，比如Java，需要依赖丰富的经验，应届毕业生需要较长的培养周期，才能成长为领域专家。但大模型训练是新兴领域，工业界的积累并不比学术界深厚太多，我们比学术界多的是算力，在算法层面其实我们并不比高校领先太多。

量子位智库：那应届毕业人才如果成长为大模型专家，需要多长时间？

方汉：有大量在读博士生能够发表非常前沿的大模型论文，也看得出来很多大模型创新论文是博二、博三学生发的。我们在学校里找到来了就能上手的人才，花几个月就能成长为领域专家。

我们的想法是，从应届毕业的博士生中选择在校期间就表现出创新能力和技术视野的人才，我们可以用较短的时间来培养“小牛”，就能成为您说的“大牛”。

量子位智库：通过几个月到一年的时间，这样的应届博士生就可以成为领域“大牛”，我理解您所指的“大牛”他们是具备核心研发的能力。

方汉：对，我们给年轻人的机会非常多。其实OpenAI做GPT训练的，可能才几十人，其中有一大批是刚毕业没几年的人才。我觉得国内大模型团队基本都是这样，这是一个全新的领域，新人的机会特别大。刚毕业的博士生干了半年左右，成为领域技术专家是没问题的，但管理能力肯定是有欠缺的。这个技术领域很新，大家都在同一个起跑线上向前跑，应届生不一定有劣势。

量子位智库：您说的应届人才大多是自然语言处理方向的吗？具体会细分到哪些领域？

方汉：也不完全是自然语言处理，我觉得在大模型全生命阶段，除了数据处理需要依赖工程积累，在预训练、RLHF、SFT、算子优化等方面，在学术上都有相应研究方向，所以我认为他们具备了70-80%大模型研发训练的能力。

研究机器学习、强化学习、深度学习的人才，转向大模型都非常容易。而且由于现在有很多开源模型，学术界基于开源模型做论文研究的人也很多，所以我不觉得高校人才存在分工上的绝对差距。