CFFF平台由两部分组成:面向多学科融合创新的AIforScience智能计算集群"切问"一号和面向高精尖研究的专用高性能计算集群"近思"一号。它们通过高速数据传输网连接复旦校内和阿里云乌兰察布数据中心,实现了异构算力的统一管理和计算任务的统一调度。这样,复旦四校区的实验设备都能高速接入,并满足不同应用场景下的科学智能研究与应用需求。
阿里云乌兰察布数据中心是位于"东数西算"节点上的,通过飞天智算平台的公共云模式为外部提供智能计算服务。自2012年以来,阿里云发布了飞天智算平台,并建立了乌兰察布数据中心等两座超大规模智算中心,为科研、公共服务和企业机构提供强大的智能计算服务。这些中心提高了计算资源利用率超过3倍,将AI训练效率提升了11倍,推理效率提升了6倍。
智算中心不仅仅是将配置先进芯片的服务器连接起来,就能实现高性能算力。一个关键指标是损耗,而智能计算的损耗更加困难。与通用型计算相比,智能计算需要大量数据进行训练,数据迁移和分布式训练等环节的损耗尤为严重。传统智算中心达到一定规模后,增加算力资源反而会降低算力输出能力,千卡以上规模的算力输出往往仅有40%左右。但是阿里云通过自研的核心技术,特别是飞天智算平台,大幅降低了智能算力的损耗。
得益于公共云模式,CFFF平台上的项目可以享受到超千卡并行的智能算力。千卡并行的有效算力达到了行业领先的92%,还可以扩展到万卡,并行有效算力也能达到90%。此外,公共云也更加低碳和绿色。乌兰察布数据中心的绿色数据中心技术结合了当地的天然气候优势,CFFF平台的年平均PUE小于1.2,每年可以节省总电力超过2000千瓦,节省电费500万元,年均节碳量达15吨。
目前,CFFF平台上已经诞生了第一个科研成果。复旦大学人工智能创新与产业研究院李昊团队发布了45亿参数量的中短期天气预报大模型,预测效果达到了业界公认的ECMWF(欧洲中期天气预报中心)集合平均水平,并且将预测速度从几小时缩短到了3秒内。李昊表示,基于CFFF平台的千卡并行智能计算,这样一个规模的大模型只用一天就完成了训练,而传统的计算平台是很难做到这一点的。
未来,CFFF平台将继续扩大算力规模,并向复旦校外的科研机构、高校、医院、高科技企业等开放。与此同时,首届世界科学智能大赛也正式启动,大赛设置了生命科学、量子化学等五个赛道,CFFF平台将为参赛队伍提供免费训练算力,并长期支持部分科研项目。
本站所有软件信息均由用户上传发布,版权归原著所有。如有侵权/违规内容,敬请来信告知邮箱:764327034@qq.com,我们将及时撤销! 转载请注明出处:https://czxurui.com/zx/82552.html
发表回复
评论列表(0条)