在9月28日举行的2024中国算力大会主论坛上,中国工程院院士刘韵洁发表了题为《确定性网络助力中国算力网高质量发展》的主旨演讲,深入探讨了确定性网络对于推动中国算力网高质量发展的重要性,并针对大模型训练提出了协同训练的建议。
刘韵洁表示,数据要素是人工智能和大模型发展的基础,而网络、算力、数据交换平台和安全构成了数据基础设施的四大支柱。面对AI未来的发展,他认为有三大挑战:大模型对网络的新需求、空间计算的推广和智能体(如人形机器人)的发展。同时,他指出当前网络带宽的增长速度远低于GPU的增长速度,带宽瓶颈逐渐显现,这对算力传输提出了更高的要求。
针对这些挑战,刘韵洁强调了确定性网络的重要性。他提到,国家数据局发布的“数联网”指南对网络的确定性提出了高要求,包括千公里传输抖动不高于50微秒、传输效率大于90%、丢包率低于1/10万等。这些指标的实现离不开确定性网络技术。确定性网络不仅能够满足低时延、高可靠性的需求,还能提升数据传输的效率,是算力网发展的重要基础。
在大模型训练方面,刘韵洁认为,目前大模型只能在单一地点进行训练,存在电力和算力资源难以承受的问题。而协同训练可以在多个地点进行分布式训练,不仅能够减轻单一地点的压力,还能提高训练效率。他透露,通过技术手段,已经实现了分钟级解决排队问题,并且多个异地训练能够达到单点训练80%的效率。他表示,协同训练是大模型训练必须要走的路。
刘韵洁还介绍了在确定性网络技术方面的实验成果。联通、紫金山实验室、江苏未来网络集团等机构合作,成功实现了光电融合的技术突破。这一技术能够大大降低网络的延迟和成本,同时提高传输效率。目前,已经在多个城市进行了试验网的部署和测试,效果非常显著。此外,还在南京、郑州、济南等地建设了确定性网络基础设施,为政务网和企业网的数据共享和流通提供了有力支持。
展望未来,刘韵洁表示,中国要充分利用自身的行业数据优势,发展行业大模型。通过政府、企业和资本的共同努力,将行业数据训练成高效的大模型,从而走出一条具有中国特色的AI发展道路。同时,他也呼吁全国各地加快算力网络的建设和调度工作,共同推动中国算力网络的高质量发展。
来源:新华网