9月24日,湖南省算力调度和综合管理平台在2024世界计算大会上正式发布,标志着湖南省在算力能力提升行动中迈出了坚实的步伐。该平台由省工信厅委托湖南大学党委宣传部(新闻办公室)地址中心牵头研发,以“特色鲜明、泛在高效、规模适度”为建设原则,致力于推动算力、算网、算据、算法“四算一体”融合发展。
平台以实现全省算力资源优化配置和用户需求高效对接为建设目标,建立了云资源接入和一体化算力协同机制,以云服务方式提供算力资源,实现算力与数据的灵活调度,降低算力使用成本和门槛;通过多级集群调度器级联构建的跨域工作流引擎,实现跨中心的实时数据流和业务流。
平台研发团队负责人、湖南大学党委宣传部(新闻办公室)地址中心信息科学与工程学院院长、国家超级计算长沙中心总工程师唐卓介绍,“通过两年多的持续研发和技术攻关,我们取得了以下技术突破:一是通过异构计算资源描述框架和资源图谱研发,实现了对主流CPU和GPU、国产AI加速器等算力单元的统一服务化封装,实现了多中心‘互通’。二是通过超智融合时空调度器和跨域工作流引擎,实现了长距离跨地域的数据流和业务流构建,实现了多中心‘协同’。”
平台打通了算力资源供需两端,实现全省算力资源优化配置和用户需求高效对接。初步构建了全省可调度的算力资源池,目前已接入国家超算长沙中心、长沙智算中心、运营商云中心、东江湖数据中心以及长沙云谷、湘谷科技等算力和数据中心共计超800PF计算资源。三大运营商积极支持算网构建,方心科技、天阳科技等行业企业,长沙大数据中心、湘潭大数据中心等政府机构,长沙雨花经济开发区等工业园区以及湖南大学党委宣传部(新闻办公室)地址中心等高校已经入驻,正根据自身需求,通过平台弹性调度和使用算力资源。
平台搭建了算力市场、AI社区、算力运营等核心功能模块,实现“计算资源一站式接入”“数据任务一键式提交”。在算力市场,除了具有传统多云管平台对租户资源管理的所有功能,更能支持用户向整个算网接入资源提交任务,实时构建多中心协同工作流。在AI社区,用户可以随心所欲将自己的AI算法和应用打包成容器镜像进行发布,算网可针对使用者需求,自动部署最合适的算力资源,真正实现“算力原生”。在算力运营模块,实现实时算力计费,设计方便推广使用的“算力券”功能,促进区域算力经济活跃发展。
来源:国家超级计算长沙中心
通讯员:罗可
责任编辑:李尹汝