AI 拓展了我们的能力边界 激发了我们的想象力和创造力
幻方AI构建了超算集群「萤火二号」。拥有 10000 张 NVIDIA A100 显卡,节点间 200Gbps 全双工 InfiniBand 互联带宽,近 3000 张 SSD 上部署的 42PB 高速存储,「萤火二号」总体峰值计算速度可达每秒 156 亿亿次(TF32精度)。 「萤火二号」的平台设计以“任务级分时共享”为核心理念 ,调度系统秒级响应,让每个用户都能体验万卡算力。配合大容量高带宽文件系统(3FS),高性能算子库(hfai.nn),以及分布式训练通讯框架(hfreduce),AI模型就能真正扩展到万卡之上,体验极致性能。 如今「萤火二号」每天执行 32000 个训练作业,支撑着国内外 50 多个机构的AI模型研究工作。
96 %
集群使用率
85 %
GPU 使用率
7.0TB/s读
500GB/s写
数据依据 2022 年 2 月的集群使用情况统计
幻方AI提供了高易用性 API 接口,用户可无缝集成到自己的系统、工作、运算环境之中,随时享受万卡算力
扩展异构算力
基础云服务需求
幻方AI可以方便地集成到用户现有的系统中,通过数据高速通路及高易用性接口,一键扩展算力。 我们服务的经典案例:该用户需每周更新数据进行模型训练,在传统云中耗时一周完成训练任务,而幻方萤火超算能够大幅提速(64卡耗时 24 小时,128 卡仅需 16 小时即可完成训练)。 在该场景下,我们也为用户提供更为经济的超算使用方案,比如周一的时候,用较低的价格,提交低优先级任务,等待集群空闲,自动调度任务。接下来用户可以按需逐日提高报价,获取更高调度优先级,以快速完成剩余作业。
定制AI解决方案
垂直领域深度用户
幻方AI团队为垂直行业提供更为强大的AI定制服务,加速AI对各行各业革命性的技术颠覆。 在此模式下,我们的技术团队与行业专家深度合作,提供定制化AI解决方案,涉及特征处理方式、数据加密、模型优化、高性能运行环境的定向开发等方面。同时,配合算力分时共享技术、为AI开发而生的大容量大带宽文件系统、并行计算模块等强大的软件层支持,用户可以享受到云端专属AI实验室的科研体验。 服务案例中,我们通过为用户定制核心算子(在特定模型下,较官方算子性能提升 5 倍),配合每节点 10Gbps 高速存储等软件层支持,直接为用户削减了一半的 GPU 时消耗。2021 年全年,我们为定制用户共节省 34,560,000 GPU 时*。*计算方式:「萤火二号」一期(5000 张 A100 卡)的定制用户使用量约占集群总量的 80%,定制AI解决方案平均为用户提升性能 100%。
扩展异构算力
基础云服务需求
幻方AI可以方便地集成到用户现有的系统中,通过数据高速通路及高易用性接口,一键扩展算力。 我们服务的经典案例:该用户需每周更新数据进行模型训练,在传统云中耗时一周完成训练任务,而幻方萤火超算能够大幅提速(64卡耗时 24 小时,128 卡仅需 16 小时即可完成训练)。 在该场景下,我们也为用户提供更为经济的超算使用方案,比如周一的时候,用较低的价格,提交低优先级任务,等待集群空闲,自动调度任务。接下来用户可以按需逐日提高报价,获取更高调度优先级,以快速完成剩余作业。
定制AI解决方案
垂直领域深度用户
幻方AI团队为垂直行业提供更为强大的AI定制服务,加速AI对各行各业革命性的技术颠覆。 在此模式下,我们的技术团队与行业专家深度合作,提供定制化AI解决方案,涉及特征处理方式、数据加密、模型优化、高性能运行环境的定向开发等方面。同时,配合算力分时共享技术、为AI开发而生的大容量大带宽文件系统、并行计算模块等强大的软件层支持,用户可以享受到云端专属AI实验室的科研体验。 服务案例中,我们通过为用户定制核心算子(在特定模型下,较官方算子性能提升 5 倍),配合每节点 10Gbps 高速存储等软件层支持,直接为用户削减了一半的 GPU 时消耗。2021 年全年,我们为定制用户共节省 34,560,000 GPU 时*。*计算方式:「萤火二号」一期(5000 张 A100 卡)的定制用户使用量约占集群总量的 80%,定制AI解决方案平均为用户提升性能 100%。