中文 / EN

AI 拓展了我们的能力边界 激发了我们的想象力和创造力

以分时调度共享AI超算,弹性运行超大规模深度学习训练

使用AI进行投资的对冲基金

AI基础科学研究

萤火

万张A100随时待命

10000 张 A100, 1560 PFlops,任务级分时调度共享

幻方AI构建了超算集群「萤火二号」。拥有 10000 张 NVIDIA A100 显卡,节点间 200Gbps 全双工 InfiniBand 互联带宽,近 3000 张 SSD 上部署的 42PB 高速存储,「萤火二号」总体峰值计算速度可达每秒 156 亿亿次(TF32精度)。 「萤火二号」的平台设计以“任务级分时共享”为核心理念 ,调度系统秒级响应,让每个用户都能体验万卡算力。配合大容量高带宽文件系统(3FS),高性能算子库(hfai.nn),以及分布式训练通讯框架(hfreduce),AI模型就能真正扩展到万卡之上,体验极致性能。 如今「萤火二号」每天执行 32000 个训练作业,支撑着国内外 50 多个机构的AI模型研究工作。

hfai.nn 算子库
hfreduce
3FS

NOI/ACM 金牌团队持续优化核心算子 LSTM 算子快 20%—6 倍 Attention 算子快 30%

数据来源 >

针对「萤火二号」的定制硬件进行优化的 allreduce 方案 无需专用硬件,也能有良好的通讯能力 BERT-Large 在 100 个节点下训练速度提高 20%

数据来源 >

自研分布式并行文件系统 压榨物理 InfiniBand 带宽,探索性能边界 IO 响应:18 亿次/秒 读写带宽:7.0 TB/秒

数据来源 >

96 %

集群使用率

85 %

GPU 使用率

7.0TB/s

500GB/s

数据依据 2022 年 2 月的集群使用情况统计

万张A100, 随时待命

幻方AI提供了高易用性 API 接口,用户可无缝集成到自己的系统、工作、运算环境之中,随时享受万卡算力

扩展异构算力

基础云服务需求

幻方AI可以方便地集成到用户现有的系统中,通过数据高速通路及高易用性接口,一键扩展算力。 我们服务的经典案例:该用户需每周更新数据进行模型训练,在传统云中耗时一周完成训练任务,而幻方萤火超算能够大幅提速(64卡耗时 24 小时,128 卡仅需 16 小时即可完成训练)。 在该场景下,我们也为用户提供更为经济的超算使用方案,比如周一的时候,用较低的价格,提交低优先级任务,等待集群空闲,自动调度任务。接下来用户可以按需逐日提高报价,获取更高调度优先级,以快速完成剩余作业。

萤火

定制AI解决方案

垂直领域深度用户

幻方AI团队为垂直行业提供更为强大的AI定制服务,加速AI对各行各业革命性的技术颠覆。 在此模式下,我们的技术团队与行业专家深度合作,提供定制化AI解决方案,涉及特征处理方式、数据加密、模型优化、高性能运行环境的定向开发等方面。同时,配合算力分时共享技术、为AI开发而生的大容量大带宽文件系统、并行计算模块等强大的软件层支持,用户可以享受到云端专属AI实验室的科研体验。 服务案例中,我们通过为用户定制核心算子(在特定模型下,较官方算子性能提升 5 倍),配合每节点 10Gbps 高速存储等软件层支持,直接为用户削减了一半的 GPU 时消耗。2021 年全年,我们为定制用户共节省 34,560,000 GPU 时*。*计算方式:「萤火二号」一期(5000 张 A100 卡)的定制用户使用量约占集群总量的 80%,定制AI解决方案平均为用户提升性能 100%。

萤火

扩展异构算力

基础云服务需求

萤火

幻方AI可以方便地集成到用户现有的系统中,通过数据高速通路及高易用性接口,一键扩展算力。 我们服务的经典案例:该用户需每周更新数据进行模型训练,在传统云中耗时一周完成训练任务,而幻方萤火超算能够大幅提速(64卡耗时 24 小时,128 卡仅需 16 小时即可完成训练)。 在该场景下,我们也为用户提供更为经济的超算使用方案,比如周一的时候,用较低的价格,提交低优先级任务,等待集群空闲,自动调度任务。接下来用户可以按需逐日提高报价,获取更高调度优先级,以快速完成剩余作业。

定制AI解决方案

垂直领域深度用户

萤火

幻方AI团队为垂直行业提供更为强大的AI定制服务,加速AI对各行各业革命性的技术颠覆。 在此模式下,我们的技术团队与行业专家深度合作,提供定制化AI解决方案,涉及特征处理方式、数据加密、模型优化、高性能运行环境的定向开发等方面。同时,配合算力分时共享技术、为AI开发而生的大容量大带宽文件系统、并行计算模块等强大的软件层支持,用户可以享受到云端专属AI实验室的科研体验。 服务案例中,我们通过为用户定制核心算子(在特定模型下,较官方算子性能提升 5 倍),配合每节点 10Gbps 高速存储等软件层支持,直接为用户削减了一半的 GPU 时消耗。2021 年全年,我们为定制用户共节省 34,560,000 GPU 时*。*计算方式:「萤火二号」一期(5000 张 A100 卡)的定制用户使用量约占集群总量的 80%,定制AI解决方案平均为用户提升性能 100%。