中文 / EN

AI 拓展了我们的能力边界 激发了我们的想象力和创造力

以分时调度共享AI算力,弹性运行超大规模深度学习训练

使用AI进行投资的对冲基金

AI基础科学研究

萤火

算力随时待命

幻方 AI 构建了深度学习训练平台「萤火二号」

「萤火二号」以“任务级分时共享”为核心理念 ,调度系统秒级响应,让每个研究人员都能拥有顺畅的训练体验。同时,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为 AI 开发而生的大容量高带宽文件系统(3FS),让AI 模型能自如拓展到多节点之上,进行大规模并行训练,体验极致性能。

hfai.nn 算子库
hfreduce
3FS

NOI/ACM 金牌团队持续优化核心算子 LSTM 算子快 20%—6 倍 Attention 算子快 30%

数据来源 >

针对「萤火二号」的定制硬件进行优化的 allreduce 方案 无需专用硬件,也能有良好的通讯能力 BERT-Large 在 100 个节点下训练速度提高 20%

数据来源 >

自研分布式并行文件系统 压榨物理高速网络带宽,探索性能边界 IO 响应:18 亿次/秒 读写带宽:7.0 TB/秒

数据来源 >

96 %

集群使用率

85 %

GPU 使用率

7.0TB/s

500GB/s

数据依据 2022 年 2 月的集群使用情况统计

直接申请使用