幻方萤火AI训练平台 hfai 可以为您提供简单易用的深度学习训练服务。使用 hfai,您可以在幻方萤火一万张A100显卡上自由部署训练大规模深度学习网络,使用幻方萤火的优化工具为您的模型训练加速。
使用说明
您可以申请使用,审批通过后就可以获得hfai专属账号和资源。您通过VPN接入幻方萤火的网络,浏览器访问 yinghuo.high-flyer.cn,通过预设账号登录即可使用。
观看以下视频快速了解如何通过控制台使用 hfai。
使用样本数据格式 ffrecord
ffrecord 是 hfai 提供的适用于模型训练场景的样本数据格式,其与幻方萤火超算集群的结构相适应,能提供高性能的批次数据读取。更多信息,请参见《幻方萤火 | 高性能数据格式 ffrecord》。
使用并行训练工具 hfreduce
hfreduce 是 hfai 提供的高速模型并行训练工具,根据幻方萤火的集群特性专为计算节点设计的All Reduce工具。其使用 CPU 做加法运算以计算总梯度。更多信息,请参见《幻方萤火 | 模型并行训练工具 hfreduce》。
使用深度学习算子 hfai.nn
hfai.nn 是 hfai 中的算子模块,其提供了比 Pytorch 原生算子性能更优异的优化算子,助力一些常见场景下的模型训练加速。更多信息,请参见《幻方萤火 | 性能卓越的深度学习算子 hfai.nn》