容错计算研究资料
Fault Tolerance Research Hub 是围绕 ULFM(User Level Failure Mitigation)的研究与社区资源站点。ULFM 由 MPI Forum 的 Fault Tolerance Working Group 推动,目标是在 MPI 程序遭遇进程或节点崩溃后,仍能支持应用继续运行。其关键原则是:MPI 调用在故障后不能无限期阻塞,而应成功返回或抛出 MPI 错误。
从功能上看,ULFM 面向高性能计算中的 MPI 容错场景,而不是通用开发平台。正文明确列出 3 个补充错误码:MPIX_ERR_PROC_FAILED、MPIX_ERR_PROC_FAILED_PENDING、MPIX_ERR_REVOKED,以及 5 个通信器相关接口,包括 MPIX_Comm_revoke、MPIX_Comm_shrink、MPIX_Comm_agree、MPIX_Comm_failure_get_acked 和 MPIX_Comm_failure_ack。它允许应用在故障后中断通信、移除失效进程、达成容错共识,并管理已确认的失败进程集合。
网站提供 ULFM Specification、Research Papers、Software Download、Docker Package、Examples、Usage Guide 和 SC 教程等入口,也连接 MPI Forum 相关工作组与开发仓库。文档内容偏学术与工程研究结合,适合有 MPI 背景的开发者阅读;但抓取内容未展示完整安装流程、版本兼容矩阵或详细 API 示例,因此易用性判断有限。
正文未披露任何商业定价、付费计划、SLA 或企业支持信息。联系渠道主要是 Google Groups 邮件列表,用户需先订阅 [email protected],再向列表发信。这种支持方式符合开源/研究社区习惯,但对企业用户而言响应时效和责任边界不明确。
优点是技术目标清晰,直接解决 MPI 程序故障后恢复这一高价值但专业的问题,并提供规范、论文、示例和软件资源。缺点是门槛较高,主要服务 HPC/MPI 场景,缺少产品化包装和商业支持说明。它更适合 MPI 应用开发者、HPC 平台研究人员、并行计算课程或论文复现实验团队。
网站本身能否直连未在正文中体现;但其联系与社区依赖 Google Groups,国内访问通常可能受限,因此综合判断为“部分受限”。如需替代或互补方案,可关注 Open MPI、MPICH 及其他并行/分布式计算框架,但它们与 ULFM 的容错语义并不完全等价。
本测评基于公开资料整理,不构成购买建议,请以 fault-tolerance.org 官网实际信息为准。
含教程、论文和软件,适合科研开发者。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。