海外资源测评导航
返回开发工具 海外资源 / 开发工具 / 容错研究资源 / fault-tolerance.org
F
🔧 开发工具 容错研究资源 美国总部 国内优化

fault-tolerance.org

容错计算研究资料

6.0/10 中国可用
TTG4G 编辑组 ·更新于 2026-06-08 ·数据来源: ai_crawl 评测方法 ↗
数据来源
ai_crawl · 最近更新 2026-06-08
行业深度解析AI 深度分析
一句话面向 MPI 高性能计算程序的用户级故障缓解(ULFM)研究与资源中心。
适合谁MPI/HPC 开发者、并行计算研究人员、需要在节点崩溃后继续运行应用的科研与工程团队
核心功能ULFM 规范与草案资源MPI 崩溃故障后的继续运行机制说明新增 MPI 错误码与通信器接口说明教程、示例、论文与软件下载入口Docker 包与在 NERSC Edison 上运行的资料Google Groups 邮件列表支持
功能与用途ULFM(User Level Failure Mitigation)旨在支持 MPI 程序在崩溃或节点故障影响执行后继续运行。其核心原则是 MPI 调用不能在故障后无限期阻塞,而应成功或抛出 MPI 错误。网站作为社区资源中心,提供教程、规范、论文、软件下载、Docker 包和示例。
支持语言/框架面向 MPI 应用与 MPI 通信模型。正文涉及点对点通信、集合通信、RMA、IO、MPI_COMM_WORLD、MPI Errorhandler 等 MPI 概念;未说明具体编程语言绑定。
开源还是闭源正文提到 ULFM development repository,但未明确说明许可证或开源状态。
自托管选项提供软件下载、Docker Package、Running on NERSC Edison 等资源入口,说明可在用户环境中运行 ULFM 实现;具体部署要求未披露。
API/SDK定义了 3 个补充错误码:MPIX_ERR_PROC_FAILED、MPIX_ERR_PROC_FAILED_PENDING、MPIX_ERR_REVOKED;以及 5 个补充接口:MPIX_Comm_revoke、MPIX_Comm_shrink、MPIX_Comm_agree、MPIX_Comm_failure_get_acked、MPIX_Comm_failure_ack。
集成与生态与 MPI Forum Fault Tolerance Working Group 相关,提供 MPI Forum ULFM ticket、开发仓库、ULFM Examples、Usage Guide、研究论文、SC 教程等资源链接。
文档质量抓取正文包含核心设计目标、错误码、接口说明和引用论文,结构偏学术与社区门户;但具体教程、安装、示例质量需进一步打开相关页面才能判断。
中国访问部分受限
适用场景MPI 并行程序容错研究、HPC 节点故障恢复、故障后通信器重建、科研论文复现实验、容错并行库开发
同类Open MPIMPICHCharm++LegionDaskRay
性价比7
易用5
服务5
综合7
优点
  • 聚焦 MPI 容错这一专业场景,技术定位清晰
  • 提供规范、教程、示例、论文和软件下载等多类资源
  • ULFM API 设计强调用户灵活性,可支持外部库构建不同容错模型
  • 明确列出关键错误码和接口,便于开发者理解核心机制
不足
  • 页面信息偏研究与社区资源,缺少产品化说明
  • 未披露定价、商业支持、SLA 或企业服务信息
  • 文档质量难以完整判断,抓取内容仅显示入口与部分接口说明
  • 依赖 Google Groups 作为联系渠道,中国大陆访问可能不稳定

深度测评

TG4G · 2026-06-08 更新 · 仅供参考

是什么

Fault Tolerance Research Hub 是围绕 ULFM(User Level Failure Mitigation)的研究与社区资源站点。ULFM 由 MPI Forum 的 Fault Tolerance Working Group 推动,目标是在 MPI 程序遭遇进程或节点崩溃后,仍能支持应用继续运行。其关键原则是:MPI 调用在故障后不能无限期阻塞,而应成功返回或抛出 MPI 错误。

核心能力

从功能上看,ULFM 面向高性能计算中的 MPI 容错场景,而不是通用开发平台。正文明确列出 3 个补充错误码:MPIX_ERR_PROC_FAILED、MPIX_ERR_PROC_FAILED_PENDING、MPIX_ERR_REVOKED,以及 5 个通信器相关接口,包括 MPIX_Comm_revoke、MPIX_Comm_shrink、MPIX_Comm_agree、MPIX_Comm_failure_get_acked 和 MPIX_Comm_failure_ack。它允许应用在故障后中断通信、移除失效进程、达成容错共识,并管理已确认的失败进程集合。

生态与文档

网站提供 ULFM Specification、Research Papers、Software Download、Docker Package、Examples、Usage Guide 和 SC 教程等入口,也连接 MPI Forum 相关工作组与开发仓库。文档内容偏学术与工程研究结合,适合有 MPI 背景的开发者阅读;但抓取内容未展示完整安装流程、版本兼容矩阵或详细 API 示例,因此易用性判断有限。

定价与支持

正文未披露任何商业定价、付费计划、SLA 或企业支持信息。联系渠道主要是 Google Groups 邮件列表,用户需先订阅 [email protected],再向列表发信。这种支持方式符合开源/研究社区习惯,但对企业用户而言响应时效和责任边界不明确。

优缺点与适合人群

优点是技术目标清晰,直接解决 MPI 程序故障后恢复这一高价值但专业的问题,并提供规范、论文、示例和软件资源。缺点是门槛较高,主要服务 HPC/MPI 场景,缺少产品化包装和商业支持说明。它更适合 MPI 应用开发者、HPC 平台研究人员、并行计算课程或论文复现实验团队。

中国访问

网站本身能否直连未在正文中体现;但其联系与社区依赖 Google Groups,国内访问通常可能受限,因此综合判断为“部分受限”。如需替代或互补方案,可关注 Open MPI、MPICH 及其他并行/分布式计算框架,但它们与 ULFM 的容错语义并不完全等价。

本测评基于公开资料整理,不构成购买建议,请以 fault-tolerance.org 官网实际信息为准。

中文卖点

含教程、论文和软件,适合科研开发者。

官网快照

/shot/fault-tolerance-org.png
fault-tolerance.org

价格走势

当前价 · 仅供参考
价格未公开 当前定价
价格采集自官网公开页面,实时更新;历史走势数据采集中,暂无足够历史样本。下单请以官网实时价为准。

用户评价

综合评分
6.0/10
TG4G 综合评分

评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。

常见问题

fault-tolerance.org 是一家美国的开发工具 (容错研究资源)服务商. 本页收录其「容错计算研究资料」套餐. 含教程、论文和软件,适合科研开发者.
fault-tolerance.org 在中国大陆有较好的直连体验, 多数地区无需代理即可访问. 该商家总部位于美国, 主要面向海外市场.
访问 fault-tolerance.org 官网完成注册即可使用. 注册一般需要邮箱 (推荐 Gmail/Outlook) 和支付方式. 多数海外服务支持信用卡 / PayPal / 加密货币. 完整流程见本页"前往官网"按钮.

浏览其他大类