AI机房GPU省电
Pebble 定位为“AI 数据中心的能源层”,不是面向终端用户的生成式 AI 工具,而是运行在 GPU 集群旁路的能耗优化平台。它通过实时采集功耗、吞吐、延迟和 SLA 指标,找出每个任务的 efficiency knee 与 SLA threshold,再按 GPU/任务动态设置功率上限,目标是在 SLA 不受影响的前提下回收 20–30% 原本浪费的 TDP。
Pebble Sonar 侧重能效与扩容:在同一电力包络内提升 tokens/watt,或把释放出的功率用于部署更多 GPU。Pebble Flex 则面向电网需求响应,在不跌破 SLA 阈值的情况下按电网信号释放功率。部署方式较工程友好,支持 Kubernetes Helm、Slurm Ansible、Docker,兼容 vLLM、SGLang、TensorRT-LLM、Hugging Face TGI,并通过 NVIDIA DCGM、AMD rocm-smi 获取遥测。网站明确支持 NVIDIA H100/H200/A100/L40S、Hopper/Blackwell,以及 AMD MI300X/MI350X。
公开案例集中在 AMD Instinct MI350X:Llama 3.1 70B FP8、vLLM 场景下,功率从 1000W 降至 825W,吞吐提升 86.5%、tokens/watt 提升 82.4%;Llama 3.1 405B 固定 6kW 场景下,通过加入额外 GPU 吞吐提升 28%。这些数据来自特定 POC,Pebble 也说明实际收益会随模型、GPU、batch profile 和流量变化,生产环境通常为 15–30% tokens/watt 改善,因此上线前必须用 dry-run 或只读评估验证。
网站未披露标准价格,主要通过 Request Demo、30 分钟工作会话和两周只读评估推进,属于典型企业定制销售。隐私方面,正文称 mTLS 默认开启,组件留在防火墙内,且无需改代码、无需模型重写;但未看到数据保留、合规认证等更完整说明。
优点是切中 AI 数据中心“电力墙”痛点,部署侵入性低,支持主流推理栈与集群环境,并有 AMD/MiTAC POC 背书。局限是价格不透明、价值高度依赖大规模 GPU 资产,小团队或普通 AI 应用开发者很难受益。它最适合 Neocloud、私有 AI 数据中心、HPC 平台团队和受电力容量/电费峰值约束的推理运营方。
正文未提供中国大陆访问、人民币支付、本地部署商务或中国电网需求响应合作信息,访问状态只能记为未知。若在中国落地,建议重点确认网络可达性、合同主体、付款方式、对国产或本地 GPU 的支持,以及电网侧收益是否可实现。替代方向包括 NVIDIA DCGM、AMD ROCm SMI 的自研 power capping、Kubernetes/Slurm 能耗调度、Run:ai 或 Ray Serve 资源调度方案。
本测评基于公开资料整理,不构成购买建议,请以 gopebble.com 官网实际信息为准。
为AI数据中心回收GPU浪费电力,方向很前沿。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。