底层GPU系统主页
Prateek Shukla 的这个页面更像一个个人技术栈与项目路线图,核心包括 Telos 与 Hexel。Telos 被描述为“Blackwell-only”的多 GPU LLM serving runtime,目标是构建高性能推理运行时;Hexel 则是 CUDA/PTX primitive library,面向底层 GPU 编程,强调“暴露机器、减少手续、不夺走控制权”。
Telos 的重点是降低 LLM 推理链路中的调度器、KV cache、metadata、sampler 和结果处理开销,并使用 Telos 自有 inference kernels。它的设计哲学非常明确:延迟就是架构。Hexel 则服务于更底层的 kernel 作者,试图简化 CUDA/PTX 编程中的机械性工作,但不隐藏硬件语义。页面还提到 Hopper SM_90、Blackwell SM_100、Tensor Memory Accelerator、mbarriers、tcgen05 以及 5th-gen Tensor Core mma,说明其关注 NVIDIA 新一代 GPU 的底层能力。
正文未披露任何定价、商业授权、支付方式或服务支持信息。开源状态也不明确,虽然页面写有“work in the open”,但没有许可证、代码仓库链接细节或发布版本说明。文档方面,目前仅能看到课程、笔记、benchmark 的计划或入口,其中 Telos 与 Hexel 均标注为 In progress,Blackwell benchmark 也显示 Soon,因此尚不足以作为成熟工具评估。
优点是定位极其垂直,适合追求 Blackwell GPU 上 LLM 推理极限性能的团队;同时 Hexel 的理念对专家级 CUDA/PTX 开发者有吸引力。缺点也明显:硬件范围窄,主要面向 Blackwell;缺少安装、API、示例、benchmark 结果和生态集成说明;对普通应用开发者几乎没有开箱即用价值。
它更适合 GPU kernel 工程师、推理系统研究者、基础设施团队或关注 Blackwell 新特性的开发者,不适合作为通用 LLM serving 框架立即落地。中国访问情况无法从正文判断,暂记为未知;支付方式也无信息。若需要成熟替代,可优先评估 TensorRT-LLM、vLLM、SGLang、Triton Inference Server 或 CUTLASS。
本测评基于公开资料整理,不构成购买建议,请以 prateekshukla.com 官网实际信息为准。
聚焦CUDA、PTX和推理运行时。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。