多线程高速压缩库
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
Blosc.org 展示的是 Blosc / Python-Blosc2 生态中的压缩数组与表格数据能力。抓取内容重点介绍了新的 CTable:一个面向 Python 大型结构化数据集的列式压缩表对象。它把每一列作为独立的 Blosc2 容器存储,尽量贴近 NumPy 使用方式,同时不依赖外部数据库引擎。
CTable 的核心是“列式 + chunk 压缩 + 查询视图”。固定宽度列使用 blosc2.NDArray,列表列使用 ListArray;数据可在内存或磁盘上使用。where() 返回共享底层列数组的视图,只计算 mask,不复制整表。删除行通过 tombstone mask 标记,compact() 再惰性回收空间。它还支持计算列、生成列、聚合、排序,以及 FULL、BUCKET、PARTIAL 三类索引,索引可随表持久化。
该项目主要面向 Python,底层依赖 C-Blosc2。它与 NumPy 结合紧密,批量 extend 可通过向量化 NumPy 路径做模式校验;单行 append 使用 Pydantic。数据互操作方面,文档列出 Arrow、CSV、pandas、Parquet 的导入导出方法,并提供 to_arrow、to_pandas、to_parquet 等 API,生态衔接较完整。
页面未提供商业套餐,仅看到 Donate to Blosc,因此可判断其主要是开源/捐赠模式。它不是 SaaS,而是本地库;支持内存表、磁盘目录 .b2d、.b2z 压缩归档,并可直接 open 磁盘表读写。网络存储能力在正文中标注为 coming soon,尚不应视为已成熟能力。
优点是压缩效率、批量写入和查询视图设计都很适合大数据量本地分析;文档包含教程、API Reference、索引专题和 benchmark,信息充分。局限是 CTable 仍被称为 young,生态成熟度需观察;列式结构对按行访问有代价;单行 append 性能不适合大量写入。它适合 Python 数据科学、科学计算、离线分析和内存受限场景,不适合需要托管数据库、权限管理或服务端 SQL 的团队。
未从正文获得中国大陆网络、镜像、支付或商业支持信息,china_access 只能评为未知。若访问 GitHub 或安装源受网络影响,可考虑 pandas、Polars、DuckDB、Apache Arrow、PyTables 等替代或配套工具。
本测评基于公开资料整理,不构成购买建议,请以 blosc.org 官网实际信息为准。
开源压缩生态,适合大数据与Python开发者。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。