LLM训练数据处理
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
dataclassifier.ai定位为Enterprise LLM DataOps管道,核心目标是把原始文档转成可用于LLM微调、RAG或向量检索的“生产级训练数据”。它强调六阶段一体化流程:摄入、清洗、PII扫描、切分、分类/质量处理、嵌入与导出,面向实际交付模型和数据管道的ML团队。
从正文看,产品支持11种文件格式,包括PDF、DOCX、HTML、Markdown、CSV、JSON、XML、XLSX、纯文本和源码等;支持6种chunking策略,涵盖semantic、code、document、fixed、sliding等场景。它的亮点是将PII检测、MinHash LSH近重复去重、SHA-256精确去重、chunk质量评分结合在同一流程中。每个chunk可获得0.0–1.0质量分,并可在进入embedding API前过滤低质量内容。
API方面,页面披露有REST API、20多个端点、OpenAPI文档,以及Claude Code MCP server,可让AI Agent创建pipeline、提交任务和导出chunks。集成包括OpenAI Embeddings、Cohere、HuggingFace Hub、Cloudflare R2及向量数据库导出。核心管道号称纯Python标准库即可运行,FastAPI仅在需要API服务时安装。
产品当前处于Private Beta,需加入候补名单。定价模式是“Pay for what you process”,但未披露具体金额。Starter提供50GB/月摄入、1,000 jobs/月和5席位;Growth提供500GB/月、10,000 jobs/月、25席位,并增加优先队列、审计日志等;Enterprise不限量,提供SSO/SAML、专属支持、SLA与On-premise/VPC部署。早期候补ML团队可获得Growth计划3个月免费。
优点是流程完整、工程化取向明显,尤其适合训练数据脱敏、切分、去重和质量控制。REST API与MCP也利于自动化集成。局限在于仍处私测阶段,真实稳定性和交付能力需要验证;具体价格、支付方式、安全认证、数据保留策略未披露。中文支持也没有说明,包括中文PII识别、中文语义切分和中文界面均未知。
它更适合有批量文档处理、LLM微调、RAG知识库建设和合规脱敏需求的ML团队或受监管企业。独立研究者也可关注Starter,但成本暂不可判断。中国访问情况正文未提及,判定为未知;支付方式也未披露。若在国内需要替代方案,可评估Unstructured、LlamaIndex、LangChain、Haystack,或结合阿里云百炼、火山方舟等国内平台的数据处理与知识库能力。
本测评基于公开资料整理,不构成购买建议,请以 dataclassifier.ai 官网实际信息为准。
私测中,支持切分、去重、PII检测和导出。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。