测试数据生成工具
各维度得分依据公开资料与字段推算,加权后即综合评分,仅供参考。
datgen,即 Dataset Generator,是一个用于生成合成数据集的程序。网站标语为“Perfect data for an imperfect world”,其主要用途是帮助用户对其他程序进行经验性分析,尤其是那些需要消费数据的程序。正文示例提到它可以生成用于测试排序程序的数据,其起源则是为数据挖掘分类程序提供测试数据。
datgen 提供两种使用方式:一是通过网页表单交互式描述并创建数据集,包括简单、中级、复杂表单以及显式列定义;二是下载程序源码,在本地计算机上运行,并通过输入参数控制生成过程。可配置项包括属性域、相关属性、掩蔽属性、无关属性、规则数量、元组数量、错误比例、缺失值比例以及输出报告样式等。这些能力使它适合构造分类算法基准数据、测试含缺失值或噪声的数据处理流程。
正文没有说明 datgen 支持哪些编程语言或框架,也未提到 API、SDK、包管理器或现代 IDE/CI 集成。它更像一个早期研究工具:用户可以使用 Web 表单,也可以下载 v3.1 源码在本地运行。页面还提示在复杂需求下可能需要命令行版本,甚至修改代码。虽然源码可下载,但文本没有给出明确开源许可证,因此不能直接判断其开源授权状态。
正文未出现收费、订阅或商业授权信息,网站提供 Web 使用和源码下载入口。文档方面包括数据生成概览、参数概览、FAQ、引用说明等,覆盖基础使用路径;但页面更新较早,源码版本日期为 1999/12/14,页面更新到 2012/03/07,整体文档风格和交互方式都偏旧。邮件回复中还提到超过 50 列的场景测试不足,生成 250 列数据可能需要用户自行尝试和调整。
优点是目标明确、参数可控、可本地运行,适合研究者、教学场景和需要可解释合成数据的算法测试人员。缺点是工具年代久远,易用性有限,现代开发者生态缺失,对高维大规模数据的稳定性信息不足。若需要现代化接口、Python 生态或更丰富的数据类型,Faker、Mockaroo、SDV 或 scikit-learn 的数据生成工具可能更合适。
正文没有提供网络可达性、支付方式或中国区支持信息,因此中国访问状态只能记为未知。考虑到其是传统静态网页与表单工具,实际可用性仍需以本地网络测试为准。
本测评基于公开资料整理,不构成购买建议,请以 datgen.com 官网实际信息为准。
生成数据集用于程序实证分析和测试。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。