航拍人体动作数据集
Okutama-Action 是一个面向空中视角并发人体动作检测的公开视频数据集,由日本国立信息学研究所 Prendinger Lab 支持创建。它包含 43 段约一分钟的全标注视频序列,覆盖 12 类动作,重点模拟无人机航拍场景中的多人、多动作、动态变化问题。
从功能上看,它可用于行人检测、时空动作检测,并提到多人体跟踪任务仍在开发中。数据集的挑战性较强:视频中最多 9 名演员会连续执行多种动作,最多出现 10 个并发动作/演员;同时包含动作动态转换、多标签演员、尺度和长宽比显著变化、突发相机运动等真实问题。数据提供 1280x720 帧与 4K 视频版本,标注字段包括 Track ID、边界框、帧号、丢失、遮挡、插值、Person 标签以及动作列。页面还提供 MultiActionLabels、SingleActionLabels 和 SingleActionTrackingLabels 三类标签文件,便于不同任务使用。
该项目提供最终训练的 Caffe 模型,但没有说明支持 PyTorch、TensorFlow 或其他现代框架,也未提供 API/SDK。授权采用 Creative Commons Attribution-NonCommercial-ShareAlike 3.0,非商业研究可免费使用;若要商业使用,需要联系作者进一步沟通。因此它更像研究数据资产,而不是完整开发者平台或商业 SaaS 工具。
优点是数据场景独特,针对无人机空中视角,标注结构清晰,分辨率高,并且包含现实中的遮挡、视角变化和并发动作问题,适合做算法鲁棒性评测。缺点也明显:页面最后更新为 2018 年,维护活跃度不明;模型基于 Caffe,生态偏旧;缺少数据加载脚本、示例训练代码、API 与现代框架集成说明。
它适合计算机视觉研究者、无人机视觉团队、动作检测和多目标跟踪算法开发者,尤其适合学术论文复现和基准测试。下载链接曾托管在 AWS 和 Dropbox,中国大陆访问可能不稳定,属于部分受限;大文件下载建议准备可靠网络环境。可替代或补充的数据集包括 AVA、Kinetics、UCF101、VisDrone 和 MOTChallenge。
本测评基于公开资料整理,不构成购买建议,请以 okutama-action.org 官网实际信息为准。
无人机视角动作检测数据集,AI研究可用。
评分明细(分布与用户短评)接入中。当前展示 TG4G 综合评分,数据源自公开测评与用户反馈。