艺恩观察:视频AI训练数据告急:公网视频"吃完了",下一批从哪来?
当Sora 2、可灵3.0、Veo 3.1等前沿视频生成模型加速迭代时,一个被行业刻意回避的问题正在浮出水面——训练数据从哪来?
OpenAI在Sora 2的系统卡里仅用41个字描述训练数据来源,未披露任何数据集名称与规模。同期,NVIDIA Cosmos亮出2000万小时、9000万亿token的训练规模,腾讯HunyuanVideo公开了亿级切片的训练流程——前沿模型跑得越快,"用什么训的"反而越说不清。
多模态数据集服务商艺恩在近日发布的行业观察中指出:对任何一家正在做视频生成或世界模型的公司来说,真正的问题不是"下一代模型要多大",而是"下一批训练数据从哪儿来"。
瓶颈一:公开数据正在见底
Epoch AI在2024年ICML论文中估算,经质量修正后的公开人类文本约300万亿token,按当前消耗速度将在2026至2032年间用完。视频领域虽无等价研究,但可反向推算:NVIDIA Cosmos的2000万小时训练语料,大致相当于YouTube全球27天的全部上传量。
公网视频不是不够多,是不够好。质量、密度、信号均不足以支撑下一代模型。Meta V-JEPA 2训练用了"100万小时以上互联网视频加少量交互数据"——前一项是已做到的规模,后一项才是真正的瓶颈。

图 1 · 前沿视频模型训练数据公开披露度对比
瓶颈二:4D与多视角数据,公网里几乎没有
世界模型阵营已将此点明。Meta LeCun在V-JEPA 2论文中指出,"以观察为主学习世界"需结合互联网视频与交互数据;斯坦福Fei-Fei Li更直言:"空间智能的数据都在我们脑子里,不像语言可直接获取。"
目前公开4D数据集规模有限——上海AI Lab的DNA-Rendering提供6750万帧多视角语料,Google Stereo4D挖出11万个4D片段——相比千万小时级2D视频,小两到三个数量级,且高度集中在人体、自动驾驶、室内机器人三个窄域。
资本已用脚投票。2026年初,Fei-Fei Li的World Labs获10亿美元融资,LeCun创立的AMI Labs完成10.3亿美元种子轮,两笔合计20亿美元,核心押注均指向——为"理解物理世界"准备数据。

图 2 · 视频训练数据的三个结构性缺口
瓶颈三:电影级数据开始被定价
带导演意图的视频正在成为稀缺资源。阿里Wan 2.2按光线、色调、构图等几十维标注训练数据;Google Veo 3红队报告显示其输出"偏电影级,常出现切镜与戏剧性运镜"——背后必有高占比电影级语料支撑。
2025年12月,迪士尼以10亿美元入股OpenAI,200余个IP角色被纳入Sora生成范围,虽仅授权"输出生成权"而非"训练权",但这是好莱坞与视频AI首次以IP+现金+股权方式将内容摆上谈判桌。
国内方面,2025年1月爱奇艺起诉MiniMax的版权案仍在审理,索赔仅10万元,但作为中国首例视频平台诉AI模型案,信号意义远超金额本身。
艺恩判断:下一步不在公网
艺恩在观察中给出明确判断:"再加10倍数据"的方向,不在公网,而在三条路——
第一条是仿真合成路线,以NVIDIA Cosmos为代表,用物理仿真与机器人采集数据替代真实视频;
第二条是精标注路线,以Wan 2.2为代表,给现有视频叠加电影级结构化标注;
第三条是IP采购路线,以迪士尼-OpenAI为代表,真金白银买入版权清晰的优质内容。
三条路有一个共同特征:垂类、有授权链、有结构化标注。 艺恩认为,这已不是数据工程问题,而是战略采购问题——决定它的不是工程团队的吞吐能力,而是组织能否搭出一条"合规可溯源+多模态标注+持续更新"的供给体系。

图 3 · 2025-2026 围绕「视频训练数据」的资本与合规节点
艺恩方面表示,其在影视综艺、社媒、电商领域有超过10年的垂类数据积累,包括2.3B+条垂类视频资产、1.2M+部影视综艺授权片,以及多机位与4D采集能力和五维稠密标注体系。在其看来,行业面临的不是"数据用完了",而是"数据该被重新定义"——下一代视频模型需要的不是更多公网视频,而是更结构化、更可溯源、更接近真实物理世界的垂类语料。
推荐阅读
快讯 更多
- 07-09 13:16 | 三重焕新,启航未来——Pivotal中文品牌发布暨乔迁新址、新官网上线
- 04-10 11:21 | 为“首发经济”注入创新动力,CMEF见证宽腾医学影像技术革新
- 02-20 18:53 | 手机也要上HBM芯片?三星计划推出移动版HBM,预计首款产品2028年上市
- 12-30 16:40 | 国产首款DDR5内存问世!价格战开启,复制长江存储击败三星路径!
- 12-30 16:36 | 华为手机回归第一年:全年销量或超4000万台 有望凭借Mate 70在高端市场击败苹果
- 11-26 18:19 | 众兴菌业拟与涟水县人民政府签订《招商引资合同书》 拟投资设立涟水食用菌产业园项目
- 11-26 18:16 | 美芝股份中选vivo全球AI研发中心-精装工程采购项目(标段二)
- 11-26 18:14 | 健之佳拟用不超1亿回购公司股份 维护公司价值及股东权益
- 11-26 09:53 | 格灵深瞳收购深圳市国科亿道科技有限公司部分股权并增资5000万
- 11-26 09:37 | 炜冈科技拟以1.49亿购买衡所华威9.33%股权 华海诚科拟发行可转债收购炜冈科技所持衡所华威股权
