数据集调研：经典数据集、创建流程与电商图片-视频对构建方案

2026/05/19 17:56:00

AI架构·17 min read

AI 各领域经典数据集一览

计算机视觉 — 图像分类

数据集	发布年份	规模	类别数	核心用途
ImageNet (ILSVRC2012)	2009	~1500万张，常用子集120万训练/5万验证/10万测试	1000	图像分类（标准benchmark）
CIFAR-10	2009	6万张32×32图	10	快速算法验证
CIFAR-100	2009	6万张32×32图	100	细粒度分类实验

计算机视觉 — 目标检测 / 分割

数据集	发布	规模	类别	标注类型
MS COCO	2014	33万图（20万标注），150万+实例	80	实例分割mask、检测框、关键点、看图说话
Open Images (Google)	2016	~900万图	6000	分类+检测框
PASCAL VOC	2005–2012	~11,530图	20	检测/分割
Cityscapes	—	5K精细标注 + 20K粗标注	29	街景分割（自动驾驶）
ADE20K (MIT)	2017	25K图	150	场景解析

自然语言处理

数据集	发布	规模	说明
SQuAD 1.1/2.0	2016/2018	10万+问答对，500+篇文章	维基百科阅读理解
MS MARCO	2016	100万+问题，880万段落	Bing真实用户查询
GLUE / SuperGLUE	2018/2019	9个/10个任务	NLU综合benchmark
The Pile	2020	825GB，22个来源	预训练语料
20 Newsgroups	—	~20,000文档	文本分类经典

多模态 — 图文对

数据集	规模	说明
LAION-5B	58.5亿 image-text pairs	最大开源图文数据集，2.32B含英文
LAION-COCO	6亿	LAION2B子集，高质量合成caption
MS COCO Captions	33万图，每图5句描述	看图说话标准
MEP-3M	300万商品图文对	电商多模态分类，599类（IJCAI2021最佳数据集论文）
FashionFail	电商图片	服饰检测/分割

视频理解 — 语音

领域	数据集	规模
视频理解	YouTube-8M	700万视频，4700类，45万小时
动作识别	Kinetics-400	30万视频片段，400类
语音	LibriSpeech	~1000小时英文有声书
语音	Common Voice	多语言众包语音

创建数据集的六个阶段

阶段一：需求定义

明确研究问题和任务类型（分类/检测/生成/检索）；确定数据类型（图像/文本/视频/语音/多模态）；设定质量标准和规模目标；设计标注体系（标签、标注方式、格式）。

阶段二：数据收集

途径	适用场景	优点	风险
公开数据集	基准任务	零成本，可对比	可能不满足需求
网络爬取/Scraping	大规模收集	量大	版权、robots.txt
众包标注（MTurk等）	需要标签	灵活	成本高
真实业务数据	工业场景	最贴近实际	隐私、清洗难度大
合成数据	补充不足	可控，可无限生成	质量需验证
数据增强	已有数据上扩增	低成本	不增加信息量

阶段三：数据清洗与预处理

去重（精确去重 + 近似去重）
质量过滤（模糊图、低分辨率、无关内容）
格式统一（resize、归一化）
敏感内容检测与过滤
数据分布检查（类别平衡性）

阶段四：标注

人工标注（最准确但成本最高）→ 半自动标注（模型预标+人工修正）→ 自动标注（规则打标）→ 众包（分片+多人校验）→ 交叉验证（计算标注者一致性）。

阶段五：划分与验证

训练/验证/测试划分（通常80/10/10或70/15/15）；分层抽样确保分布一致；标注质量审计。

阶段六：发布与维护

开源许可选择（CC-BY / MIT）；数据格式规范（HuggingFace Datasets / COCO格式）；版本管理；伦理与隐私声明。

淘宝图片—模特视频对的构建方案

问题定义：从淘宝商品图片与模特展示视频构建一对一的图片-视频对应数据集。典型用途：Image-to-Video生成、虚拟试衣、商品理解与检索。

现有可借鉴工作

MEP-3M（阿里团队，IJCAI 2021最佳数据集论文）：300万商品，599个细粒度类别，image-text pair。数据来自淘宝。但不包含视频。

VERD（Video E-commerce Retrieval Dataset，2022）：用户视角的产品视频+图片，用于电商视频检索。

淘天拍立淘团队（2024技术回顾）：已推出基于 diffusion 的视频试衣方案，覆盖所有服饰类目、复杂实拍场景、多运镜。

推荐方案：混合策略

阶段	操作	预期产出
Phase 1	选择50–100个热门服饰类目，爬取淘宝商品详情页，提取主图（1–5张）和模特视频	10万–50万对图片+视频
Phase 2	清洗（去低分辨率、去重复、截取视频关键帧）	约3万–10万高质量对
Phase 3	对仅有图片的商品，用 Image-to-Video 模型（AnimateDiff / Stable Video Diffusion / Kling）生成 demo 视频，建立 pseudo pair	补充到20万+ pairs
Phase 4	微调一个专门识别"同一商品"的特征提取模型，提升配对准确率	配对准确率提升
Phase 5	人工抽样审计 + 标注质量报告	发布v1.0

技术栈建议

爬虫：Scrapy（大规模）+ Selenium（JS渲染页面）
视频处理：OpenCV + FFmpeg（下载、截帧、关键信息提取）
存储：MongoDB（元数据）+ 文件系统（媒体文件）+ SQLite（快速查询）
配对模型：使用 CLIP 或淘宝同款识别模型（多模态特征对齐）

替代方案

合成视频方案：对只有图片的商品，用 AnimateDiff / SVD / Kling 生成展示视频，建立 pseudo pair——目前已有商品展示专用方案
开放数据方案：AliProducts 500万+商品图片、MEP-3M 300万图文对、iFashion 淘宝服饰推荐数据——将图片与类似SKU的模特视频自动配对
商家合作方案：直接联系品牌商家获取拍摄原素材（平铺图+挂拍图+模特视频），高质量但难以规模化

⚠️ 合规提醒：淘宝商品图片和视频的版权归属商家。学术研究在合理使用范围内通常可接受，商业用途需逐案确认。务必查阅淘宝 robots.txt 和使用条款。避免包含人脸等敏感信息。

模型训练完成后的 Bad Case 修复方案

问题场景：以虚拟试衣模型（如 CatV2TON）为例，模型训练完成并在大多数场景下表现良好，但在某些特定衣物（如复杂印花、不对称剪裁、特殊材质）上生成效果不佳。如何系统性地解决这些 bad case？

一、诊断框架：先归因，再选方案

修复 bad case 的前提是定位根因。bad case 通常属于以下三类之一：

根因类型	典型表现	举例	可修复性
分布偏移	模型有基础能力，但训练数据中该类样本不足	纯色T恤效果好，碎花/条纹/大面积印花效果差	高，LoRA 或补数据即可
管线瓶颈	模型某个中间环节能力不足	衣物纹理编码不够细、几何对齐不准、遮挡处理失败	中，需定位瓶颈环节
架构天花板	模型本身的设计无法处理某类问题	极不规则版型（斗篷、披风）、多层级叠穿	低，需换架构或引入外部模块

诊断方法：将 bad case 按表现归类（纹理丢失、形变异常、遮挡错误、风格不一致），统计每类占比，按「概率 × 严重度」排序优先级。准备两套校验数据（各约100条），一套用于调参，一套用于最终验证。

二、方案一：LoRA 适配（推荐首选）

核心原理：LoRA（Low-Rank Adaptation）在模型权重矩阵旁添加低秩旁路 ΔW = BA，只训练旁路参数，冻结原始权重。在 Diffusion Transformer 上，LoRA 可以在不改变模型主体的情况下，让模型在特定风格/分布上补课。

适用条件：bad case 属于「分布偏移」类型，即模型本身具备处理这类任务的基础能力，只是训练数据覆盖不足。

维度	建议
挂载位置	CatV2TON 基于 DiT 架构，建议在 self-attention 的 Q/K/V/O 投影层挂载 LoRA。如果效果不够，可扩展到 FFN 层。CatVTON-FLUX 已验证 LoRA 在换衣场景的可行性（仅 37MB）。
Rank 选择	起始 rank=16，若纹理细节丢失严重可提升至 32-64。rank 过高会过拟合，过低学不到细节。
数据策略	收集问题衣物类型的样本 200-2000 条，要求覆盖该类型的典型变体。数据质量远比数量重要。可混合少量全局数据（约 10%）防止灾难性遗忘。
训练配置	学习率 1e-4 至 5e-4，cosine scheduler，3-5 epoch。使用 LoRA+ 10 倍学习率策略（Thinking Machines 2025 研究结论）可获得接近全参微调的效果。

进阶策略：多 LoRA 组合。按衣物类型（纹理类、版型类、材质类）分别训练独立 LoRA adapter，推理时根据输入衣物的品类标签加载对应 adapter。优点是单品类的数据需求少、训练快、互不干扰；缺点是推理时需要知道品类标签。可用 Multi-LoRA 框架（如 m-LoRA）统一管理。

局限：LoRA 的低秩修正容量有限。如果问题出在 garment encoder（衣物特征提取不够好）或 geometric alignment（几何对齐不准），DiT 上的 LoRA 未必能触及瓶颈。此时需考虑方案二或方案五。

三、方案二：定向数据补充 + 继续训练（最稳）

核心思路：将 bad case 归因后，按类型补充针对性训练数据，从原始 checkpoint 继续 full fine-tune。

Bad case 归类：统计 bad case 的分布，找出高频问题类型（如「复杂纹理丢失」占 40%、「袖口形变异常」占 25%）
定向数据收集：针对每个高频问题类型，收集 500-5000 条高质量样本。优先使用真实数据，不足时可辅以合成数据（用更强的模型生成 pseudo ground truth）
数据混合：将补充数据与原始训练数据按 1:3 至 1:5 混合，避免模型偏移到新数据分布上。关键技巧：去噪比加噪更重要，先清洗原有数据中的低质量样本
继续训练：从原始 checkpoint 恢复，使用更小的学习率（原始的 1/10），训练 1-3 epoch
回归验证：在新数据上验证 bad case 是否修复，同时在原始测试集上验证是否退化了其他 case

腾讯的坏例纠错方案（专利 CN 120611762 A）提供了一个系统性框架：收集 bad case → 构建纠错数据集 → 按问题类型优化纠错数据 → 用优化后的数据集训练模型。核心创新在于「根据问题类型优化纠错数据」这一步，避免简单的数据堆叠导致模型混乱。

四、方案三：后处理级联修复（不动模型）

核心思路：模型输出结果后，用独立的修复模型对问题区域做二次处理。不碰换衣模型本身，修的是生成结果。

方法	原理	适用场景	工具
Inpainting 修复	定位生成失败的区域（如袖口、领口），用 inpainting 模型重新生成该区域	局部纹理丢失、小区域形变	Stable Diffusion Inpainting、LaMa
SDEdit 风格迁移	对生成结果加噪后重新去噪，在保持结构的同时修正风格	整体风格不一致	Diffusers SDEdit pipeline
超分 + 细节增强	用超分模型恢复纹理细节	生成结果模糊、纹理丢失	Real-ESRGAN、SwinIR
规则后处理	检测特定的失败模式，用规则修正	可枚举的固定问题	OpenCV + 自定义规则

后处理方案的优势是零训练成本、立即可用、不影响原有模型。缺点是多一个处理阶段会增加推理延迟，且修复效果有天花板。

五、方案四：测试时适配（TTA / TTT）

核心思路：在推理阶段，利用当前输入样本本身的信息动态调整模型参数，无需额外训练数据。

Tent（熵最小化）：在推理时优化 BatchNorm 的仿射参数，使模型输出的熵最小化。适用于分布偏移导致的 bad case，实现简单（仅需几行代码），但效果有限。
Test-Time Training（TTT）：对每个测试样本构造自监督任务（如图像旋转预测、掩码恢复），用自监督 loss 临时更新模型参数后再预测。更强大但计算成本更高。
动态 Prompt / 条件调整：对于条件生成模型，在推理时调整条件强度（如 classifier-free guidance 的权重），可以在保真度和多样性之间找到更好的平衡点。

局限：TTA/TTT 对 diffusion 模型的研究相对较少，主要在判别模型上验证过。在换衣场景中，更实际的策略是调整推理参数（如 denoising steps、guidance scale、seed）来改善特定 case。

六、方案五：前处理与管线优化

如果 bad case 的瓶颈不在生成模型本身，而在上游管线，则需优化前处理环节。

瓶颈环节	优化方法	改动侵入性
衣物图像质量差	用超分/去噪模型预处理输入衣物图，提升输入质量	低
人体姿态估计不准	换更强的姿态估计模型（如 DWPose），或对问题姿态做人工校正	中
衣物掩码不精确	优化 cloth masking 算法，或使用分割模型（如 SAM）生成更精确的掩码	中
Garment encoder 能力不足	换更强的视觉编码器（如从 CLIP-ViT 升级到 DINOv2），不动生成端	中
拼接策略不够好	在 CatV2TON 的 concatenation 机制基础上增加 cross-attention 融合	高

七、决策流程：根据 bad case 类型选择方案

Bad case 表现	最可能的根因	推荐方案（优先级排序）
特定纹理（印花/条纹）丢失或变形	分布偏移，训练数据中该纹理不足	LoRA 适配 → 补数据继续训练
袖口/领口/下摆形变异常	几何对齐或 concatenation 环节瓶颈	前处理优化（姿态/掩码） → 后处理 Inpainting → 换 garment encoder
衣物与人体之间的遮挡关系错误	模型缺乏深度/遮挡理解	补数据继续训练（带遮挡标注） → 架构升级（加 depth conditioning）
整体风格偏移（颜色/色调不准）	条件注入强度不够或 VAE 编码损失	调整推理参数（guidance scale） → 后处理 SDEdit → LoRA
特殊版型（斗篷/披风/不对称）完全失败	架构天花板	后处理补救 → 架构升级或引入 3D 先验
随机出现、无明显规律的失败	噪声/标注质量问题	数据清洗 → 增加推理步数 → 多次推理取最优

🔑 核心原则：修复 bad case 不是选一个方案直接上，而是「诊断 → 归因 → 选方案 → 验证 → 回归测试」的闭环。每个修复动作都要在两套校验集上验证：目标 case 是否修复，以及原有 case 是否退化。天下没有免费的午餐，打补丁能快速解决特定问题，但根本提升模型能力始终需要从数据质量入手。

参考

LoRA: Hu et al., ICLR 2022 — Low-Rank Adaptation of Large Language Models
CatVTON: Chong et al., ICLR 2025 — Lightweight virtual try-on via concatenation
腾讯坏例纠错专利: CN 120611762 A, 2024
Tent: Wang et al., ICLR 2021 — Fully Test-Time Adaptation by Entropy Minimization
TTT: Sun et al., ICML 2020 — Test-Time Training with Self-Supervision
Thinking Machines: LoRA 终极指南（10x 学习率策略）, 2025
SDEdit: Meng et al., ICLR 2022 — SDEdit: Guided Image Synthesis and Editing
大模型 Bad Case 修复实践 — NewBeeNLP / CSDN Kaiyuan_sjtu

参考来源

ImageNet: Deng et al., CVPR 2009
MS COCO: Lin et al., ECCV 2014 — cocodataset.org
MEP-3M: Liu et al., Pattern Recognition 2023 (IJCAI2021最佳数据集论文) — github.com/ChenDelong1999/MEP-3M
LAION-5B: Schuhmann et al., NeurIPS 2022 — laion.ai
VERD: ResearchGate 2022 — 产品视频电商检索数据集
淘天拍立淘技术回顾，量子位 2024 — qbitai.com
SQuAD: Rajpurkar et al., EMNLP 2016
YouTube-8M: Abu-El-Haija et al., CVPR 2016
OpenTryOn: github.com/tryonlabs/opentryon

数据集完全调研

AI 各领域经典数据集一览

计算机视觉 — 图像分类

计算机视觉 — 目标检测 / 分割

自然语言处理

多模态 — 图文对

视频理解 — 语音

创建数据集的六个阶段

阶段一：需求定义

阶段二：数据收集

阶段三：数据清洗与预处理

阶段四：标注

阶段五：划分与验证

阶段六：发布与维护

淘宝图片—模特视频对的构建方案

现有可借鉴工作

推荐方案：混合策略

技术栈建议

替代方案

模型训练完成后的 Bad Case 修复方案

一、诊断框架：先归因，再选方案

二、方案一：LoRA 适配（推荐首选）

三、方案二：定向数据补充 + 继续训练（最稳）

四、方案三：后处理级联修复（不动模型）

五、方案四：测试时适配（TTA / TTT）

六、方案五：前处理与管线优化

七、决策流程：根据 bad case 类型选择方案

参考

参考来源