数据集完全调研
AI 各领域经典数据集一览
计算机视觉 — 图像分类
| 数据集 | 发布年份 | 规模 | 类别数 | 核心用途 |
|---|---|---|---|---|
| ImageNet (ILSVRC2012) | 2009 | ~1500万张,常用子集120万训练/5万验证/10万测试 | 1000 | 图像分类(标准benchmark) |
| CIFAR-10 | 2009 | 6万张32×32图 | 10 | 快速算法验证 |
| CIFAR-100 | 2009 | 6万张32×32图 | 100 | 细粒度分类实验 |
计算机视觉 — 目标检测 / 分割
| 数据集 | 发布 | 规模 | 类别 | 标注类型 |
|---|---|---|---|---|
| MS COCO | 2014 | 33万图(20万标注),150万+实例 | 80 | 实例分割mask、检测框、关键点、看图说话 |
| Open Images (Google) | 2016 | ~900万图 | 6000 | 分类+检测框 |
| PASCAL VOC | 2005–2012 | ~11,530图 | 20 | 检测/分割 |
| Cityscapes | — | 5K精细标注 + 20K粗标注 | 29 | 街景分割(自动驾驶) |
| ADE20K (MIT) | 2017 | 25K图 | 150 | 场景解析 |
自然语言处理
| 数据集 | 发布 | 规模 | 说明 |
|---|---|---|---|
| SQuAD 1.1/2.0 | 2016/2018 | 10万+问答对,500+篇文章 | 维基百科阅读理解 |
| MS MARCO | 2016 | 100万+问题,880万段落 | Bing真实用户查询 |
| GLUE / SuperGLUE | 2018/2019 | 9个/10个任务 | NLU综合benchmark |
| The Pile | 2020 | 825GB,22个来源 | 预训练语料 |
| 20 Newsgroups | — | ~20,000文档 | 文本分类经典 |
多模态 — 图文对
| 数据集 | 规模 | 说明 |
|---|---|---|
| LAION-5B | 58.5亿 image-text pairs | 最大开源图文数据集,2.32B含英文 |
| LAION-COCO | 6亿 | LAION2B子集,高质量合成caption |
| MS COCO Captions | 33万图,每图5句描述 | 看图说话标准 |
| MEP-3M | 300万商品图文对 | 电商多模态分类,599类(IJCAI2021最佳数据集论文) |
| FashionFail | 电商图片 | 服饰检测/分割 |
视频理解 — 语音
| 领域 | 数据集 | 规模 |
|---|---|---|
| 视频理解 | YouTube-8M | 700万视频,4700类,45万小时 |
| 动作识别 | Kinetics-400 | 30万视频片段,400类 |
| 语音 | LibriSpeech | ~1000小时英文有声书 |
| 语音 | Common Voice | 多语言众包语音 |
创建数据集的六个阶段
阶段一:需求定义
明确研究问题和任务类型(分类/检测/生成/检索);确定数据类型(图像/文本/视频/语音/多模态);设定质量标准和规模目标;设计标注体系(标签、标注方式、格式)。
阶段二:数据收集
| 途径 | 适用场景 | 优点 | 风险 |
|---|---|---|---|
| 公开数据集 | 基准任务 | 零成本,可对比 | 可能不满足需求 |
| 网络爬取/Scraping | 大规模收集 | 量大 | 版权、robots.txt |
| 众包标注(MTurk等) | 需要标签 | 灵活 | 成本高 |
| 真实业务数据 | 工业场景 | 最贴近实际 | 隐私、清洗难度大 |
| 合成数据 | 补充不足 | 可控,可无限生成 | 质量需验证 |
| 数据增强 | 已有数据上扩增 | 低成本 | 不增加信息量 |
阶段三:数据清洗与预处理
- 去重(精确去重 + 近似去重)
- 质量过滤(模糊图、低分辨率、无关内容)
- 格式统一(resize、归一化)
- 敏感内容检测与过滤
- 数据分布检查(类别平衡性)
阶段四:标注
人工标注(最准确但成本最高)→ 半自动标注(模型预标+人工修正)→ 自动标注(规则打标)→ 众包(分片+多人校验)→ 交叉验证(计算标注者一致性)。
阶段五:划分与验证
训练/验证/测试划分(通常80/10/10或70/15/15);分层抽样确保分布一致;标注质量审计。
阶段六:发布与维护
开源许可选择(CC-BY / MIT);数据格式规范(HuggingFace Datasets / COCO格式);版本管理;伦理与隐私声明。
淘宝图片—模特视频对的构建方案
问题定义:从淘宝商品图片与模特展示视频构建一对一的图片-视频对应数据集。典型用途:Image-to-Video生成、虚拟试衣、商品理解与检索。
现有可借鉴工作
MEP-3M(阿里团队,IJCAI 2021最佳数据集论文):300万商品,599个细粒度类别,image-text pair。数据来自淘宝。但不包含视频。
VERD(Video E-commerce Retrieval Dataset,2022):用户视角的产品视频+图片,用于电商视频检索。
淘天拍立淘团队(2024技术回顾):已推出基于 diffusion 的视频试衣方案,覆盖所有服饰类目、复杂实拍场景、多运镜。
推荐方案:混合策略
| 阶段 | 操作 | 预期产出 |
|---|---|---|
| Phase 1 | 选择50–100个热门服饰类目,爬取淘宝商品详情页,提取主图(1–5张)和模特视频 | 10万–50万对图片+视频 |
| Phase 2 | 清洗(去低分辨率、去重复、截取视频关键帧) | 约3万–10万高质量对 |
| Phase 3 | 对仅有图片的商品,用 Image-to-Video 模型(AnimateDiff / Stable Video Diffusion / Kling)生成 demo 视频,建立 pseudo pair | 补充到20万+ pairs |
| Phase 4 | 微调一个专门识别"同一商品"的特征提取模型,提升配对准确率 | 配对准确率提升 |
| Phase 5 | 人工抽样审计 + 标注质量报告 | 发布v1.0 |
技术栈建议
- 爬虫:Scrapy(大规模)+ Selenium(JS渲染页面)
- 视频处理:OpenCV + FFmpeg(下载、截帧、关键信息提取)
- 存储:MongoDB(元数据)+ 文件系统(媒体文件)+ SQLite(快速查询)
- 配对模型:使用 CLIP 或淘宝同款识别模型(多模态特征对齐)
替代方案
- 合成视频方案:对只有图片的商品,用 AnimateDiff / SVD / Kling 生成展示视频,建立 pseudo pair——目前已有商品展示专用方案
- 开放数据方案:AliProducts 500万+商品图片、MEP-3M 300万图文对、iFashion 淘宝服饰推荐数据——将图片与类似SKU的模特视频自动配对
- 商家合作方案:直接联系品牌商家获取拍摄原素材(平铺图+挂拍图+模特视频),高质量但难以规模化
模型训练完成后的 Bad Case 修复方案
问题场景:以虚拟试衣模型(如 CatV2TON)为例,模型训练完成并在大多数场景下表现良好,但在某些特定衣物(如复杂印花、不对称剪裁、特殊材质)上生成效果不佳。如何系统性地解决这些 bad case?
一、诊断框架:先归因,再选方案
修复 bad case 的前提是定位根因。bad case 通常属于以下三类之一:
| 根因类型 | 典型表现 | 举例 | 可修复性 |
|---|---|---|---|
| 分布偏移 | 模型有基础能力,但训练数据中该类样本不足 | 纯色T恤效果好,碎花/条纹/大面积印花效果差 | 高,LoRA 或补数据即可 |
| 管线瓶颈 | 模型某个中间环节能力不足 | 衣物纹理编码不够细、几何对齐不准、遮挡处理失败 | 中,需定位瓶颈环节 |
| 架构天花板 | 模型本身的设计无法处理某类问题 | 极不规则版型(斗篷、披风)、多层级叠穿 | 低,需换架构或引入外部模块 |
诊断方法:将 bad case 按表现归类(纹理丢失、形变异常、遮挡错误、风格不一致),统计每类占比,按「概率 × 严重度」排序优先级。准备两套校验数据(各约100条),一套用于调参,一套用于最终验证。
二、方案一:LoRA 适配(推荐首选)
核心原理:LoRA(Low-Rank Adaptation)在模型权重矩阵旁添加低秩旁路 ΔW = BA,只训练旁路参数,冻结原始权重。在 Diffusion Transformer 上,LoRA 可以在不改变模型主体的情况下,让模型在特定风格/分布上补课。
适用条件:bad case 属于「分布偏移」类型,即模型本身具备处理这类任务的基础能力,只是训练数据覆盖不足。
| 维度 | 建议 |
|---|---|
| 挂载位置 | CatV2TON 基于 DiT 架构,建议在 self-attention 的 Q/K/V/O 投影层挂载 LoRA。如果效果不够,可扩展到 FFN 层。CatVTON-FLUX 已验证 LoRA 在换衣场景的可行性(仅 37MB)。 |
| Rank 选择 | 起始 rank=16,若纹理细节丢失严重可提升至 32-64。rank 过高会过拟合,过低学不到细节。 |
| 数据策略 | 收集问题衣物类型的样本 200-2000 条,要求覆盖该类型的典型变体。数据质量远比数量重要。可混合少量全局数据(约 10%)防止灾难性遗忘。 |
| 训练配置 | 学习率 1e-4 至 5e-4,cosine scheduler,3-5 epoch。使用 LoRA+ 10 倍学习率策略(Thinking Machines 2025 研究结论)可获得接近全参微调的效果。 |
进阶策略:多 LoRA 组合。按衣物类型(纹理类、版型类、材质类)分别训练独立 LoRA adapter,推理时根据输入衣物的品类标签加载对应 adapter。优点是单品类的数据需求少、训练快、互不干扰;缺点是推理时需要知道品类标签。可用 Multi-LoRA 框架(如 m-LoRA)统一管理。
局限:LoRA 的低秩修正容量有限。如果问题出在 garment encoder(衣物特征提取不够好)或 geometric alignment(几何对齐不准),DiT 上的 LoRA 未必能触及瓶颈。此时需考虑方案二或方案五。
三、方案二:定向数据补充 + 继续训练(最稳)
核心思路:将 bad case 归因后,按类型补充针对性训练数据,从原始 checkpoint 继续 full fine-tune。
- Bad case 归类:统计 bad case 的分布,找出高频问题类型(如「复杂纹理丢失」占 40%、「袖口形变异常」占 25%)
- 定向数据收集:针对每个高频问题类型,收集 500-5000 条高质量样本。优先使用真实数据,不足时可辅以合成数据(用更强的模型生成 pseudo ground truth)
- 数据混合:将补充数据与原始训练数据按 1:3 至 1:5 混合,避免模型偏移到新数据分布上。关键技巧:去噪比加噪更重要,先清洗原有数据中的低质量样本
- 继续训练:从原始 checkpoint 恢复,使用更小的学习率(原始的 1/10),训练 1-3 epoch
- 回归验证:在新数据上验证 bad case 是否修复,同时在原始测试集上验证是否退化了其他 case
腾讯的坏例纠错方案(专利 CN 120611762 A)提供了一个系统性框架:收集 bad case → 构建纠错数据集 → 按问题类型优化纠错数据 → 用优化后的数据集训练模型。核心创新在于「根据问题类型优化纠错数据」这一步,避免简单的数据堆叠导致模型混乱。
四、方案三:后处理级联修复(不动模型)
核心思路:模型输出结果后,用独立的修复模型对问题区域做二次处理。不碰换衣模型本身,修的是生成结果。
| 方法 | 原理 | 适用场景 | 工具 |
|---|---|---|---|
| Inpainting 修复 | 定位生成失败的区域(如袖口、领口),用 inpainting 模型重新生成该区域 | 局部纹理丢失、小区域形变 | Stable Diffusion Inpainting、LaMa |
| SDEdit 风格迁移 | 对生成结果加噪后重新去噪,在保持结构的同时修正风格 | 整体风格不一致 | Diffusers SDEdit pipeline |
| 超分 + 细节增强 | 用超分模型恢复纹理细节 | 生成结果模糊、纹理丢失 | Real-ESRGAN、SwinIR |
| 规则后处理 | 检测特定的失败模式,用规则修正 | 可枚举的固定问题 | OpenCV + 自定义规则 |
后处理方案的优势是零训练成本、立即可用、不影响原有模型。缺点是多一个处理阶段会增加推理延迟,且修复效果有天花板。
五、方案四:测试时适配(TTA / TTT)
核心思路:在推理阶段,利用当前输入样本本身的信息动态调整模型参数,无需额外训练数据。
- Tent(熵最小化):在推理时优化 BatchNorm 的仿射参数,使模型输出的熵最小化。适用于分布偏移导致的 bad case,实现简单(仅需几行代码),但效果有限。
- Test-Time Training(TTT):对每个测试样本构造自监督任务(如图像旋转预测、掩码恢复),用自监督 loss 临时更新模型参数后再预测。更强大但计算成本更高。
- 动态 Prompt / 条件调整:对于条件生成模型,在推理时调整条件强度(如 classifier-free guidance 的权重),可以在保真度和多样性之间找到更好的平衡点。
局限:TTA/TTT 对 diffusion 模型的研究相对较少,主要在判别模型上验证过。在换衣场景中,更实际的策略是调整推理参数(如 denoising steps、guidance scale、seed)来改善特定 case。
六、方案五:前处理与管线优化
如果 bad case 的瓶颈不在生成模型本身,而在上游管线,则需优化前处理环节。
| 瓶颈环节 | 优化方法 | 改动侵入性 |
|---|---|---|
| 衣物图像质量差 | 用超分/去噪模型预处理输入衣物图,提升输入质量 | 低 |
| 人体姿态估计不准 | 换更强的姿态估计模型(如 DWPose),或对问题姿态做人工校正 | 中 |
| 衣物掩码不精确 | 优化 cloth masking 算法,或使用分割模型(如 SAM)生成更精确的掩码 | 中 |
| Garment encoder 能力不足 | 换更强的视觉编码器(如从 CLIP-ViT 升级到 DINOv2),不动生成端 | 中 |
| 拼接策略不够好 | 在 CatV2TON 的 concatenation 机制基础上增加 cross-attention 融合 | 高 |
七、决策流程:根据 bad case 类型选择方案
| Bad case 表现 | 最可能的根因 | 推荐方案(优先级排序) |
|---|---|---|
| 特定纹理(印花/条纹)丢失或变形 | 分布偏移,训练数据中该纹理不足 | |
| 袖口/领口/下摆形变异常 | 几何对齐或 concatenation 环节瓶颈 | |
| 衣物与人体之间的遮挡关系错误 | 模型缺乏深度/遮挡理解 | |
| 整体风格偏移(颜色/色调不准) | 条件注入强度不够或 VAE 编码损失 | |
| 特殊版型(斗篷/披风/不对称)完全失败 | 架构天花板 | |
| 随机出现、无明显规律的失败 | 噪声/标注质量问题 |
参考
- LoRA: Hu et al., ICLR 2022 — Low-Rank Adaptation of Large Language Models
- CatVTON: Chong et al., ICLR 2025 — Lightweight virtual try-on via concatenation
- 腾讯坏例纠错专利: CN 120611762 A, 2024
- Tent: Wang et al., ICLR 2021 — Fully Test-Time Adaptation by Entropy Minimization
- TTT: Sun et al., ICML 2020 — Test-Time Training with Self-Supervision
- Thinking Machines: LoRA 终极指南(10x 学习率策略), 2025
- SDEdit: Meng et al., ICLR 2022 — SDEdit: Guided Image Synthesis and Editing
- 大模型 Bad Case 修复实践 — NewBeeNLP / CSDN Kaiyuan_sjtu
参考来源
- ImageNet: Deng et al., CVPR 2009
- MS COCO: Lin et al., ECCV 2014 — cocodataset.org
- MEP-3M: Liu et al., Pattern Recognition 2023 (IJCAI2021最佳数据集论文) — github.com/ChenDelong1999/MEP-3M
- LAION-5B: Schuhmann et al., NeurIPS 2022 — laion.ai
- VERD: ResearchGate 2022 — 产品视频电商检索数据集
- 淘天拍立淘技术回顾,量子位 2024 — qbitai.com
- SQuAD: Rajpurkar et al., EMNLP 2016
- YouTube-8M: Abu-El-Haija et al., CVPR 2016
- OpenTryOn: github.com/tryonlabs/opentryon