ESC
输入关键词搜索文章
目录

数据集完全调研

经典Benchmark · 构建流程 · 电商图片-视频对
从 ImageNet 到淘宝拍立淘——数据集的谱系与工程

AI 各领域经典数据集一览

计算机视觉 — 图像分类

数据集发布年份规模类别数核心用途
ImageNet (ILSVRC2012)2009~1500万张,常用子集120万训练/5万验证/10万测试1000图像分类(标准benchmark)
CIFAR-1020096万张32×32图10快速算法验证
CIFAR-10020096万张32×32图100细粒度分类实验

计算机视觉 — 目标检测 / 分割

数据集发布规模类别标注类型
MS COCO201433万图(20万标注),150万+实例80实例分割mask、检测框、关键点、看图说话
Open Images (Google)2016~900万图6000分类+检测框
PASCAL VOC2005–2012~11,530图20检测/分割
Cityscapes5K精细标注 + 20K粗标注29街景分割(自动驾驶)
ADE20K (MIT)201725K图150场景解析

自然语言处理

数据集发布规模说明
SQuAD 1.1/2.02016/201810万+问答对,500+篇文章维基百科阅读理解
MS MARCO2016100万+问题,880万段落Bing真实用户查询
GLUE / SuperGLUE2018/20199个/10个任务NLU综合benchmark
The Pile2020825GB,22个来源预训练语料
20 Newsgroups~20,000文档文本分类经典

多模态 — 图文对

数据集规模说明
LAION-5B58.5亿 image-text pairs最大开源图文数据集,2.32B含英文
LAION-COCO6亿LAION2B子集,高质量合成caption
MS COCO Captions33万图,每图5句描述看图说话标准
MEP-3M300万商品图文对电商多模态分类,599类(IJCAI2021最佳数据集论文)
FashionFail电商图片服饰检测/分割

视频理解 — 语音

领域数据集规模
视频理解YouTube-8M700万视频,4700类,45万小时
动作识别Kinetics-40030万视频片段,400类
语音LibriSpeech~1000小时英文有声书
语音Common Voice多语言众包语音

创建数据集的六个阶段

阶段一:需求定义

明确研究问题和任务类型(分类/检测/生成/检索);确定数据类型(图像/文本/视频/语音/多模态);设定质量标准和规模目标;设计标注体系(标签、标注方式、格式)。

阶段二:数据收集

途径适用场景优点风险
公开数据集基准任务零成本,可对比可能不满足需求
网络爬取/Scraping大规模收集量大版权、robots.txt
众包标注(MTurk等)需要标签灵活成本高
真实业务数据工业场景最贴近实际隐私、清洗难度大
合成数据补充不足可控,可无限生成质量需验证
数据增强已有数据上扩增低成本不增加信息量

阶段三:数据清洗与预处理

  1. 去重(精确去重 + 近似去重)
  2. 质量过滤(模糊图、低分辨率、无关内容)
  3. 格式统一(resize、归一化)
  4. 敏感内容检测与过滤
  5. 数据分布检查(类别平衡性)

阶段四:标注

人工标注(最准确但成本最高)→ 半自动标注(模型预标+人工修正)→ 自动标注(规则打标)→ 众包(分片+多人校验)→ 交叉验证(计算标注者一致性)。

阶段五:划分与验证

训练/验证/测试划分(通常80/10/10或70/15/15);分层抽样确保分布一致;标注质量审计。

阶段六:发布与维护

开源许可选择(CC-BY / MIT);数据格式规范(HuggingFace Datasets / COCO格式);版本管理;伦理与隐私声明。

淘宝图片—模特视频对的构建方案

问题定义:从淘宝商品图片与模特展示视频构建一对一的图片-视频对应数据集。典型用途:Image-to-Video生成、虚拟试衣、商品理解与检索。

现有可借鉴工作

MEP-3M(阿里团队,IJCAI 2021最佳数据集论文):300万商品,599个细粒度类别,image-text pair。数据来自淘宝。但不包含视频。

VERD(Video E-commerce Retrieval Dataset,2022):用户视角的产品视频+图片,用于电商视频检索。

淘天拍立淘团队(2024技术回顾):已推出基于 diffusion 的视频试衣方案,覆盖所有服饰类目、复杂实拍场景、多运镜。

推荐方案:混合策略

阶段操作预期产出
Phase 1选择50–100个热门服饰类目,爬取淘宝商品详情页,提取主图(1–5张)和模特视频10万–50万对图片+视频
Phase 2清洗(去低分辨率、去重复、截取视频关键帧)约3万–10万高质量对
Phase 3对仅有图片的商品,用 Image-to-Video 模型(AnimateDiff / Stable Video Diffusion / Kling)生成 demo 视频,建立 pseudo pair补充到20万+ pairs
Phase 4微调一个专门识别"同一商品"的特征提取模型,提升配对准确率配对准确率提升
Phase 5人工抽样审计 + 标注质量报告发布v1.0

技术栈建议

  • 爬虫:Scrapy(大规模)+ Selenium(JS渲染页面)
  • 视频处理:OpenCV + FFmpeg(下载、截帧、关键信息提取)
  • 存储:MongoDB(元数据)+ 文件系统(媒体文件)+ SQLite(快速查询)
  • 配对模型:使用 CLIP 或淘宝同款识别模型(多模态特征对齐)

替代方案

  1. 合成视频方案:对只有图片的商品,用 AnimateDiff / SVD / Kling 生成展示视频,建立 pseudo pair——目前已有商品展示专用方案
  2. 开放数据方案:AliProducts 500万+商品图片、MEP-3M 300万图文对、iFashion 淘宝服饰推荐数据——将图片与类似SKU的模特视频自动配对
  3. 商家合作方案:直接联系品牌商家获取拍摄原素材(平铺图+挂拍图+模特视频),高质量但难以规模化
⚠️ 合规提醒:淘宝商品图片和视频的版权归属商家。学术研究在合理使用范围内通常可接受,商业用途需逐案确认。务必查阅淘宝 robots.txt 和使用条款。避免包含人脸等敏感信息。

模型训练完成后的 Bad Case 修复方案

问题场景:以虚拟试衣模型(如 CatV2TON)为例,模型训练完成并在大多数场景下表现良好,但在某些特定衣物(如复杂印花、不对称剪裁、特殊材质)上生成效果不佳。如何系统性地解决这些 bad case?

一、诊断框架:先归因,再选方案

修复 bad case 的前提是定位根因。bad case 通常属于以下三类之一:

根因类型典型表现举例可修复性
分布偏移模型有基础能力,但训练数据中该类样本不足纯色T恤效果好,碎花/条纹/大面积印花效果差高,LoRA 或补数据即可
管线瓶颈模型某个中间环节能力不足衣物纹理编码不够细、几何对齐不准、遮挡处理失败中,需定位瓶颈环节
架构天花板模型本身的设计无法处理某类问题极不规则版型(斗篷、披风)、多层级叠穿低,需换架构或引入外部模块

诊断方法:将 bad case 按表现归类(纹理丢失、形变异常、遮挡错误、风格不一致),统计每类占比,按「概率 × 严重度」排序优先级。准备两套校验数据(各约100条),一套用于调参,一套用于最终验证。

二、方案一:LoRA 适配(推荐首选)

核心原理:LoRA(Low-Rank Adaptation)在模型权重矩阵旁添加低秩旁路 ΔW = BA,只训练旁路参数,冻结原始权重。在 Diffusion Transformer 上,LoRA 可以在不改变模型主体的情况下,让模型在特定风格/分布上补课。

适用条件:bad case 属于「分布偏移」类型,即模型本身具备处理这类任务的基础能力,只是训练数据覆盖不足。

维度建议
挂载位置CatV2TON 基于 DiT 架构,建议在 self-attention 的 Q/K/V/O 投影层挂载 LoRA。如果效果不够,可扩展到 FFN 层。CatVTON-FLUX 已验证 LoRA 在换衣场景的可行性(仅 37MB)。
Rank 选择起始 rank=16,若纹理细节丢失严重可提升至 32-64。rank 过高会过拟合,过低学不到细节。
数据策略收集问题衣物类型的样本 200-2000 条,要求覆盖该类型的典型变体。数据质量远比数量重要。可混合少量全局数据(约 10%)防止灾难性遗忘。
训练配置学习率 1e-4 至 5e-4,cosine scheduler,3-5 epoch。使用 LoRA+ 10 倍学习率策略(Thinking Machines 2025 研究结论)可获得接近全参微调的效果。

进阶策略:多 LoRA 组合。按衣物类型(纹理类、版型类、材质类)分别训练独立 LoRA adapter,推理时根据输入衣物的品类标签加载对应 adapter。优点是单品类的数据需求少、训练快、互不干扰;缺点是推理时需要知道品类标签。可用 Multi-LoRA 框架(如 m-LoRA)统一管理。

局限:LoRA 的低秩修正容量有限。如果问题出在 garment encoder(衣物特征提取不够好)或 geometric alignment(几何对齐不准),DiT 上的 LoRA 未必能触及瓶颈。此时需考虑方案二或方案五。

三、方案二:定向数据补充 + 继续训练(最稳)

核心思路:将 bad case 归因后,按类型补充针对性训练数据,从原始 checkpoint 继续 full fine-tune。

  1. Bad case 归类:统计 bad case 的分布,找出高频问题类型(如「复杂纹理丢失」占 40%、「袖口形变异常」占 25%)
  2. 定向数据收集:针对每个高频问题类型,收集 500-5000 条高质量样本。优先使用真实数据,不足时可辅以合成数据(用更强的模型生成 pseudo ground truth)
  3. 数据混合:将补充数据与原始训练数据按 1:3 至 1:5 混合,避免模型偏移到新数据分布上。关键技巧:去噪比加噪更重要,先清洗原有数据中的低质量样本
  4. 继续训练:从原始 checkpoint 恢复,使用更小的学习率(原始的 1/10),训练 1-3 epoch
  5. 回归验证:在新数据上验证 bad case 是否修复,同时在原始测试集上验证是否退化了其他 case

腾讯的坏例纠错方案(专利 CN 120611762 A)提供了一个系统性框架:收集 bad case → 构建纠错数据集 → 按问题类型优化纠错数据 → 用优化后的数据集训练模型。核心创新在于「根据问题类型优化纠错数据」这一步,避免简单的数据堆叠导致模型混乱。

四、方案三:后处理级联修复(不动模型)

核心思路:模型输出结果后,用独立的修复模型对问题区域做二次处理。不碰换衣模型本身,修的是生成结果。

方法原理适用场景工具
Inpainting 修复定位生成失败的区域(如袖口、领口),用 inpainting 模型重新生成该区域局部纹理丢失、小区域形变Stable Diffusion Inpainting、LaMa
SDEdit 风格迁移对生成结果加噪后重新去噪,在保持结构的同时修正风格整体风格不一致Diffusers SDEdit pipeline
超分 + 细节增强用超分模型恢复纹理细节生成结果模糊、纹理丢失Real-ESRGAN、SwinIR
规则后处理检测特定的失败模式,用规则修正可枚举的固定问题OpenCV + 自定义规则

后处理方案的优势是零训练成本、立即可用、不影响原有模型。缺点是多一个处理阶段会增加推理延迟,且修复效果有天花板。

五、方案四:测试时适配(TTA / TTT)

核心思路:在推理阶段,利用当前输入样本本身的信息动态调整模型参数,无需额外训练数据。

  • Tent(熵最小化):在推理时优化 BatchNorm 的仿射参数,使模型输出的熵最小化。适用于分布偏移导致的 bad case,实现简单(仅需几行代码),但效果有限。
  • Test-Time Training(TTT):对每个测试样本构造自监督任务(如图像旋转预测、掩码恢复),用自监督 loss 临时更新模型参数后再预测。更强大但计算成本更高。
  • 动态 Prompt / 条件调整:对于条件生成模型,在推理时调整条件强度(如 classifier-free guidance 的权重),可以在保真度和多样性之间找到更好的平衡点。

局限:TTA/TTT 对 diffusion 模型的研究相对较少,主要在判别模型上验证过。在换衣场景中,更实际的策略是调整推理参数(如 denoising steps、guidance scale、seed)来改善特定 case。

六、方案五:前处理与管线优化

如果 bad case 的瓶颈不在生成模型本身,而在上游管线,则需优化前处理环节。

瓶颈环节优化方法改动侵入性
衣物图像质量差用超分/去噪模型预处理输入衣物图,提升输入质量
人体姿态估计不准换更强的姿态估计模型(如 DWPose),或对问题姿态做人工校正
衣物掩码不精确优化 cloth masking 算法,或使用分割模型(如 SAM)生成更精确的掩码
Garment encoder 能力不足换更强的视觉编码器(如从 CLIP-ViT 升级到 DINOv2),不动生成端
拼接策略不够好在 CatV2TON 的 concatenation 机制基础上增加 cross-attention 融合

七、决策流程:根据 bad case 类型选择方案

Bad case 表现最可能的根因推荐方案(优先级排序)
特定纹理(印花/条纹)丢失或变形分布偏移,训练数据中该纹理不足
  • LoRA 适配 →
  • 补数据继续训练
  • 袖口/领口/下摆形变异常几何对齐或 concatenation 环节瓶颈
  • 前处理优化(姿态/掩码) →
  • 后处理 Inpainting →
  • 换 garment encoder
  • 衣物与人体之间的遮挡关系错误模型缺乏深度/遮挡理解
  • 补数据继续训练(带遮挡标注) →
  • 架构升级(加 depth conditioning)
  • 整体风格偏移(颜色/色调不准)条件注入强度不够或 VAE 编码损失
  • 调整推理参数(guidance scale) →
  • 后处理 SDEdit →
  • LoRA
  • 特殊版型(斗篷/披风/不对称)完全失败架构天花板
  • 后处理补救 →
  • 架构升级或引入 3D 先验
  • 随机出现、无明显规律的失败噪声/标注质量问题
  • 数据清洗 →
  • 增加推理步数 →
  • 多次推理取最优
  • 🔑 核心原则:修复 bad case 不是选一个方案直接上,而是「诊断 → 归因 → 选方案 → 验证 → 回归测试」的闭环。每个修复动作都要在两套校验集上验证:目标 case 是否修复,以及原有 case 是否退化。天下没有免费的午餐,打补丁能快速解决特定问题,但根本提升模型能力始终需要从数据质量入手。

    参考

    • LoRA: Hu et al., ICLR 2022 — Low-Rank Adaptation of Large Language Models
    • CatVTON: Chong et al., ICLR 2025 — Lightweight virtual try-on via concatenation
    • 腾讯坏例纠错专利: CN 120611762 A, 2024
    • Tent: Wang et al., ICLR 2021 — Fully Test-Time Adaptation by Entropy Minimization
    • TTT: Sun et al., ICML 2020 — Test-Time Training with Self-Supervision
    • Thinking Machines: LoRA 终极指南(10x 学习率策略), 2025
    • SDEdit: Meng et al., ICLR 2022 — SDEdit: Guided Image Synthesis and Editing
    • 大模型 Bad Case 修复实践 — NewBeeNLP / CSDN Kaiyuan_sjtu

    参考来源

    • ImageNet: Deng et al., CVPR 2009
    • MS COCO: Lin et al., ECCV 2014 — cocodataset.org
    • MEP-3M: Liu et al., Pattern Recognition 2023 (IJCAI2021最佳数据集论文) — github.com/ChenDelong1999/MEP-3M
    • LAION-5B: Schuhmann et al., NeurIPS 2022 — laion.ai
    • VERD: ResearchGate 2022 — 产品视频电商检索数据集
    • 淘天拍立淘技术回顾,量子位 2024 — qbitai.com
    • SQuAD: Rajpurkar et al., EMNLP 2016
    • YouTube-8M: Abu-El-Haija et al., CVPR 2016
    • OpenTryOn: github.com/tryonlabs/opentryon