关于
您好!👋 我叫郑鑫裕,就读于西安交通大学及里尔中央理工学院,爱好语言、编程以及文学。
📝 个人简介
具备生成式AI与计算机视觉相关项目经验,熟悉从数据处理、模型训练到效果优化的完整流程,能够从零实现扩散模型训练与推理框架,并具备多卡机器训练经验。拥有中法双学位与海外实习经历,能够在跨文化环境中高效协作。关注扩散模型与图像、视频生成及压缩方向,兼顾研究探索与业务落地。目前在阿里巴巴钉钉实习,负责数字人方向的算法与工程工作。
👤 个人信息
| 📱 | 电话 | 150 7938 0535 |
| 📧 | 邮箱 | 3193603347@qq.com |
| 📍 | 地址 | 陕西省西安市西咸新区西安交通大学创新港校区惠园 |
💻 技术栈
| Python | PyTorch · 扩散模型 · LoRA微调 · Transformer | ⭐⭐⭐⭐ | |
| C/C++ | 系统编程 · 嵌入式开发 | ⭐⭐⭐⭐ | |
| 🖼️ | 计算机视觉 | OpenCV · YOLO · 图像分割 · 关键点检测 | ⭐⭐⭐⭐ |
| 🎨 | AIGC 工具 | ComfyUI · Stable Diffusion · 视频生成 | ⭐⭐⭐⭐ |
| 🧠 | Linux · Git | Arch / Ubuntu · 版本控制 · 多卡训练 | ⭐⭐⭐⭐⭐ |
| 📄 | LaTeX · Emacs | 学术写作 · 环境配置 | ⭐⭐⭐⭐ |
🌍 语言
| 🇨🇳 | 中文 | 母语 | ⭐⭐⭐⭐⭐ |
| 🇬🇧 | 英语 | CET6 · 学术读写 | ⭐⭐⭐⭐ |
| 🇫🇷 | 法语 | DELF C1 · 法语授课环境 | ⭐⭐⭐⭐ |
🎓 教育背景
研究方向:基于扩散模型或自回归模型的生成式图像与视频压缩
核心课程:深度学习、计算机视觉、强化学习、机器学习、模式识别、嵌入式系统
💼 专业经历
负责数字人方向相关工作,围绕实时数字人、音视频交互与生成式模型落地,参与算法方案调研、工程实现和效果优化。
基于 EasyAnimate(Video-DiT)采用 CatV2TON + LiON-LoRA 方案微调,通过清洗企业闭源数据优化训练策略,提升 VideoTryOn 模型的动作、服装细节一致性,产出可用于生产的图像换装模型。
基于 ComfyUI 搭建端到端视频换装流程。使用 Nano Banana 与 ChatGPT 设计复杂材质衣物镂空图生成提示词,将生成成功率提升至 99% 以上。
开发基于 AI 视频理解的工地智能安全头盔系统,结合实地调研识别 8 类主要风险场景。
参考 ST-GCN 与 SkateFormer 等骨架序列建模方法,采用 YOLOv5s-pose 提取人体关键点,结合 Transformer 架构对时序与空间关系联合建模,企业数据集上风险场景分类准确率达 94%。
基于 Arduino + ESP32-CAM 实现硬件原型,集成边缘计算模块。
围绕建筑裂缝智能检测开展研究,调研 50 余篇文献,采用 Deeplabv3+ 语义分割方案,实验室数据集 IoU 达 0.84。
基于 YOLO 实现实时车道线检测、行人检测及车标检测,结合 Arduino 与嵌入式 GPU 平台完成自动驾驶小车原型搭建。
🔬 科研经历
对 VQVAE、RVQ、FSQ 等量化编码器及 MaskGIT、MAE 的 ROI 区域图像编解码进行调研。
结合 Stable Diffusion、HyperPrior 熵编码与传统图像处理方法设计压缩方案,实现 500 倍以上压缩比(0.002 bpp)。