叶梓老师《多模态大模型原理与实践》课纲

来源： 京城名师培训网 日期：2026-05-08 16:36:51 点击：219 属于：课程大纲

多模态大模型原理与实践提纲

培训需要解决的问题

移动云盘紧跟前沿技术用AI全面重塑云盘“采传存处用”场景，探索对文本、图片、笔记、视频、音频等数字内容的智能化赋能。通过本次培训，拓展对多模态AI应用领域的视野，帮助团队聚焦AI赋能创新突破，提升对资产管理AI服务的技术认知与理解，更好地助力业务智能化业务建设。

培训要求

已开展两期的大语言模型培训，在此基础上开展一期多模块方面结合大语言模型的通用生成类技能培训。
培训课程重点内容：①CLIP、SD；②结合中移的用户资产对“视频生成，音频生成和音频总结”部分可以进行前瞻性的技术分析和研讨；③希望结合公司业务来讲解。
基础知识部分可不讲或略讲，文生视频技术目前不太成熟，只略讲概念部分

培训时长

1天

培训提纲

第1部分：多模态学习概述
多模态学习的定义
多模态学习的意义
多模态数据类型：文本、图像、视频、音频等
多模态学习的应用领域（自然语言处理、计算机视觉、推荐系统等）

第2部分：ViT与Beit
Transformer模型的基本概念
ViT模型架构概述
Patch Embedding
Positional Encoding
Transformer Encoder
Beit模型概述
Beit与ViT的比较
Beit在自监督学习中的应用
Beit在多模态任务中的优势
实践演示：利用ViT和Beit进行图文转化的效果

第3部分：CLIP与BLIP
CLIP模型介绍：从图像到文本的跨模态嵌入
BLIP模型架构：结合CLIP的多模态模型
CLIP/BLIP在多模态任务中的应用：图像-文本匹配、图像标注等
实践演示：使用CLIP进行图像-文本匹配任务

第4部分：Stable Diffusion及SD XL
Stable Diffusion模型概述：生成模型在图像生成中的应用
SD的原理推导
SD模型的架构
Stable Diffusion XL：扩展的Stable Diffusion模型
Stable Diffusion在艺术创作和设计中的应用
微调扩散模型：DreamBooth和Textual-Inversion
实践演示：使用Stable Diffusion生成图像

第5部分：微调与RLHF方法
微调的基本概念
SFT：监督微调方法
PEFT的概念
LoRA：低秩适应微调
微调方法在多模态学习中的应用
实践演示：对大模型进行LoRA微调

第6部分：与人类偏好对齐
强化学习基础概述
DPO：直接偏好优化
PPO：近端策略优化
llama-factory简介
实践演示：利用llama-factory对大模型进行RLHF

第7部分：多模态大模型
qwen_vl_chat
Yi_vl_chat
LLaVa
open-sora
顺便提一下ASR与TTS
实践演示：使用qwen_vl和Yi_vl_chat进行视觉问答任务

第8部分：结合中移业务的开放讨论
用户资产管理AI服务
AI技术在用户资产管理中的应用

标签：叶梓

邀请嘉宾演讲电话：13811229543 李助理（工作日8:30-18:00，仅限演讲其他勿扰）
免责声明：以上内容（包括文字、图片、视频）为用户上传并发布，本平台仅提供信息存储服务。如涉及版权问题，请联系我们并提供版权证明，我们将立即删除！

上一企业内训：张亶老师《AI培训大纲》课纲 2025

下一企业内训：叶梓老师《大模型技术与应用培训》课纲