课程介绍
视觉领域融合文本提示,实现多模态感知决策,构建与应用视觉语言模型(VLM)已成为视觉算法工程师通往未来的关键能力。它们打破了图像的单一维度,让机器能像人类一样,同时理解图像、文本、声音乃至视频的丰富信息。深度解锁创意设计、医疗诊断、自动驾驶、智能制造等领域的革命性应用。

适合人群
AI算法开发者、机器视觉开发者、深度学习开发者、上位机应用开发者、本科高年级与研究生、科研院所的人工智能算法研究与技术人员。
课程内容
系统化学习Transformer模型注意力机制原理、编码器、解码器设计、理解BERT、GPT3模型架构;掌握VIT、DieT、Swin、RTDERT、RFDETR等主流视觉Transformer模型从训练到部署、深入理解CLIP、DINOv2、DINOv3、SAM2等视觉语言大模型(VLM)结构,掌握基于VLM的图像分类、对象检测、OCR识别、零样本工业异常检测、异常分割、PCA主成分分析、小样本训练、知识蒸馏等主流VLM开发技术、掌握视觉语言模型与多模态模型的全栈开发技术,成为多模态VLM开发工程师。
课程目标
掌握2026年最主流得深度学习开发技术多模态与视觉大模型开发技能;掌握迁移学习、对比学习、自监督学习、知识蒸馏等理论与实践知识;熟练掌握CLIP、DINO、SAM、QWEN、InternVL等主流VLM应用开发技能;基于参考样本或者零样本实现图像分类、对象检测、OCR识别、工业缺陷异常检测、工业缺陷异常分割、全面掌握多模态与VLM主流开发技术框架,科研与职场就业都领先别人一步。
课程提纲
第一章:神经网络基础
001-感知器与MLP基础
002-反向传播原理
003-人工神经网络模型构建与训练
004-图像卷积基本原理
005-卷积神经网络基本概念与原理
006-卷积神经网络构建与训练
第二章:Transformer网络
001-注意力机制概述
002-自注意力QKV计算
003-自注意力矩阵计算
004-自注意力代码实现
005-多头注意力与代码实现
006-掩码注意力机制
007-交叉注意力机制
008-Transfomer网络六大要素
009-Transformer编码器与解码器详解
010-Transfomer代码实现与训练
第三章:Bert与GPT网络
001-BERT模型介绍
002-BERT单词预测与上下文相关性分析
003-GTP系列模型结构与介绍
004-GPT2与GPT3文本生成代码演示
第四章:VIT系列网络
001-ViT模型结构详解
002-ViT模型实现图像分类
003-DieT模型与知识蒸馏
004-Swin Transformer结构详解
005-Swin Transformer迁移学习代码详解
第五章:RTDETR与RFDETR系列网络
001-RTDETR网络模型详解
002-RTDETR自定义数据集训练
003-RTDETR模型部署推理
004-RFDETR网络模型
005-RFDETR自定义数据对象检测训练
006-RFDETR模型部署推理
第六章:单模态与多模态
001-多模态与视觉语言模型概述
第七章:CLIP网络与应用
001-CLIP网络模型详解
002-CLIP逻辑回归图像分类
003-CLIP零样本迁移图像分类
004-CLIP图像特征提取与相似比对
005-CLIP构建以文搜图与以图搜图
006-CLIP零样本异常缺陷分类检测
007-CLIP零样本异常缺陷分割检测
008-CLIP模型微调自定义正样本缺陷分割检测从训练到部署
第八章:DINO网络与应用
001-DINO系列网络模型详解
002-实战DINOv2零样本图分类
003-零样本DINOv2与DINOv3特征提取与分割
004-基于DINOv2特征的PCA分析
005-DINOv2零样本异常缺陷检测
第九章:SAM网络与应用
001-SAM1到SAM3网络模型结构详解
002-SAM2实例分割与跟踪
第十章:VLM系列模型与应用
001-VML模型概述与典型架构
002-QWEN-VL实现图像查询OCR识别
003-QWEN-VL零样本对象检测
004-InternVL实现图像内容精准查询
005-总结与福利
课程部分内容效果展示

