003-多模态与视觉大模型开发实战-2026年必会

课程介绍

视觉领域融合文本提示，实现多模态感知决策，构建与应用视觉语言模型(VLM)已成为视觉算法工程师通往未来的关键能力。它们打破了图像的单一维度，让机器能像人类一样，同时理解图像、文本、声音乃至视频的丰富信息。深度解锁创意设计、医疗诊断、自动驾驶、智能制造等领域的革命性应用。

适合人群

AI算法开发者、机器视觉开发者、深度学习开发者、上位机应用开发者、本科高年级与研究生、科研院所的人工智能算法研究与技术人员。

课程内容

系统化学习Transformer模型注意力机制原理、编码器、解码器设计、理解BERT、GPT3模型架构；掌握VIT、DieT、Swin、RTDERT、RFDETR等主流视觉Transformer模型从训练到部署、深入理解CLIP、DINOv2、DINOv3、SAM2等视觉语言大模型（VLM）结构，掌握基于VLM的图像分类、对象检测、OCR识别、零样本工业异常检测、异常分割、PCA主成分分析、小样本训练、知识蒸馏等主流VLM开发技术、掌握视觉语言模型与多模态模型的全栈开发技术，成为多模态VLM开发工程师。

课程目标

掌握2026年最主流得深度学习开发技术多模态与视觉大模型开发技能；掌握迁移学习、对比学习、自监督学习、知识蒸馏等理论与实践知识；熟练掌握CLIP、DINO、SAM、QWEN、InternVL等主流VLM应用开发技能；基于参考样本或者零样本实现图像分类、对象检测、OCR识别、工业缺陷异常检测、工业缺陷异常分割、全面掌握多模态与VLM主流开发技术框架，科研与职场就业都领先别人一步。

课程提纲

第一章：神经网络基础

001-感知器与MLP基础

002-反向传播原理

003-人工神经网络模型构建与训练

004-图像卷积基本原理

005-卷积神经网络基本概念与原理

006-卷积神经网络构建与训练

第二章：Transformer网络

001-注意力机制概述

002-自注意力QKV计算

003-自注意力矩阵计算

004-自注意力代码实现

005-多头注意力与代码实现

006-掩码注意力机制

007-交叉注意力机制

008-Transfomer网络六大要素

009-Transformer编码器与解码器详解

010-Transfomer代码实现与训练

第三章：Bert与GPT网络

001-BERT模型介绍

002-BERT单词预测与上下文相关性分析

003-GTP系列模型结构与介绍

004-GPT2与GPT3文本生成代码演示

第四章：VIT系列网络

001-ViT模型结构详解

002-ViT模型实现图像分类

003-DieT模型与知识蒸馏

004-Swin Transformer结构详解

005-Swin Transformer迁移学习代码详解

第五章：RTDETR与RFDETR系列网络

001-RTDETR网络模型详解

002-RTDETR自定义数据集训练

003-RTDETR模型部署推理

004-RFDETR网络模型

005-RFDETR自定义数据对象检测训练

006-RFDETR模型部署推理

第六章：单模态与多模态

001-多模态与视觉语言模型概述

第七章：CLIP网络与应用

001-CLIP网络模型详解

002-CLIP逻辑回归图像分类

003-CLIP零样本迁移图像分类

004-CLIP图像特征提取与相似比对

005-CLIP构建以文搜图与以图搜图

006-CLIP零样本异常缺陷分类检测

007-CLIP零样本异常缺陷分割检测

008-CLIP模型微调自定义正样本缺陷分割检测从训练到部署

第八章：DINO网络与应用

001-DINO系列网络模型详解

002-实战DINOv2零样本图分类

003-零样本DINOv2与DINOv3特征提取与分割

004-基于DINOv2特征的PCA分析

005-DINOv2零样本异常缺陷检测

第九章：SAM网络与应用

001-SAM1到SAM3网络模型结构详解

002-SAM2实例分割与跟踪

第十章：VLM系列模型与应用

001-VML模型概述与典型架构

002-QWEN-VL实现图像查询OCR识别

003-QWEN-VL零样本对象检测

004-InternVL实现图像内容精准查询

005-总结与福利

课程部分内容效果展示

本站所有资料均来源于网络以及用户发布，如对资源有争议请联系QQ客服我们可以安排下架！

003-多模态与视觉大模型开发实战-2026年必会

课程介绍

相关文章

001-AI大模型企业级微调项目实战课2026

002-【无密】Dify1.9零基础开发本地Agent智能体