北京邮电大学出版社

本书从计算机视觉的基础理论出发，逐步深入图像处理、特征提取、深度学习和最新模型架构。第1章回顾了计算机视觉的发展历程，并对全文内容进行了简要介绍。第2～4章介绍了图像处理、特征提取和神经网络的基础知识，为后续章节的内容理解提供了必要的先验知识。第5～9章涵盖了Transformer结构、物体分类与识别、目标检测与语义分割、生成对抗网络、文本多模态学习等内容，为读者全面了解和掌握计算机视觉提供了系统化的知识结构。除了讲解理论知识外，本书还提供了许多开源代码的链接，使读者可以在实践中掌握本书讲述的内容。
本书适合用作高年级本科生和研究生的计算机视觉入门教材，也可供工程技术人员参阅。

目录介绍

第1章绪论1

1.1计算机视觉的定义1

1.2计算机视觉的发展历程3

1.3GPU与并行技术——深度学习和计算机视觉发展的加速器6

1.4计算机视觉的应用领域8

1.5全书章节简介15

第2章图像处理基础16

2.1颜色空间16

2.1.1三基色原理16

2.1.2彩色模型16

2.1.3小结18

2.2数字图像基础18

2.2.1采样19

2.2.2量化19

2.2.3图像的性质20

2.2.4小结23

2.3图像预处理23

2.3.1灰度化23

2.3.2图像变换24

2.3.3图像增强25

2.3.4图像分割31

2.3.5小结32

本章总结32

第3章特征提取与描述33

3.1特征提取概述33

3.2角点检测34

3.2.1角点介绍34

3.2.2Harris角点35

3.2.3Fast角点36

3.2.4*FASTER角点检测子36

3.2.5小结38

3.3斑点检测38

3.3.1斑点介绍38

3.3.2LoG斑点检测39

3.3.3*DoG斑点检测39

3.3.4*DoH斑点检测41

3.3.5SIFT斑点检测41

3.3.6SURF斑点检测42

3.3.7小结42

3.4特征描述子43

3.4.1特征描述子介绍43

3.4.2BRIEF描述子43

3.4.3ORB特征提取算法43

3.4.4BRISK特征提取算法44

3.4.5FREAK特征提取算法44

3.4.6小结44

3.5边缘检测45

3.5.1边缘介绍45

3.5.2边缘检测介绍45

3.5.3边缘检测的基本步骤46

3.5.4边缘检测算子的概念46

3.5.5常见的边缘检测算子47

3.5.6梯度算子介绍48

3.5.7梯度的衡量方法48

3.5.8如何用梯度算子实现边缘检测48

3.5.9新兴的边缘检测算法49

3.5.10小结50

3.6一阶微分边缘算子50

3.6.1一阶微分边缘算子的基本思想50

3.6.2Roberts算子50

3.6.3Prewitt算子51

3.6.4Sobel算子52

3.6.5Kirsch算子53

3.6.6小结53

3.7二阶微分边缘算子53

3.7.1二阶微分边缘算子基本思想53

3.7.2拉普拉斯算子54

3.7.3LoG算子55

3.7.4Canny算子55

3.7.5小结56

3.8基于窗口模板的检测方法56

3.8.1SUSAN检测方法介绍56

3.8.2小结57

本章总结58

第4章神经网络59

4.1神经网络基础59

4.1.1感知器59

4.1.2前向传播与反向传播算法62

4.1.3小结67

4.2卷积神经网络67

4.2.1卷积神经网络概述68

4.2.2卷积神经网络结构69

4.2.3卷积神经网络的组成与架构70

4.2.4卷积神经网络的应用74

4.2.5小结74

4.3循环神经网络75

4.3.1循环神经网络概述75

4.3.2循环神经网络与语言模型76

4.3.3循环神经网络结构76

4.3.4循环神经网络的扩展与改进77

4.3.5小结80

本章总结81

第5章Transformer结构83

5.1自注意力机制83

5.1.1自注意力机制的基本原理83

5.1.2多头自注意力84

5.1.3自注意力的计算过程84

5.1.4小结86

5.2Transformer模型架构87

5.2.1编码器解码器结构87

5.2.2位置编码90

5.2.3前馈网络91

5.2.4层归一化92

5.2.5小结93

5.3ViT模型93

5.3.1ViT模型与特点93

5.3.2Transformer在图像数据中的应用95

5.3.3ViT模型的主要结构96

5.3.4小结97

5.4卷积Transformer98

5.4.1卷积Transformer的提出背景98

5.4.2结合卷积神经网络和Transformer的优势99

5.4.3卷积Transformer模型的结构100

5.4.4小结102

5.5Transformer的变种与扩展103

5.5.1Swin Transformer103

5.5.2Dataefficient Image Transformer106

5.5.3CrossAttention Transformer107

5.5.4小结110

5.6Transformer模型的局限性与挑战110

5.6.1计算资源需求110

5.6.2模型泛化能力111

5.6.3数据依赖性问题111

5.6.4小结111

本章总结112

第6章物体分类与识别113

6.1从AlexNet到GoogLeNet113

6.1.1AlexNet114

6.1.2VGGNet116

6.1.3GoogleNet121

6.1.4小结128

6.2深度残差网络ResNet128

6.2.1平原网络的深度限制128

6.2.2ResNet的提出129

6.2.3残差学习突破深度限制130

6.2.4小结131

6.3ViT模型132

6.3.1ViT和Resnet的性能差异133

6.3.2ViT的变体133

6.3.3小结135

6.4迁移学习图像分类135

6.4.1迁移学习简介136

6.4.2迁移学习图像分类策略136

6.4.3小结138

本章总结138

第7章目标检测与语义分割139

7.1从RCNN到FPN139

7.1.1RCNN网络结构139

7.1.2交并比140

7.1.3边框回归算法140

7.1.4非极大值抑制141

7.1.5SPPNet网络结构142

7.1.6Fast RCNN网络结构143

7.1.7Faster RCNN网络结构145

7.1.8FPN网络结构148

7.1.9小结149

7.2端到端方法:YOLO、SSD、RetinaNet149

7.2.1One Stage和Two Stage方法的比较149

7.2.2YOLO网络结构150

7.2.3SSD网络结构153

7.2.4RetinaNet算法156

7.2.5小结157

7.3基于Transformer的目标检测158

7.3.1目标检测引入注意力机制158

7.3.2Relation Net结构158

7.3.3DETR网络结构159

7.3.4小结163

7.4从FCN到Mask RCNN163

7.4.1FCN网络结构164

7.4.2DeepLab网络结构165

7.4.3Mask RCNN网络结构167

7.4.4SegNeXt网络结构169

7.4.5CPSeg框架171

7.4.6小结172

本章总结172

第8章生成对抗网络173

8.1生成对抗网络模型介绍173

8.1.1生成模型与判别模型173

8.1.2对抗网络思想174

8.1.3详细实现过程174

8.1.4小结178

8.2生成对抗网络的简单理论介绍178

8.2.1生成对抗网络的理论灵感178

8.2.2生成对抗网络的理论证明180

8.2.3小结182

8.3生成对抗网络的应用183

8.3.1文本转图像的模型——条件生成对抗网络184

8.3.2照片风格转换的模型——循环生成对抗网络187

8.3.3多域图像转换模型——StarGAN191

8.3.4精确控制生成图片效果的方法——信息生成对抗网络194

8.3.5小结197

本章总结198

第9章文本多模态学习199

9.1视觉文本多模态数据199

9.1.1数据类型与来源199

9.1.2数据预处理与特征提取200

9.1.3数据集介绍201

9.1.4小结202

9.2多模态融合技术202

9.2.1早期融合与晚期融合202

9.2.2交叉模态交互204

9.2.3注意力机制在多模态融合中的应用204

9.2.4小结209

9.3视觉文本模型架构209

9.3.1双通道模型209

9.3.2联合嵌入空间模型212

9.3.3Transformer在视觉文本任务中的应用216

9.3.4小结217

9.4图像标注与描述生成217

9.4.1任务定义与评估标准217

9.4.2经典模型与方法218

9.4.3最新进展与案例分析223

9.4.4小结224

9.5多模态情感分析225

9.5.1情感分析简介225

9.5.2视觉文本情感分析的挑战226

9.5.3模型与方法226

9.5.4小结231

本章总结231

参考文献232

第1章绪论1

1.1计算机视觉的定义1

1.2计算机视觉的发展历程3

1.3GPU与并行技术——深度学习和计算机视觉发展的加速器6

1.4计算机视觉的应用领域8

1.5全书章节简介15

第2章图像处理基础16

2.1颜色空间16

2.1.1三基色原理16

2.1.2彩色模型16

2.1.3小结18

2.2数字图像基础18

2.2.1采样19

2.2.2量化19

2.2.3图像的性质20

2.2.4小结23

2.3图像预处理23

2.3.1灰度化23

2.3.2图像变换24

2.3.3图像增强25

2.3.4图像分割31

2.3.5小结32

本章总结32

第3章特征提取与描述33

3.1特征提取概述33

3.2角点检测34

3.2.1角点介绍34

3.2.2Harris角点35

3.2.3Fast角点36

3.2.4*FASTER角点检测子36

3.2.5小结38

3.3斑点检测38

3.3.1斑点介绍38

3.3.2LoG斑点检测39

3.3.3*DoG斑点检测39

3.3.4*DoH斑点检测41

3.3.5SIFT斑点检测41

3.3.6SURF斑点检测42

3.3.7小结42

3.4特征描述子43

3.4.1特征描述子介绍43

3.4.2BRIEF描述子43

3.4.3ORB特征提取算法43

3.4.4BRISK特征提取算法44

3.4.5FREAK特征提取算法44

3.4.6小结44

3.5边缘检测45

3.5.1边缘介绍45

3.5.2边缘检测介绍45

3.5.3边缘检测的基本步骤46

3.5.4边缘检测算子的概念46

3.5.5常见的边缘检测算子47

3.5.6梯度算子介绍48

3.5.7梯度的衡量方法48

3.5.8如何用梯度算子实现边缘检测48

3.5.9新兴的边缘检测算法49

3.5.10小结50

3.6一阶微分边缘算子50

3.6.1一阶微分边缘算子的基本思想50

3.6.2Roberts算子50

3.6.3Prewitt算子51

3.6.4Sobel算子52

3.6.5Kirsch算子53

3.6.6小结53

3.7二阶微分边缘算子53

3.7.1二阶微分边缘算子基本思想53

3.7.2拉普拉斯算子54

3.7.3LoG算子55

3.7.4Canny算子55

3.7.5小结56

3.8基于窗口模板的检测方法56

3.8.1SUSAN检测方法介绍56

3.8.2小结57

本章总结58

第4章神经网络59

4.1神经网络基础59

4.1.1感知器59

4.1.2前向传播与反向传播算法62

4.1.3小结67

4.2卷积神经网络67

4.2.1卷积神经网络概述68

4.2.2卷积神经网络结构69

4.2.3卷积神经网络的组成与架构70

4.2.4卷积神经网络的应用74

4.2.5小结74

4.3循环神经网络75

4.3.1循环神经网络概述75

4.3.2循环神经网络与语言模型76

4.3.3循环神经网络结构76

4.3.4循环神经网络的扩展与改进77

4.3.5小结80

本章总结81

第5章Transformer结构83

5.1自注意力机制83

5.1.1自注意力机制的基本原理83

5.1.2多头自注意力84

5.1.3自注意力的计算过程84

5.1.4小结86

5.2Transformer模型架构87

5.2.1编码器解码器结构87

5.2.2位置编码90

5.2.3前馈网络91

5.2.4层归一化92

5.2.5小结93

5.3ViT模型93

5.3.1ViT模型与特点93

5.3.2Transformer在图像数据中的应用95

5.3.3ViT模型的主要结构96

5.3.4小结97

5.4卷积Transformer98

5.4.1卷积Transformer的提出背景98

5.4.2结合卷积神经网络和Transformer的优势99

5.4.3卷积Transformer模型的结构100

5.4.4小结102

5.5Transformer的变种与扩展103

5.5.1Swin Transformer103

5.5.2Dataefficient Image Transformer106

5.5.3CrossAttention Transformer107

5.5.4小结110

5.6Transformer模型的局限性与挑战110

5.6.1计算资源需求110

5.6.2模型泛化能力111

5.6.3数据依赖性问题111

5.6.4小结111

本章总结112

第6章物体分类与识别113

6.1从AlexNet到GoogLeNet113

6.1.1AlexNet114

6.1.2VGGNet116

6.1.3GoogleNet121

6.1.4小结128

6.2深度残差网络ResNet128

6.2.1平原网络的深度限制128

6.2.2ResNet的提出129

6.2.3残差学习突破深度限制130

6.2.4小结131

6.3ViT模型132

6.3.1ViT和Resnet的性能差异133

6.3.2ViT的变体133

6.3.3小结135

6.4迁移学习图像分类135

6.4.1迁移学习简介136

6.4.2迁移学习图像分类策略136

6.4.3小结138

本章总结138

第7章目标检测与语义分割139

7.1从RCNN到FPN139

7.1.1RCNN网络结构139

7.1.2交并比140

7.1.3边框回归算法140

7.1.4非极大值抑制141

7.1.5SPPNet网络结构142

7.1.6Fast RCNN网络结构143

7.1.7Faster RCNN网络结构145

7.1.8FPN网络结构148

7.1.9小结149

7.2端到端方法:YOLO、SSD、RetinaNet149

7.2.1One Stage和Two Stage方法的比较149

7.2.2YOLO网络结构150

7.2.3SSD网络结构153

7.2.4RetinaNet算法156

7.2.5小结157

7.3基于Transformer的目标检测158

7.3.1目标检测引入注意力机制158

7.3.2Relation Net结构158

7.3.3DETR网络结构159

7.3.4小结163

7.4从FCN到Mask RCNN163

7.4.1FCN网络结构164

7.4.2DeepLab网络结构165

7.4.3Mask RCNN网络结构167

7.4.4SegNeXt网络结构169

7.4.5CPSeg框架171

7.4.6小结172

本章总结172

第8章生成对抗网络173

8.1生成对抗网络模型介绍173

8.1.1生成模型与判别模型173

8.1.2对抗网络思想174

8.1.3详细实现过程174

8.1.4小结178

8.2生成对抗网络的简单理论介绍178

8.2.1生成对抗网络的理论灵感178

8.2.2生成对抗网络的理论证明180

8.2.3小结182

8.3生成对抗网络的应用183

8.3.1文本转图像的模型——条件生成对抗网络184

8.3.2照片风格转换的模型——循环生成对抗网络187

8.3.3多域图像转换模型——StarGAN191

8.3.4精确控制生成图片效果的方法——信息生成对抗网络194

8.3.5小结197

本章总结198

第9章文本多模态学习199

9.1视觉文本多模态数据199

9.1.1数据类型与来源199

9.1.2数据预处理与特征提取200

9.1.3数据集介绍201

9.1.4小结202

9.2多模态融合技术202

9.2.1早期融合与晚期融合202

9.2.2交叉模态交互204

9.2.3注意力机制在多模态融合中的应用204

9.2.4小结209

9.3视觉文本模型架构209

9.3.1双通道模型209

9.3.2联合嵌入空间模型212

9.3.3Transformer在视觉文本任务中的应用216

9.3.4小结217

9.4图像标注与描述生成217

9.4.1任务定义与评估标准217

9.4.2经典模型与方法218

9.4.3最新进展与案例分析223

9.4.4小结224

9.5多模态情感分析225

9.5.1情感分析简介225

9.5.2视觉文本情感分析的挑战226

9.5.3模型与方法226

9.5.4小结231

本章总结231

参考文献232

第1章绪论1

1.1计算机视觉的定义1

1.2计算机视觉的发展历程3

1.3GPU与并行技术——深度学习和计算机视觉发展的加速器6

1.4计算机视觉的应用领域8

1.5全书章节简介15

第2章图像处理基础16

2.1颜色空间16

2.1.1三基色原理16

2.1.2彩色模型16

2.1.3小结18

2.2数字图像基础18

2.2.1采样19

2.2.2量化19

2.2.3图像的性质20

2.2.4小结23

2.3图像预处理23

2.3.1灰度化23

2.3.2图像变换24

2.3.3图像增强25

2.3.4图像分割31

2.3.5小结32

本章总结32

第3章特征提取与描述33

3.1特征提取概述33

3.2角点检测34

3.2.1角点介绍34

3.2.2Harris角点35

3.2.3Fast角点36

3.2.4*FASTER角点检测子36

3.2.5小结38

3.3斑点检测38

3.3.1斑点介绍38

3.3.2LoG斑点检测39

3.3.3*DoG斑点检测39

3.3.4*DoH斑点检测41

3.3.5SIFT斑点检测41

3.3.6SURF斑点检测42

3.3.7小结42

3.4特征描述子43

3.4.1特征描述子介绍43

3.4.2BRIEF描述子43

3.4.3ORB特征提取算法43

3.4.4BRISK特征提取算法44

3.4.5FREAK特征提取算法44

3.4.6小结44

3.5边缘检测45

3.5.1边缘介绍45

3.5.2边缘检测介绍45

3.5.3边缘检测的基本步骤46

3.5.4边缘检测算子的概念46

3.5.5常见的边缘检测算子47

3.5.6梯度算子介绍48

3.5.7梯度的衡量方法48

3.5.8如何用梯度算子实现边缘检测48

3.5.9新兴的边缘检测算法49

3.5.10小结50

3.6一阶微分边缘算子50

3.6.1一阶微分边缘算子的基本思想50

3.6.2Roberts算子50

3.6.3Prewitt算子51

3.6.4Sobel算子52

3.6.5Kirsch算子53

3.6.6小结53

3.7二阶微分边缘算子53

3.7.1二阶微分边缘算子基本思想53

3.7.2拉普拉斯算子54

3.7.3LoG算子55

3.7.4Canny算子55

3.7.5小结56

3.8基于窗口模板的检测方法56

3.8.1SUSAN检测方法介绍56

3.8.2小结57

本章总结58

第4章神经网络59

4.1神经网络基础59

4.1.1感知器59

4.1.2前向传播与反向传播算法62

4.1.3小结67

4.2卷积神经网络67

4.2.1卷积神经网络概述68

4.2.2卷积神经网络结构69

4.2.3卷积神经网络的组成与架构70

4.2.4卷积神经网络的应用74

4.2.5小结74

4.3循环神经网络75

4.3.1循环神经网络概述75

4.3.2循环神经网络与语言模型76

4.3.3循环神经网络结构76

4.3.4循环神经网络的扩展与改进77

4.3.5小结80

本章总结81

第5章Transformer结构83

5.1自注意力机制83

5.1.1自注意力机制的基本原理83

5.1.2多头自注意力84

5.1.3自注意力的计算过程84

5.1.4小结86

5.2Transformer模型架构87

5.2.1编码器解码器结构87

5.2.2位置编码90

5.2.3前馈网络91

5.2.4层归一化92

5.2.5小结93

5.3ViT模型93

5.3.1ViT模型与特点93

5.3.2Transformer在图像数据中的应用95

5.3.3ViT模型的主要结构96

5.3.4小结97

5.4卷积Transformer98

5.4.1卷积Transformer的提出背景98

5.4.2结合卷积神经网络和Transformer的优势99

5.4.3卷积Transformer模型的结构100

5.4.4小结102

5.5Transformer的变种与扩展103

5.5.1Swin Transformer103

5.5.2Dataefficient Image Transformer106

5.5.3CrossAttention Transformer107

5.5.4小结110

5.6Transformer模型的局限性与挑战110

5.6.1计算资源需求110

5.6.2模型泛化能力111

5.6.3数据依赖性问题111

5.6.4小结111

本章总结112

第6章物体分类与识别113

6.1从AlexNet到GoogLeNet113

6.1.1AlexNet114

6.1.2VGGNet116

6.1.3GoogleNet121

6.1.4小结128

6.2深度残差网络ResNet128

6.2.1平原网络的深度限制128

6.2.2ResNet的提出129

6.2.3残差学习突破深度限制130

6.2.4小结131

6.3ViT模型132

6.3.1ViT和Resnet的性能差异133

6.3.2ViT的变体133

6.3.3小结135

6.4迁移学习图像分类135

6.4.1迁移学习简介136

6.4.2迁移学习图像分类策略136

6.4.3小结138

本章总结138

第7章目标检测与语义分割139

7.1从RCNN到FPN139

7.1.1RCNN网络结构139

7.1.2交并比140

7.1.3边框回归算法140

7.1.4非极大值抑制141

7.1.5SPPNet网络结构142

7.1.6Fast RCNN网络结构143

7.1.7Faster RCNN网络结构145

7.1.8FPN网络结构148

7.1.9小结149

7.2端到端方法:YOLO、SSD、RetinaNet149

7.2.1One Stage和Two Stage方法的比较149

7.2.2YOLO网络结构150

7.2.3SSD网络结构153

7.2.4RetinaNet算法156

7.2.5小结157

7.3基于Transformer的目标检测158

7.3.1目标检测引入注意力机制158

7.3.2Relation Net结构158

7.3.3DETR网络结构159

7.3.4小结163

7.4从FCN到Mask RCNN163

7.4.1FCN网络结构164

7.4.2DeepLab网络结构165

7.4.3Mask RCNN网络结构167

7.4.4SegNeXt网络结构169

7.4.5CPSeg框架171

7.4.6小结172

本章总结172

第8章生成对抗网络173

8.1生成对抗网络模型介绍173

8.1.1生成模型与判别模型173

8.1.2对抗网络思想174

8.1.3详细实现过程174

8.1.4小结178

8.2生成对抗网络的简单理论介绍178

8.2.1生成对抗网络的理论灵感178

8.2.2生成对抗网络的理论证明180

8.2.3小结182

8.3生成对抗网络的应用183

8.3.1文本转图像的模型——条件生成对抗网络184

8.3.2照片风格转换的模型——循环生成对抗网络187

8.3.3多域图像转换模型——StarGAN191

8.3.4精确控制生成图片效果的方法——信息生成对抗网络194

8.3.5小结197

本章总结198

第9章文本多模态学习199

9.1视觉文本多模态数据199

9.1.1数据类型与来源199

9.1.2数据预处理与特征提取200

9.1.3数据集介绍201

9.1.4小结202

9.2多模态融合技术202

9.2.1早期融合与晚期融合202

9.2.2交叉模态交互204

9.2.3注意力机制在多模态融合中的应用204

9.2.4小结209

9.3视觉文本模型架构209

9.3.1双通道模型209

9.3.2联合嵌入空间模型212

9.3.3Transformer在视觉文本任务中的应用216

9.3.4小结217

9.4图像标注与描述生成217

9.4.1任务定义与评估标准217

9.4.2经典模型与方法218

9.4.3最新进展与案例分析223

9.4.4小结224

9.5多模态情感分析225

9.5.1情感分析简介225

9.5.2视觉文本情感分析的挑战226

9.5.3模型与方法226

9.5.4小结231

本章总结231

参考文献232

第1章绪论1

1.1计算机视觉的定义1

1.2计算机视觉的发展历程3

1.3GPU与并行技术——深度学习和计算机视觉发展的加速器6

1.4计算机视觉的应用领域8

1.5全书章节简介15

第2章图像处理基础16

2.1颜色空间16

2.1.1三基色原理16

2.1.2彩色模型16

2.1.3小结18

2.2数字图像基础18

2.2.1采样19

2.2.2量化19

2.2.3图像的性质20

2.2.4小结23

2.3图像预处理23

2.3.1灰度化23

2.3.2图像变换24

2.3.3图像增强25

2.3.4图像分割31

2.3.5小结32

本章总结32

第3章特征提取与描述33

3.1特征提取概述33

3.2角点检测34

3.2.1角点介绍34

3.2.2Harris角点35

3.2.3Fast角点36

3.2.4*FASTER角点检测子36

3.2.5小结38

3.3斑点检测38

3.3.1斑点介绍38

3.3.2LoG斑点检测39

3.3.3*DoG斑点检测39

3.3.4*DoH斑点检测41

3.3.5SIFT斑点检测41

3.3.6SURF斑点检测42

3.3.7小结42

3.4特征描述子43

3.4.1特征描述子介绍43

3.4.2BRIEF描述子43

3.4.3ORB特征提取算法43

3.4.4BRISK特征提取算法44

3.4.5FREAK特征提取算法44

3.4.6小结44

3.5边缘检测45

3.5.1边缘介绍45

3.5.2边缘检测介绍45

3.5.3边缘检测的基本步骤46

3.5.4边缘检测算子的概念46

3.5.5常见的边缘检测算子47

3.5.6梯度算子介绍48

3.5.7梯度的衡量方法48

3.5.8如何用梯度算子实现边缘检测48

3.5.9新兴的边缘检测算法49

3.5.10小结50

3.6一阶微分边缘算子50

3.6.1一阶微分边缘算子的基本思想50

3.6.2Roberts算子50

3.6.3Prewitt算子51

3.6.4Sobel算子52

3.6.5Kirsch算子53

3.6.6小结53

3.7二阶微分边缘算子53

3.7.1二阶微分边缘算子基本思想53

3.7.2拉普拉斯算子54

3.7.3LoG算子55

3.7.4Canny算子55

3.7.5小结56

3.8基于窗口模板的检测方法56

3.8.1SUSAN检测方法介绍56

3.8.2小结57

本章总结58

第4章神经网络59

4.1神经网络基础59

4.1.1感知器59

4.1.2前向传播与反向传播算法62

4.1.3小结67

4.2卷积神经网络67

4.2.1卷积神经网络概述68

4.2.2卷积神经网络结构69

4.2.3卷积神经网络的组成与架构70

4.2.4卷积神经网络的应用74

4.2.5小结74

4.3循环神经网络75

4.3.1循环神经网络概述75

4.3.2循环神经网络与语言模型76

4.3.3循环神经网络结构76

4.3.4循环神经网络的扩展与改进77

4.3.5小结80

本章总结81

第5章Transformer结构83

5.1自注意力机制83

5.1.1自注意力机制的基本原理83

5.1.2多头自注意力84

5.1.3自注意力的计算过程84

5.1.4小结86

5.2Transformer模型架构87

5.2.1编码器解码器结构87

5.2.2位置编码90

5.2.3前馈网络91

5.2.4层归一化92

5.2.5小结93

5.3ViT模型93

5.3.1ViT模型与特点93

5.3.2Transformer在图像数据中的应用95

5.3.3ViT模型的主要结构96

5.3.4小结97

5.4卷积Transformer98

5.4.1卷积Transformer的提出背景98

5.4.2结合卷积神经网络和Transformer的优势99

5.4.3卷积Transformer模型的结构100

5.4.4小结102

5.5Transformer的变种与扩展103

5.5.1Swin Transformer103

5.5.2Dataefficient Image Transformer106

5.5.3CrossAttention Transformer107

5.5.4小结110

5.6Transformer模型的局限性与挑战110

5.6.1计算资源需求110

5.6.2模型泛化能力111

5.6.3数据依赖性问题111

5.6.4小结111

本章总结112

第6章物体分类与识别113

6.1从AlexNet到GoogLeNet113

6.1.1AlexNet114

6.1.2VGGNet116

6.1.3GoogleNet121

6.1.4小结128

6.2深度残差网络ResNet128

6.2.1平原网络的深度限制128

6.2.2ResNet的提出129

6.2.3残差学习突破深度限制130

6.2.4小结131

6.3ViT模型132

6.3.1ViT和Resnet的性能差异133

6.3.2ViT的变体133

6.3.3小结135

6.4迁移学习图像分类135

6.4.1迁移学习简介136

6.4.2迁移学习图像分类策略136

6.4.3小结138

本章总结138

第7章目标检测与语义分割139

7.1从RCNN到FPN139

7.1.1RCNN网络结构139

7.1.2交并比140

7.1.3边框回归算法140

7.1.4非极大值抑制141

7.1.5SPPNet网络结构142

7.1.6Fast RCNN网络结构143

7.1.7Faster RCNN网络结构145

7.1.8FPN网络结构148

7.1.9小结149

7.2端到端方法:YOLO、SSD、RetinaNet149

7.2.1One Stage和Two Stage方法的比较149

7.2.2YOLO网络结构150

7.2.3SSD网络结构153

7.2.4RetinaNet算法156

7.2.5小结157

7.3基于Transformer的目标检测158

7.3.1目标检测引入注意力机制158

7.3.2Relation Net结构158

7.3.3DETR网络结构159

7.3.4小结163

7.4从FCN到Mask RCNN163

7.4.1FCN网络结构164

7.4.2DeepLab网络结构165

7.4.3Mask RCNN网络结构167

7.4.4SegNeXt网络结构169

7.4.5CPSeg框架171

7.4.6小结172

本章总结172

第8章生成对抗网络173

8.1生成对抗网络模型介绍173

8.1.1生成模型与判别模型173

8.1.2对抗网络思想174

8.1.3详细实现过程174

8.1.4小结178

8.2生成对抗网络的简单理论介绍178

8.2.1生成对抗网络的理论灵感178

8.2.2生成对抗网络的理论证明180

8.2.3小结182

8.3生成对抗网络的应用183

8.3.1文本转图像的模型——条件生成对抗网络184

8.3.2照片风格转换的模型——循环生成对抗网络187

8.3.3多域图像转换模型——StarGAN191

8.3.4精确控制生成图片效果的方法——信息生成对抗网络194

8.3.5小结197

本章总结198

第9章文本多模态学习199

9.1视觉文本多模态数据199

9.1.1数据类型与来源199

9.1.2数据预处理与特征提取200

9.1.3数据集介绍201

9.1.4小结202

9.2多模态融合技术202

9.2.1早期融合与晚期融合202

9.2.2交叉模态交互204

9.2.3注意力机制在多模态融合中的应用204

9.2.4小结209

9.3视觉文本模型架构209

9.3.1双通道模型209

9.3.2联合嵌入空间模型212

9.3.3Transformer在视觉文本任务中的应用216

9.3.4小结217

9.4图像标注与描述生成217

9.4.1任务定义与评估标准217

9.4.2经典模型与方法218

9.4.3最新进展与案例分析223

9.4.4小结224

9.5多模态情感分析225

9.5.1情感分析简介225

9.5.2视觉文本情感分析的挑战226

9.5.3模型与方法226

9.5.4小结231

本章总结231

参考文献232

第1章绪论1

1.1计算机视觉的定义1

1.2计算机视觉的发展历程3

1.3GPU与并行技术——深度学习和计算机视觉发展的加速器6

1.4计算机视觉的应用领域8

1.5全书章节简介15

第2章图像处理基础16

2.1颜色空间16

2.1.1三基色原理16

2.1.2彩色模型16

2.1.3小结18

2.2数字图像基础18

2.2.1采样19

2.2.2量化19

2.2.3图像的性质20

2.2.4小结23

2.3图像预处理23

2.3.1灰度化23

2.3.2图像变换24

2.3.3图像增强25

2.3.4图像分割31

2.3.5小结32

本章总结32

第3章特征提取与描述33

3.1特征提取概述33

3.2角点检测34

3.2.1角点介绍34

3.2.2Harris角点35

3.2.3Fast角点36

3.2.4*FASTER角点检测子36

3.2.5小结38

3.3斑点检测38

3.3.1斑点介绍38

3.3.2LoG斑点检测39

3.3.3*DoG斑点检测39

3.3.4*DoH斑点检测41

3.3.5SIFT斑点检测41

3.3.6SURF斑点检测42

3.3.7小结42

3.4特征描述子43

3.4.1特征描述子介绍43

3.4.2BRIEF描述子43

3.4.3ORB特征提取算法43

3.4.4BRISK特征提取算法44

3.4.5FREAK特征提取算法44

3.4.6小结44

3.5边缘检测45

3.5.1边缘介绍45

3.5.2边缘检测介绍45

3.5.3边缘检测的基本步骤46

3.5.4边缘检测算子的概念46

3.5.5常见的边缘检测算子47

3.5.6梯度算子介绍48

3.5.7梯度的衡量方法48

3.5.8如何用梯度算子实现边缘检测48

3.5.9新兴的边缘检测算法49

3.5.10小结50

3.6一阶微分边缘算子50

3.6.1一阶微分边缘算子的基本思想50

3.6.2Roberts算子50

3.6.3Prewitt算子51

3.6.4Sobel算子52

3.6.5Kirsch算子53

3.6.6小结53

3.7二阶微分边缘算子53

3.7.1二阶微分边缘算子基本思想53

3.7.2拉普拉斯算子54

3.7.3LoG算子55

3.7.4Canny算子55

3.7.5小结56

3.8基于窗口模板的检测方法56

3.8.1SUSAN检测方法介绍56

3.8.2小结57

本章总结58

第4章神经网络59

4.1神经网络基础59

4.1.1感知器59

4.1.2前向传播与反向传播算法62

4.1.3小结67

4.2卷积神经网络67

4.2.1卷积神经网络概述68

4.2.2卷积神经网络结构69

4.2.3卷积神经网络的组成与架构70

4.2.4卷积神经网络的应用74

4.2.5小结74

4.3循环神经网络75

4.3.1循环神经网络概述75

4.3.2循环神经网络与语言模型76

4.3.3循环神经网络结构76

4.3.4循环神经网络的扩展与改进77

4.3.5小结80

本章总结81

第5章Transformer结构83

5.1自注意力机制83

5.1.1自注意力机制的基本原理83

5.1.2多头自注意力84

5.1.3自注意力的计算过程84

5.1.4小结86

5.2Transformer模型架构87

5.2.1编码器解码器结构87

5.2.2位置编码90

5.2.3前馈网络91

5.2.4层归一化92

5.2.5小结93

5.3ViT模型93

5.3.1ViT模型与特点93

5.3.2Transformer在图像数据中的应用95

5.3.3ViT模型的主要结构96

5.3.4小结97

5.4卷积Transformer98

5.4.1卷积Transformer的提出背景98

5.4.2结合卷积神经网络和Transformer的优势99

5.4.3卷积Transformer模型的结构100

5.4.4小结102

5.5Transformer的变种与扩展103

5.5.1Swin Transformer103

5.5.2Dataefficient Image Transformer106

5.5.3CrossAttention Transformer107

5.5.4小结110

5.6Transformer模型的局限性与挑战110

5.6.1计算资源需求110

5.6.2模型泛化能力111

5.6.3数据依赖性问题111

5.6.4小结111

本章总结112

第6章物体分类与识别113

6.1从AlexNet到GoogLeNet113

6.1.1AlexNet114

6.1.2VGGNet116

6.1.3GoogleNet121

6.1.4小结128

6.2深度残差网络ResNet128

6.2.1平原网络的深度限制128

6.2.2ResNet的提出129

6.2.3残差学习突破深度限制130

6.2.4小结131

6.3ViT模型132

6.3.1ViT和Resnet的性能差异133

6.3.2ViT的变体133

6.3.3小结135

6.4迁移学习图像分类135

6.4.1迁移学习简介136

6.4.2迁移学习图像分类策略136

6.4.3小结138

本章总结138

第7章目标检测与语义分割139

7.1从RCNN到FPN139

7.1.1RCNN网络结构139

7.1.2交并比140

7.1.3边框回归算法140

7.1.4非极大值抑制141

7.1.5SPPNet网络结构142

7.1.6Fast RCNN网络结构143

7.1.7Faster RCNN网络结构145

7.1.8FPN网络结构148

7.1.9小结149

7.2端到端方法:YOLO、SSD、RetinaNet149

7.2.1One Stage和Two Stage方法的比较149

7.2.2YOLO网络结构150

7.2.3SSD网络结构153

7.2.4RetinaNet算法156

7.2.5小结157

7.3基于Transformer的目标检测158

7.3.1目标检测引入注意力机制158

7.3.2Relation Net结构158

7.3.3DETR网络结构159

7.3.4小结163

7.4从FCN到Mask RCNN163

7.4.1FCN网络结构164

7.4.2DeepLab网络结构165

7.4.3Mask RCNN网络结构167

7.4.4SegNeXt网络结构169

7.4.5CPSeg框架171

7.4.6小结172

本章总结172

第8章生成对抗网络173

8.1生成对抗网络模型介绍173

8.1.1生成模型与判别模型173

8.1.2对抗网络思想174

8.1.3详细实现过程174

8.1.4小结178

8.2生成对抗网络的简单理论介绍178

8.2.1生成对抗网络的理论灵感178

8.2.2生成对抗网络的理论证明180

8.2.3小结182

8.3生成对抗网络的应用183

8.3.1文本转图像的模型——条件生成对抗网络184

8.3.2照片风格转换的模型——循环生成对抗网络187

8.3.3多域图像转换模型——StarGAN191

8.3.4精确控制生成图片效果的方法——信息生成对抗网络194

8.3.5小结197

本章总结198

第9章文本多模态学习199

9.1视觉文本多模态数据199

9.1.1数据类型与来源199

9.1.2数据预处理与特征提取200

9.1.3数据集介绍201

9.1.4小结202

9.2多模态融合技术202

9.2.1早期融合与晚期融合202

9.2.2交叉模态交互204

9.2.3注意力机制在多模态融合中的应用204

9.2.4小结209

9.3视觉文本模型架构209

9.3.1双通道模型209

9.3.2联合嵌入空间模型212

9.3.3Transformer在视觉文本任务中的应用216

9.3.4小结217

9.4图像标注与描述生成217

9.4.1任务定义与评估标准217

9.4.2经典模型与方法218

9.4.3最新进展与案例分析223

9.4.4小结224

9.5多模态情感分析225

9.5.1情感分析简介225

9.5.2视觉文本情感分析的挑战226

9.5.3模型与方法226

9.5.4小结231

本章总结231

参考文献232

第1章绪论1

1.1计算机视觉的定义1

1.2计算机视觉的发展历程3

1.3GPU与并行技术——深度学习和计算机视觉发展的加速器6

1.4计算机视觉的应用领域8

1.5全书章节简介15

第2章图像处理基础16

2.1颜色空间16

2.1.1三基色原理16

2.1.2彩色模型16

2.1.3小结18

2.2数字图像基础18

2.2.1采样19

2.2.2量化19

2.2.3图像的性质20

2.2.4小结23

2.3图像预处理23

2.3.1灰度化23

2.3.2图像变换24

2.3.3图像增强25

2.3.4图像分割31

2.3.5小结32

本章总结32

第3章特征提取与描述33

3.1特征提取概述33

3.2角点检测34

3.2.1角点介绍34

3.2.2Harris角点35

3.2.3Fast角点36

3.2.4*FASTER角点检测子36

3.2.5小结38

3.3斑点检测38

3.3.1斑点介绍38

3.3.2LoG斑点检测39

3.3.3*DoG斑点检测39

3.3.4*DoH斑点检测41

3.3.5SIFT斑点检测41

3.3.6SURF斑点检测42

3.3.7小结42

3.4特征描述子43

3.4.1特征描述子介绍43

3.4.2BRIEF描述子43

3.4.3ORB特征提取算法43

3.4.4BRISK特征提取算法44

3.4.5FREAK特征提取算法44

3.4.6小结44

3.5边缘检测45

3.5.1边缘介绍45

3.5.2边缘检测介绍45

3.5.3边缘检测的基本步骤46

3.5.4边缘检测算子的概念46

3.5.5常见的边缘检测算子47

3.5.6梯度算子介绍48

3.5.7梯度的衡量方法48

3.5.8如何用梯度算子实现边缘检测48

3.5.9新兴的边缘检测算法49

3.5.10小结50

3.6一阶微分边缘算子50

3.6.1一阶微分边缘算子的基本思想50

3.6.2Roberts算子50

3.6.3Prewitt算子51

3.6.4Sobel算子52

3.6.5Kirsch算子53

3.6.6小结53

3.7二阶微分边缘算子53

3.7.1二阶微分边缘算子基本思想53

3.7.2拉普拉斯算子54

3.7.3LoG算子55

3.7.4Canny算子55

3.7.5小结56

3.8基于窗口模板的检测方法56

3.8.1SUSAN检测方法介绍56

3.8.2小结57

本章总结58

第4章神经网络59

4.1神经网络基础59

4.1.1感知器59

4.1.2前向传播与反向传播算法62

4.1.3小结67

4.2卷积神经网络67

4.2.1卷积神经网络概述68

4.2.2卷积神经网络结构69

4.2.3卷积神经网络的组成与架构70

4.2.4卷积神经网络的应用74

4.2.5小结74

4.3循环神经网络75

4.3.1循环神经网络概述75

4.3.2循环神经网络与语言模型76

4.3.3循环神经网络结构76

4.3.4循环神经网络的扩展与改进77

4.3.5小结80

本章总结81

第5章Transformer结构83

5.1自注意力机制83

5.1.1自注意力机制的基本原理83

5.1.2多头自注意力84

5.1.3自注意力的计算过程84

5.1.4小结86

5.2Transformer模型架构87

5.2.1编码器解码器结构87

5.2.2位置编码90

5.2.3前馈网络91

5.2.4层归一化92

5.2.5小结93

5.3ViT模型93

5.3.1ViT模型与特点93

5.3.2Transformer在图像数据中的应用95

5.3.3ViT模型的主要结构96

5.3.4小结97

5.4卷积Transformer98

5.4.1卷积Transformer的提出背景98

5.4.2结合卷积神经网络和Transformer的优势99

5.4.3卷积Transformer模型的结构100

5.4.4小结102

5.5Transformer的变种与扩展103

5.5.1Swin Transformer103

5.5.2Dataefficient Image Transformer106

5.5.3CrossAttention Transformer107

5.5.4小结110

5.6Transformer模型的局限性与挑战110

5.6.1计算资源需求110

5.6.2模型泛化能力111

5.6.3数据依赖性问题111

5.6.4小结111

本章总结112

第6章物体分类与识别113

6.1从AlexNet到GoogLeNet113

6.1.1AlexNet114

6.1.2VGGNet116

6.1.3GoogleNet121

6.1.4小结128

6.2深度残差网络ResNet128

6.2.1平原网络的深度限制128

6.2.2ResNet的提出129

6.2.3残差学习突破深度限制130

6.2.4小结131

6.3ViT模型132

6.3.1ViT和Resnet的性能差异133

6.3.2ViT的变体133

6.3.3小结135

6.4迁移学习图像分类135

6.4.1迁移学习简介136

6.4.2迁移学习图像分类策略136

6.4.3小结138

本章总结138

第7章目标检测与语义分割139

7.1从RCNN到FPN139

7.1.1RCNN网络结构139

7.1.2交并比140

7.1.3边框回归算法140

7.1.4非极大值抑制141

7.1.5SPPNet网络结构142

7.1.6Fast RCNN网络结构143

7.1.7Faster RCNN网络结构145

7.1.8FPN网络结构148

7.1.9小结149

7.2端到端方法:YOLO、SSD、RetinaNet149

7.2.1One Stage和Two Stage方法的比较149

7.2.2YOLO网络结构150

7.2.3SSD网络结构153

7.2.4RetinaNet算法156

7.2.5小结157

7.3基于Transformer的目标检测158

7.3.1目标检测引入注意力机制158

7.3.2Relation Net结构158

7.3.3DETR网络结构159

7.3.4小结163

7.4从FCN到Mask RCNN163

7.4.1FCN网络结构164

7.4.2DeepLab网络结构165

7.4.3Mask RCNN网络结构167

7.4.4SegNeXt网络结构169

7.4.5CPSeg框架171

7.4.6小结172

本章总结172

第8章生成对抗网络173

8.1生成对抗网络模型介绍173

8.1.1生成模型与判别模型173

8.1.2对抗网络思想174

8.1.3详细实现过程174

8.1.4小结178

8.2生成对抗网络的简单理论介绍178

8.2.1生成对抗网络的理论灵感178

8.2.2生成对抗网络的理论证明180

8.2.3小结182

8.3生成对抗网络的应用183

8.3.1文本转图像的模型——条件生成对抗网络184

8.3.2照片风格转换的模型——循环生成对抗网络187

8.3.3多域图像转换模型——StarGAN191

8.3.4精确控制生成图片效果的方法——信息生成对抗网络194

8.3.5小结197

本章总结198

第9章文本多模态学习199

9.1视觉文本多模态数据199

9.1.1数据类型与来源199

9.1.2数据预处理与特征提取200

9.1.3数据集介绍201

9.1.4小结202

9.2多模态融合技术202

9.2.1早期融合与晚期融合202

9.2.2交叉模态交互204

9.2.3注意力机制在多模态融合中的应用204

9.2.4小结209

9.3视觉文本模型架构209

9.3.1双通道模型209

9.3.2联合嵌入空间模型212

9.3.3Transformer在视觉文本任务中的应用216

9.3.4小结217

9.4图像标注与描述生成217

9.4.1任务定义与评估标准217

9.4.2经典模型与方法218

9.4.3最新进展与案例分析223

9.4.4小结224

9.5多模态情感分析225

9.5.1情感分析简介225

9.5.2视觉文本情感分析的挑战226

9.5.3模型与方法226

9.5.4小结231

本章总结231

参考文献232