内容简介
本书以人体视觉理解为核心,系统地探讨了多数据源多任务学习在该领域的应用与挑战,提出了一种创新方法——混合监督学习(MixSupervised Learning, MSL)。混合监督学习通过共享主干网络,端到端地实现人体检测、人体实例分割、人体解析、人体姿态估计、密集姿态估计和实例级人体部位检测等6项任务的高效建模与预测。针对当前方法存在的精度与效率不足、任务间梯度竞争、多数据源适应性差等问题,本书提出了梯度均衡策略、实例级迁移学习、解析区域卷积网络和注意力激发感受野模块等创新技术。实验结果表明,混合监督学习在精度和效率上显著领先现有方法。
本书适合从事计算机视觉、多任务学习及相关领域研究的学者和工程师参考。
目录介绍
第1章绪论
1.1背景与意义
1.2关键技术难题
1.3主要内容与创新点
1.4本书结构安排
第2章面向人体视觉理解与多任务学习的研究现状
2.1引言
2.2人体视觉理解相关研究
2.2.1人体检测与人体实例分割
2.2.2人体部位检测
2.2.3人体解析
2.2.4人体姿态估计与密集姿态估计
2.3多任务学习相关研究
2.3.1多任务学习基本内容
2.3.2多任务学习方法
2.3.3多数据源多任务学习思想
2.3.4多任务学习的评价基准
第3章混合监督学习的基本模型
3.1问题描述
3.2混合监督学习的基本模型设计
3.2.1模型的多任务数据源
3.2.2模型的结构设计
3.3实验结果与性能分析
3.3.1相关实验设置
3.3.2基础单/多任务实验对比
3.3.3消融实验
3.3.4模型性能分析
3.4小结
第4章用于混合监督学习的解析区域卷积网络
4.1问题描述
4.2具备全局语义信息的网络设计流程
4.2.1几何和上下文编码模块
4.2.2全局语义增强特征金字塔网络
4.2.3解析重评分网络
4.2.4高分辨率特征及大容量网络分支
4.3实验结果与性能分析
4.3.1相关实验设置
4.3.2评价指标
4.3.3消融实验
4.3.4与先进方法的比较
4.4混合监督习模型的消融实验
4.4.1单任务实验
4.4.2添加Parsing RCNN网络的模型实验
4.5小结
第5章用于混合监督学习的空间注意力模块
5.1问题描述
5.2注意力激发感受野模块的设计流程
5.2.1Air模块的设计思路
5.2.2Air模块的实现流程
5.3实验结果与性能分析
5.3.1ImageNet数据集的实验结果
5.3.2CIFAR10和CIFAR100数据集的实验结果
5.3.3Air模块的有效性实验分析
5.4混合监督学习模型的消融实验
5.4.1单任务实验
5.4.2添加AirNet网络的混合监督学习实验
5.5小结
第6章混合监督学习的可扩展性探究
6.1问题描述
6.2实例级人体部位数据集
6.2.1数据集概述
6.2.2数据统计
6.2.3评价指标
6.3实例级人体部位检测模型设计
6.3.1模型设计思路
6.3.2网络结构设计
6.4实验结果与性能分析
6.4.1主流检测器基准
6.4.2数据集泛化能力实验
6.4.3模型实验及性能分析
6.5混合监督学习模型的消融实验
6.5.1多数据源统计
6.5.2任务可扩展性分析
6.5.3模型实验及性能分析
6.6小结
第7章总结与展望
7.1本书总结
7.2未来工作
参考文献