内容简介
图像句子标注(Image Sentence Annotation)也称为图像内容生成(Image Captioning),它是自然语言处理(Natural Language Processing,简称NLP)与机器视觉(Computer Vision,简称CV)两个研究方向相互交叉、渗透、融合出的新兴研究领域。一方面:它需要借助机器视觉理论或技术(如目标检测、目标识别、属性分类等),准确识别图像中的关键视觉内容(场景、目标、属性及目标之间的交互关系),为生成句子奠定重要的语义内容基础;另一方面,它需要采用分词、句法分析、自然语言生成等自然语言处理相关理论或技术,将描述图像内容的单词或短语组合为连贯、流畅的句子,从而准确刻画图像内容。由于跨越CV和NLP两个研究领域,故图像句子标注研究具有极大的挑战。虽然,挑战较大,但图像句子标注同样具有重大的实用价值。如面向盲人的视觉感知辅助系统,在实时分析场景内容的基础上,生成描述场景的句子或短语,并以语音的形式通知盲人,更安全地引导盲人行走;如面向医学领域的肿瘤图像报告生成系统,在分析肿瘤病灶的基础上,自动生成连贯、流畅的诊断报告文本,更好地辅助病理医生的临床诊断工作;如面向恶劣环境的机器人,采集恶劣环境的图像并做句子标注与解释,辅助工程技术人员对环境的正确认知。其它应用领域还包括:基于语义的图像检索系统、面向无人驾驶的实时场景分析系统。综上,图像句子标注具有极高的研究意义。
目前,国内从事图像内容生成研究的科研单位较少(主要有武汉大学、哈尔滨工业大学、华东交通大学等),也未系统地对图像句子标注所需的基础理论、实验方案、关键技术等进行归纳与总结。因此,为了紧跟国际上图像句子标注这一热点研究问题,本书致力于系统地叙述图像句子标注的基本理论、实现方法、关键技术难点等,期望,通过本书能抛砖引玉,给我国图像句子标注的研究注入一股新鲜力量,为相关研究提供重要的参考。
本书全面系统地讲述了图像句子标注的基本概念、核心原理和典型方法等。全书正文共6章。第1章是引言,简单介绍研究背景、选题依据、本书组织结构等。第2章是相关研究工作综述,逐个分析图像标注、图像句子标注等国内外最新研究进展。第3章是基于多核学习的图像句子标注,提出基于多核学习模型更好地进行图像特征学习及融合。第4章是基于KDES特征与N-gram模型的图像句子标注,提出基于KDES模型的特征学习,并采用N-gram模型生成句子。第5章是基于关键词提纯与句法树的图像句子标注,在KDES特征学习基础上,继续进入关键词提纯思路,并采用词向量来刻画单词。第6章是总结与展望,总结全文并对未来工作进行展望。
本书供有一定实际经验的工程技术人员和需要开发图像句子标注系统的用户阅读参考,也可供从事机器视觉、自然语言处理等领域的研究人员参考。