北京邮电大学出版社

人工智能技术的飞速发展以及其在医疗、金融、交通、国防等关键领域的深度应用，正引发全球对人工智能安全风险的广泛关注。为应对这一挑战，本教材立足技术前沿与产业需求，系统构建人工智能安全的知识体系，旨在为高校学生、研究人员及从业者提供兼具理论深度与实践价值的综合性学习资料。
本教材从算法安全、数据隐私、模型鲁棒性、政策法规等维度展开，涵盖投毒攻击、对抗攻击、萃取攻击、逆向攻击、提示注入攻击等新型安全威胁以及相应的安全防御手段。同时，本教材理论与实践并重，从经典案例切入介绍安全风险以及防御技术。
本教材可作为高等院校人工智能、网络空间安全等相关专业本科生及研究生的教材，也适合人工智能研发工程师、政策制定者及企业技术管理者参考，可为构建安全、可信、可控的人工智能生态系统提供理论支撑与方法论工具。通过系统化的知识架构与丰富的案例，本教材致力于培养兼具技术能力与责任意识的人工智能安全人才，以助力应对智能化时代的全球性安全挑战。

目录介绍

第1章人工智能安全法规与标准1

1.1人工智能安全法规1

1.1.1美国人工智能安全法规1

1.1.2其他国家和组织的人工智能安全规范6

1.1.3中国人工智能安全法规7

1.2人工智能安全标准10

1.2.1人工智能安全国际标准10

1.2.2其他国家人工智能安全标准12

1.2.3中国人工智能安全标准13

本章小结16

习题16

第2章数据投毒与检测17

2.1数据投毒概述17

2.1.1数据投毒攻击17

2.1.2数据投毒防御19

2.2数据投毒攻击20

2.2.1标签翻转攻击20

2.2.2添加噪声攻击20

2.2.3逆梯度攻击21

2.2.4后门攻击21

2.2.5动态攻击24

2.2.6干净标签后门26

2.3数据投毒检测27

2.3.1神经清洗28

2.3.2激活聚类检测29

2.3.3强恶意干扰检测30

2.4数据投毒实践31

本章小结35

习题35

第3章深度伪造与检测36

3.1深度伪造生成方法37

3.1.1视觉深度伪造生成技术37

3.1.2听觉深度伪造生成技术40

3.1.3深度伪造小结41

3.2深度伪造检测42

3.2.1视觉深度伪造检测42

3.2.2听觉深度伪造检测47

3.2.3深度伪造检测小结49

3.3深度伪造检测实践50

本章小结57

习题57

第4章模型逆向与防御58

4.1模型逆向概述58

4.2模型逆向攻击59

4.2.1成员推理攻击59

4.2.2属性推理攻击63

4.2.3数据重构攻击64

4.3模型逆向防御66

4.4成员推理攻击与防御实践68

本章小结75

习题75

第5章模型萃取攻击与防御76

5.1模型萃取概述76

5.1.1模型萃取攻击与防御76

5.1.2模型萃取攻击的场景78

5.1.3模型萃取攻击的目标与影响79

5.2模型萃取攻击82

5.2.1方程求解方法82

5.2.2重训练方法83

5.3模型萃取防御91

5.3.1行为检测91

5.3.2扰动预测92

5.3.3模型水印92

5.4模型萃取攻击与防御实践94

本章小结103

习题103

第6章对抗样本攻击与防御104

6.1对抗样本概述104

6.2对抗样本攻击106

6.2.1图像对抗样本攻击106

6.2.2视频对抗样本攻击109

6.2.3文本对抗样本攻击112

6.2.4音频对抗攻击114

6.3对抗样本防御116

6.3.1防御蒸馏116

6.3.2对抗性训练116

6.3.3对抗样本检测117

6.3.4输入重建 117

6.4对抗样本攻击与防御实践118

6.4.1对抗样本攻击实践118

6.4.2对抗样本防御实践124

本章小结129

习题130

第7章数据隐私与联邦学习131

7.1数据隐私风险131

7.2联邦学习研究132

7.2.1联邦学习背景132

7.2.2联邦学习的实现流程132

7.2.3联邦学习的分类133

7.2.4联邦学习中的隐私挑战134

7.3联邦学习隐私保护算法136

7.4联邦场景投毒防御实践142

本章小结147

习题148

第8章模型歧视与防御149

8.1模型歧视概述149

8.1.1模型歧视149

8.1.2模型歧视案例分析150

8.1.3模型歧视的来源151

8.1.4模型歧视的评价指标152

8.1.5模型歧视的缓解策略154

8.1.6模型歧视的研究趋势155

8.1.7结论156

8.2模型歧视防御156

8.2.1预处理算法156

8.2.2训练时处理算法158

8.2.3后处理算法160

8.2.4结论162

8.3模型歧视防御实践162

本章小结170

习题170

第9章大模型攻击与防御171

9.1大模型攻击与防御概述171

9.1.1大模型攻击概述171

9.1.2大模型防御概述172

9.2大模型攻击173

9.2.1人工设计的提示注入攻击173

9.2.2长尾编码的提示注入攻击175

9.2.3提示优化的提示注入攻击176

9.3大模型防御179

9.3.1对抗图像检测179

9.3.2注入攻击检测181

9.3.3内容合规性防护185

9.4大模型攻击与防御实践185

9.4.1提示注入攻击实践185

9.4.2提示注入防御实践192

本章小结195

习题195

参考文献196