目录介绍
第1篇方法篇
第1章R语言概述3
1.1大数据时代的数据分析流程3
1.1.1数据获取5
1.1.2数据存储5
1.1.3数据预处理6
1.1.4数据建模6
1.1.5数据可视化7
1.1.6数据产品发布7
1.2R语言特点7
1.3R及RStudio的安装8
1.4常用R包的安装、使用与卸载9
1.4.1R语言常用包9
1.4.2R包的安装10
1.4.3R包的卸载10
1.4.4R包的集群管理10
1.5RStudio的常用功能11
1.6本章小结12
第2章R语言基本对象13
2.1R语言常用数据类型13
2.2数据对象13
2.2.1向量13
2.2.2矩阵14
2.2.3数组17
2.2.4数据框17
2.2.5列表20
2.3数据类型判别及转换21
2.4本章小结22
第3章数据操作与控制23
3.1不同类型数据的输入与输出23
3.1.1数据的输入23
3.1.2数据的输出26
3.2操作符与函数27
3.2.1操作符27
3.2.2函数28
3.3循环控制与条件控制30
3.4数据集连接31
3.5本章小结33
第4章数据整形及处理34
4.1整洁数据和数据整形34
4.1.1整洁数据34
4.1.2数据整形的典型方式35
4.1.3数据操纵38
4.2tidyr和dplyr包简介39
4.2.1tidyr包39
4.2.2dplyr包39
4.3基于tidyr包的数据整形41
4.3.1使用seperate()和unite()函数拆分与合并数据41
4.3.2使用gather()和spread()函数实现长宽数据转换42
4.4基于dplyr包的数据描述性统计43
4.4.1dplyr包的基本操作43
4.4.2使用filter()函数筛选行数据45
4.4.3使用arrange()函数对观测值排序46
4.4.4使用select()函数选择列数据47
4.4.5使用mutate()函数新增变量字段49
4.4.6使用group_by()函数对数据分组50
4.4.7使用summarise()函数汇总数据51
4.5数据整形及处理示例52
4.6本章小结59
第5章数据建模及分析60
5.1多元线性回归分析60
5.1.1多元线性回归模型的一般形式60
5.1.2多元线性回归模型的基本假设61
5.1.3多元线性回归分析涉及的主要函数61
5.1.4多元线性回归模型的应用62
5.2因变量为二分类变量的回归模型64
5.2.1logistic回归模型65
5.2.2logistic回归模型的应用65
5.2.3probit回归模型68
5.2.4probit回归模型的应用68
5.3多类别回归69
5.3.1多类别回归模型69
5.3.2多类别回归模型的应用70
5.4多类别定序回归72
5.4.1多类别定序回归模型72
5.4.2多类别定序回归模型的应用73
5.5泊松回归75
5.5.1泊松回归模型75
5.5.2泊松回归模型的应用75
5.6负二项回归77
5.6.1负二项回归模型77
5.6.2负二项回归模型的应用77
5.7本章小结79
第6章文本分析概要80
6.1文本分析简介80
6.2文本分析的基本流程81
6.3文本数据的预处理82
6.3.1英文文本数据的预处理82
6.3.2中文文本数据的预处理84
6.4文本特征提取84
6.4.1基本特征提取84
6.4.2基于TFIDF的特征提取84
6.4.3词嵌入85
6.5文本分析的基本任务和方法85
6.5.1词频分析85
6.5.2共词分析85
6.5.3主题分析86
6.5.4情感分析86
6.5.5相似性分析86
6.5.6文本可视化87
6.6文本数据分析工具87
6.7本章小结89
第7章字符处理及词语分析90
7.1文本数据导入90
7.1.1readtext包简介90
7.1.2多种格式文本文件的导入91
7.2字符串的处理工具——stringr包和正则表达式96
7.2.1使用stringr包处理字符串96
7.2.2使用正则表达式匹配规则字符串98
7.2.3联合stringr包与正则表达式处理复杂字符串101
7.3中文分词及词频统计104
7.3.1基于jiebaR包的中文分词105
7.3.2基于quanteda包的词频统计108
7.4文本基本特征提取111
7.5文本的词频分析112
7.5.1词频分析与可视化112
7.5.2共现词语的词频分析116
7.6本章小结117
第8章文本的语义和情感分析119
8.1文本的向量化与不同表征119
8.1.1使用gensim包实现文本分布式表征120
8.1.2使用text2vec包实现文本分布式表征121
8.2基于text2vec包的文本词向量化与应用121
8.2.1基于text2vec包的文本情感分析121
8.2.2GloVe词向量化124
8.2.3LDA主题模型126
8.2.4文本相似性分析126
8.3主题模型分析127
8.3.1基于quanteda和topicmodels包的主题模型分析127
8.3.2基于LDAvis包的主题模型可视化130
8.4文本情感分析133
8.4.1英文文本的情感分析133
8.4.2中文文本的情感分析136
8.5本章小结139
第9章数据可视化设计140
9.1数据可视化的内涵140
9.2数据可视化图表的类型及其选择方法141
9.2.1数据可视化图表的类型141
9.2.2数据可视化图表的选择方法144
9.3数据可视化的样式调整146
9.4本章小结154
第10章静态图表工具与设计155
10.1使用ggplot2包绘制静态图表155
10.1.1ggplot2包简介155
10.1.2ggplot2包绘制静态图表示例157
10.1.3基于ggplot2包的典型案例操作166
10.2使用bbplot包绘制商业图表171
10.3本章小结172
第11章动态交互图表工具与设计173
11.1动态交互图表简介173
11.2recharts包简介以及基于recharts包绘制动态交互图表177
11.2.1recharts包简介177
11.2.2基于recharts包绘制动态交互图表177
11.3本章小结184
第12章Rmarkdown与自动化报告185
12.1可重复研究与文学化编程概述185
12.2R语言自动化报告输出常用包介绍187
12.2.1Rmarkdown和Knitr包的主要功能188
12.2.2Markdown语法与Rmarkdown图表设置191
12.2.3Rmarkdown文件中的代码段编写199
12.2.4Rmarkdown文件中的YAML文件头编写202
12.3本章小结204
第13章Bookdown包与长文档编排205
13.1Bookdown包的特点及其与Rmarkdown包的不同之处205
13.2Bookdown包使用前的配置206
13.3Bookdown包的编排技巧206
13.4Bookdown包的YAML文件头参数设置208
13.5Bookdown包的内容交叉引用208
13.6Bookdown包编排长文档的流程210
13.7本章小结211
第14章dashboard与数据看板制作212
14.1数据看板简介及分类212
14.2使用shiny创建数据看板215
14.2.1shiny简介215
14.2.2shiny网页端文件的创建215
14.2.3使用shinydashboard构建数据看板217
14.3使用flexdashboard创建数据看板226
14.4本章小结230
第2篇应用篇
第15章数值型数据分析案例233
15.1案例背景233
15.1.1研究背景与问题233
15.1.2数据来源与采集234
15.2数据预处理235
15.2.1数据字段的缺失值处理236
15.2.2数据字段的数据类型转换238
15.2.3数据集的划分240
15.3数据的描述性统计与建模分析240
15.3.1数据的U检验和T检验241
15.3.2数据的相关性分析242
15.3.3数据的逻辑回归分析243
15.3.4数据的生存回归分析244
15.3.5数据分析结果总结245
15.4本章小结246
第16章文本型数据分析案例247
16.1案例一247
16.1.1案例一数据集介绍248
16.1.2案例一数据读取248
16.1.3案例一数据预处理249
16.1.4案例一数据分析250
16.2案例二260
16.2.1案例二数据集介绍260
16.2.2案例二数据读取260
16.2.3案例二构建语料库260
16.2.4案例二数据分析260
16.3本章小结265
第17章数据产品开发与部署案例266
17.1云服务器环境配置基础266
17.2Ubuntu操作系统简介268
17.3RStudio Server简介270
17.3.1RStudio Server安装270
17.3.2RStudio Server的配置273
17.4数据分析成果部署实例274
17.4.1shinyapps.io部署274
17.4.2shiny Server/RStudio Connect部署275
17.4.3flexdashboard在云端的部署277
17.5本章小结278
参考文献279