目录
第1 章 基本概念 ............................................................. 1
1.1 数据类型 ......................................................................................... 1
1.2 总体和样本 ........................................................................ 2
1.3 参数和统计量 ................................................................................... 2
1.4 分布式计算 ...................................................................... 3
第2 章 单变量基本统计量 .......................................................... 5
2.1 数量统计量 ........................................................................... 5
2.1.1 样本方差为何除以n-1 ......................................................................................... 7
2.1.2 数据分布与标准差的关系 ................................................................................. 10
2.1.3 新的计算公式 ..................................................................................................... 11
2.1.4 代码实现 ............................................................................................................. 16
2.2 频数统计量 ..................................................................... 18
2.3 次序统计量 ......................................................................... 23
2.3.1 通过排序方法计算次序统计量 ......................................................................... 25
2.3.2 不需排序就可计算的次序统计量 ..................................................................... 29
2.3.3 基于频数信息计算次序统计量 ......................................................................... 31
2.3.4 中位数、众数和均值的关系 ............................................................................. 34
第3 章 单变量数据的分布 ................................................ 36
3.1 直方图 ........................................................................... 36
3.1.1 直方图的计算 ..................................................................................................... 39
3.1.2 算法实现 ............................................................................................................. 42
3.1.3 已知数据频数的情况下求直方图 ..................................................................... 49
3.1.4 日期类型直方图 ................................................................................................. 49
3.2 经验分布 ............................................................................... 57
3.3 近似分位数和近似百分位数 .................................................................. 61
3.4 PP、QQ 概率图 ........................................................................ 65
3.5 单变量的基本统计信息 ............................................................ 69
第4 章 多变量的数据特征 ............................................................ 77
4.1 协方差 ................................................................................................ 77
4.2 相关系数 .................................................................................. 79
4.3 协方差和相关系数的计算实现 .................................................................... 80
4.4 数据表的基本统计结果 .................................................................... 84
第5 章 数据探索 ............................................................... 88
5.1 扩展直方图 .................................................................................... 88
5.1.1 计算方法 ............................................................................................................. 90
5.1.2 代码实现 ............................................................................................................. 91
5.2 交叉表 ...................................................................................... 110
第6 章 极限定理 .......................................................................................... 116
6.1 大数定理 ...................................................................................... 116
6.2 中心极限定理 .............................................................................. 117
第7 章 常用的分布函数介绍 ........................................................ 123
7.1 基本定义 ............................................................................... 123
7.2 标准正态分布(Z 分布或U 分布) ............................................................................ 124
7.3 卡方分布( 分布) ...................................................................... 129
7.4 学生T 分布 .................................................................................. 133
7.5 F 分布 .............................................................................. 139
第8 章 常用分布函数计算 .................................................. 145
8.1 函数定义 ................................................................................ 145
8.2 函数性质及相互间的关系 ....................................................................... 147
8.3 分布函数关系图 ............................................................................. 164
8.4 分布函数的计算 .............................................................................. 166
8.4.1 计算 .................................... 166
8.4.2 计算 .............................. 170
8.4.3 计算 .............................................. 173
8.4.4 计算 和 ............................................................................................. 176
8.4.5 其他函数的计算 ............................................................................................... 178
8.5 生成常用分布的随机数 .......................................................................... 180
第9 章 参数估计 ........................................................................... 187
9.1 点估计与区间估计 .......................................................................... 187
9.2 单个总体的参数估计 .................................................................................. 190
9.2.1 不同情况的参数估计表达式 ........................................................................... 190
9.2.2 单个总体参数估计的实现 ............................................................................... 191
9.3 两个总体的参数估计 .................................................................. 196
9.3.1 不同情况的参数估计表达式 ........................................................................... 196
9.3.2 两个总体参数估计的实现 ............................................................................... 199
第10 章 假设检验 ..................................................................... 207
10.1 基本概念 ............................................................................ 207
10.2 参数检验 ................................................................................... 209
10.3 单个总体参数的检验 ..................................................................... 212
10.3.1 各种情况下的检验方法 ................................................................................. 212
10.3.2 单个总体参数检验方法的实现 ..................................................................... 214
10.3.3 不同检验方法的选择 ..................................................................................... 223
10.4 两个总体参数的检验 ......................................................................... 227
10.4.1 各种情况下的检验方法 ................................................................................. 227
10.4.2 两个总体参数检验方法的实现 ..................................................................... 231
10.4.3 不同检验方法的选择 ..................................................................................... 237
第11 章 非参数检验 ............................................................................. 244
11.1 Pearson拟合优度 检验............................................................ 245
11.2 两个变量的列联表检验 .......................................................... 248
11.3 K-S 检验 ......................................................................................... 250
11.3.1 单样本K-S 检验 ............................................................................................. 251
11.3.2 双样本K-S 检验 ............................................................................................. 256
11.4 符号检验 ............................................................................... 258
11.5 秩统计量和秩检验方法 .................................................................... 260
11.5.1 Wilcoxon 秩和检验 ........................................................................................ 260
11.5.2 Wilcoxon 符号秩和检验 ................................................................................ 266
11.5.3 Kruskal-Wallis 检验 ........................................................................................ 268
11.5.4 Friedman 检验 ................................................................................................. 273
第12 章 方差分析 .................................................................... 277
12.1 单因素方差分析 ............................................................................... 278
12.1.1 计算流程 ......................................................................................................... 278
12.1.2 代码实现 ......................................................................................................... 280
12.1.3 方差分析与T 检验的关系 ............................................................................. 283
12.1.4 方差分析中的多重比较方法 ......................................................................... 285
12.2 双因素方差分析 ...................................................................... 289
12.2.1 无交互作用的双因素方差分析 ..................................................................... 289
12.2.2 有交互作用的双因素方差分析 ..................................................................... 295
第13 章 多元线性回归 ................................................................................. 302
13.1 数学模型 ................................................................................. 302
13.2 显著性检验 ................................................................................ 308
13.3 计算步骤 ............................................................... 309
13.4 代码实现 .......................................................................... 313
13.5 多重共线性 ........................................................................... 320
13.5.1 度量指标 ............................................................................ 320
13.5.2 代码实现 ......................................................................................................... 323
13.5.3 应用示例 ......................................................................................................... 328
13.6 逐步回归 ........................................................................................ 330
第14 章 主成分分析 ........................................................................................ 340
14.1 计算步骤 ............................................................................................ 342
14.2 代码实现 ...................................................................................... 345
14.3 应用举例 ...................................................................................... 350
第15 章 判别分析 ...................................................................... 359
15.1 距离判别 ....................................................................... 359
15.1.1 Mahalanobis 距离 ........................................................................................... 360
15.1.2 模型训练和预测 ............................................................................................. 361
15.2 Fisher 判别 .................................................................................... 364
15.3 Bayes 判别 ................................................................................ 369
15.3.1 朴素Bayes 判别 ............................................................................................. 369
15.3.2 模型训练和预测 ............................................................................................. 370
15.4 判别算法的综合模型 ................................................................ 377
15.5 应用举例 ................................................................................... 378
第16 章 模型评估曲线 ....................................................................... 383
16.1 相关概念 ......................................................................... 383
16.2 定义 ............................................................................................ 384
16.2.1 ROC 曲线 ........................................................................................................ 384
16.2.2 上升图和反馈率—精确率线 ......................................................................... 386
16.3 计算实现 ..................................................................................... 386
参考文献 .................................................................................... 391
【展开】
【收起】
内容简介
基于《重构大数据统计》内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,并取得显著效果。
大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。
人们都希望花更少的钱,并且希望计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。
《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。
《重构大数据统计》提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。
《重构大数据统计》适合对大数据分析感兴趣的读者阅读:前面章节比较容易理解,包含了常用统计量的计算;后面的各章节需要读者具备一些基础知识。建议读者根据自己的兴趣和工作需要,选择相应的内容参考。
【展开】
【收起】
下载说明
1、追日是作者栎年创作的原创作品,下载链接均为网友上传的的网盘链接!
2、相识电子书提供优质免费的txt、pdf等下载链接,所有电子书均为完整版!
下载链接