重构大数据统计

杨旭

文学

大数据 统计 数据分析

2014-8-1

电子工业出版社

目录
第1 章 基本概念 ............................................................. 1 1.1 数据类型 ......................................................................................... 1 1.2 总体和样本 ........................................................................ 2 1.3 参数和统计量 ................................................................................... 2 1.4 分布式计算 ...................................................................... 3 第2 章 单变量基本统计量 .......................................................... 5 2.1 数量统计量 ........................................................................... 5 2.1.1 样本方差为何除以n-1 ......................................................................................... 7 2.1.2 数据分布与标准差的关系 ................................................................................. 10 2.1.3 新的计算公式 ..................................................................................................... 11 2.1.4 代码实现 ............................................................................................................. 16 2.2 频数统计量 ..................................................................... 18 2.3 次序统计量 ......................................................................... 23 2.3.1 通过排序方法计算次序统计量 ......................................................................... 25 2.3.2 不需排序就可计算的次序统计量 ..................................................................... 29 2.3.3 基于频数信息计算次序统计量 ......................................................................... 31 2.3.4 中位数、众数和均值的关系 ............................................................................. 34 第3 章 单变量数据的分布 ................................................ 36 3.1 直方图 ........................................................................... 36 3.1.1 直方图的计算 ..................................................................................................... 39 3.1.2 算法实现 ............................................................................................................. 42 3.1.3 已知数据频数的情况下求直方图 ..................................................................... 49 3.1.4 日期类型直方图 ................................................................................................. 49 3.2 经验分布 ............................................................................... 57 3.3 近似分位数和近似百分位数 .................................................................. 61 3.4 PP、QQ 概率图 ........................................................................ 65 3.5 单变量的基本统计信息 ............................................................ 69 第4 章 多变量的数据特征 ............................................................ 77 4.1 协方差 ................................................................................................ 77 4.2 相关系数 .................................................................................. 79 4.3 协方差和相关系数的计算实现 .................................................................... 80 4.4 数据表的基本统计结果 .................................................................... 84 第5 章 数据探索 ............................................................... 88 5.1 扩展直方图 .................................................................................... 88 5.1.1 计算方法 ............................................................................................................. 90 5.1.2 代码实现 ............................................................................................................. 91 5.2 交叉表 ...................................................................................... 110 第6 章 极限定理 .......................................................................................... 116 6.1 大数定理 ...................................................................................... 116 6.2 中心极限定理 .............................................................................. 117 第7 章 常用的分布函数介绍 ........................................................ 123 7.1 基本定义 ............................................................................... 123 7.2 标准正态分布(Z 分布或U 分布) ............................................................................ 124 7.3 卡方分布( 分布) ...................................................................... 129 7.4 学生T 分布 .................................................................................. 133 7.5 F 分布 .............................................................................. 139 第8 章 常用分布函数计算 .................................................. 145 8.1 函数定义 ................................................................................ 145 8.2 函数性质及相互间的关系 ....................................................................... 147 8.3 分布函数关系图 ............................................................................. 164 8.4 分布函数的计算 .............................................................................. 166 8.4.1 计算 .................................... 166 8.4.2 计算 .............................. 170 8.4.3 计算 .............................................. 173 8.4.4 计算 和 ............................................................................................. 176 8.4.5 其他函数的计算 ............................................................................................... 178 8.5 生成常用分布的随机数 .......................................................................... 180 第9 章 参数估计 ........................................................................... 187 9.1 点估计与区间估计 .......................................................................... 187 9.2 单个总体的参数估计 .................................................................................. 190 9.2.1 不同情况的参数估计表达式 ........................................................................... 190 9.2.2 单个总体参数估计的实现 ............................................................................... 191 9.3 两个总体的参数估计 .................................................................. 196 9.3.1 不同情况的参数估计表达式 ........................................................................... 196 9.3.2 两个总体参数估计的实现 ............................................................................... 199 第10 章 假设检验 ..................................................................... 207 10.1 基本概念 ............................................................................ 207 10.2 参数检验 ................................................................................... 209 10.3 单个总体参数的检验 ..................................................................... 212 10.3.1 各种情况下的检验方法 ................................................................................. 212 10.3.2 单个总体参数检验方法的实现 ..................................................................... 214 10.3.3 不同检验方法的选择 ..................................................................................... 223 10.4 两个总体参数的检验 ......................................................................... 227 10.4.1 各种情况下的检验方法 ................................................................................. 227 10.4.2 两个总体参数检验方法的实现 ..................................................................... 231 10.4.3 不同检验方法的选择 ..................................................................................... 237 第11 章 非参数检验 ............................................................................. 244 11.1 Pearson拟合优度 检验............................................................ 245 11.2 两个变量的列联表检验 .......................................................... 248 11.3 K-S 检验 ......................................................................................... 250 11.3.1 单样本K-S 检验 ............................................................................................. 251 11.3.2 双样本K-S 检验 ............................................................................................. 256 11.4 符号检验 ............................................................................... 258 11.5 秩统计量和秩检验方法 .................................................................... 260 11.5.1 Wilcoxon 秩和检验 ........................................................................................ 260 11.5.2 Wilcoxon 符号秩和检验 ................................................................................ 266 11.5.3 Kruskal-Wallis 检验 ........................................................................................ 268 11.5.4 Friedman 检验 ................................................................................................. 273 第12 章 方差分析 .................................................................... 277 12.1 单因素方差分析 ............................................................................... 278 12.1.1 计算流程 ......................................................................................................... 278 12.1.2 代码实现 ......................................................................................................... 280 12.1.3 方差分析与T 检验的关系 ............................................................................. 283 12.1.4 方差分析中的多重比较方法 ......................................................................... 285 12.2 双因素方差分析 ...................................................................... 289 12.2.1 无交互作用的双因素方差分析 ..................................................................... 289 12.2.2 有交互作用的双因素方差分析 ..................................................................... 295 第13 章 多元线性回归 ................................................................................. 302 13.1 数学模型 ................................................................................. 302 13.2 显著性检验 ................................................................................ 308 13.3 计算步骤 ............................................................... 309 13.4 代码实现 .......................................................................... 313 13.5 多重共线性 ........................................................................... 320 13.5.1 度量指标 ............................................................................ 320 13.5.2 代码实现 ......................................................................................................... 323 13.5.3 应用示例 ......................................................................................................... 328 13.6 逐步回归 ........................................................................................ 330 第14 章 主成分分析 ........................................................................................ 340 14.1 计算步骤 ............................................................................................ 342 14.2 代码实现 ...................................................................................... 345 14.3 应用举例 ...................................................................................... 350 第15 章 判别分析 ...................................................................... 359 15.1 距离判别 ....................................................................... 359 15.1.1 Mahalanobis 距离 ........................................................................................... 360 15.1.2 模型训练和预测 ............................................................................................. 361 15.2 Fisher 判别 .................................................................................... 364 15.3 Bayes 判别 ................................................................................ 369 15.3.1 朴素Bayes 判别 ............................................................................................. 369 15.3.2 模型训练和预测 ............................................................................................. 370 15.4 判别算法的综合模型 ................................................................ 377 15.5 应用举例 ................................................................................... 378 第16 章 模型评估曲线 ....................................................................... 383 16.1 相关概念 ......................................................................... 383 16.2 定义 ............................................................................................ 384 16.2.1 ROC 曲线 ........................................................................................................ 384 16.2.2 上升图和反馈率—精确率线 ......................................................................... 386 16.3 计算实现 ..................................................................................... 386 参考文献 .................................................................................... 391
【展开】
内容简介
基于《重构大数据统计》内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,并取得显著效果。 大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。 人们都希望花更少的钱,并且希望计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。 《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。 《重构大数据统计》提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。 《重构大数据统计》适合对大数据分析感兴趣的读者阅读:前面章节比较容易理解,包含了常用统计量的计算;后面的各章节需要读者具备一些基础知识。建议读者根据自己的兴趣和工作需要,选择相应的内容参考。
【展开】
下载说明

1、追日是作者栎年创作的原创作品,下载链接均为网友上传的的网盘链接!

2、相识电子书提供优质免费的txt、pdf等下载链接,所有电子书均为完整版!

下载链接