数据科学实战

[美] Rachel Schutt,[美

文学

数据挖掘 数据科学 数据分析 机器学习 统计 计算机 大数据 数据

2015-3

人民邮电出版社

目录
作者介绍   XII 关于封面图  XIII 前言  XIV 第1章 简介:什么是数据科学  1 1.1 大数据和数据科学的喧嚣  1 1.2 冲出迷雾  2 1.3 为什么是现在  3 1.4 数据科学的现状和历史  5 1.5 数据科学的知识结构  8 1.6 思维实验:元定义  10 1.7 什么是数据科学家  11 1.7.1 学术界对数据科学家的定义  12 1.7.2 工业界对数据科学家的定义  12 第2章 统计推断、探索性数据分析和数据科学工作流程  14 2.1 大数据时代的统计学思考  14 2.1.1 统计推断  15 2.1.2 总体和样本  16 2.1.3 大数据的总体和样本  17 2.1.4 大数据意味着大胆的假设  19 2.1.5 建模  21 2.2 探索性数据分析  26 2.2.1 探索性数据分析的哲学  27 2.2.2 练习:探索性数据分析  29 2.3 数据科学的工作流程  31 2.4 思维实验:如何模拟混沌  34 2.5 案例学习:RealDirect  35 2.5.1 RealDirect是如何赚钱的  36 2.5.2 练一练:RealDirect公司的数据策略  36 第3章 算法  39 3.1 机器学习算法  40 3.2 三大基本算法  41 3.2.1 线性回归模型  42 3.2.2 k 近邻模型(k-NN)  55 3.2.3 k 均值算法  64 3.3 练习:机器学习算法基础  68 3.4 总结  72 3.5 思维实验:关于统计学家的自动化  73 第4章 垃圾邮件过滤器、朴素贝叶斯与数据清理  74 4.1 思维实验:从实例中学习  74 4.1.1 线性回归为何不适用  75 4.1.2 k 近邻效果如何  77 4.2 朴素贝叶斯模型  78 4.2.1 贝叶斯法则  79 4.2.2 个别单词的过滤器  80 4.2.3 直通朴素贝叶斯  82 4.3 拉普拉斯平滑法  83 4.4 对比朴素贝叶斯和k 近邻  85 4.5 Bash代码示例  85 4.6 网页抓取:API和其他工具  87 4.7 Jake的练习题:文章分类问题中的朴素贝叶斯模型  88 第5章 逻辑回归  92 5.1 思维实验  93 5.2 分类器  94 5.2.1 运行时间  95 5.2.2 你自己  95 5.2.3 模型的可解释性  95 5.2.4 可扩展性  96 5.3 逻辑回归:一个来自M6D 的真实案例研究  96 5.3.1 点击模型  96 5.3.2 模型背后  97 5.3.3 α和β 的参数估计  99 5.3.4 牛顿法  101 5.3.5 随机梯度下降法  101 5.3.6 操练  101 5.3.7 模型评价  102 5.4 练习题  105 第6章 时间戳数据与金融建模  110 6.1 Kyle Teague与GetGlue公司  110 6.2 时间戳  112 6.2.1 探索性数据分析(EDA)  113 6.2.2 指标和新变量  117 6.2.3 下一步怎么做  117 6.3 轮到Cathy O'Neill了  118 6.4 思维实验  118 6.5 金融建模  119 6.5.1 样本期内外以及因果关系  120 6.5.2 金融数据处理  121 6.5.3 对数收益率  123 6.5.4 实例:标准普尔指数  124 6.5.5 如何衡量波动率  126 6.5.6 指数平滑法  128 6.5.7 金融模型的反馈  128 6.5.8 聊聊回归模型  130 6.5.9 先验信息量  130 6.5.10 一个小例子  131 6.6 练习:GetGlue提供的时间戳数据  134 第7章 从数据到结论  136 7.1 William Cukierski  136 7.1.1 背景介绍:数据科学竞赛  136 7.1.2 背景介绍:众包模式  137 7.2 Kaggle模式  139 7.2.1 Kaggle的参赛者  140 7.2.2 Kaggle的客户  141 7.3 思维实验:关于作业自动评分系统  143 7.4 特征选择  145 7.4.1 例子:留住用户  146 7.4.2 过滤型  149 7.4.3 包装型  149 7.4.4 决策树与嵌入型变量选择  151 7.4.5 熵  153 7.4.6 决策树算法  155 7.4.7 如何在决策树模型中处理连续性变量  156 7.4.8 随机森林  157 7.4.9 用户黏性:模型的预测能力与可解释性  159 7.5 David Huffaker:谷歌社会学研究的新方法  160 7.5.1 从描述性统计到预测模型  161 7.5.2 谷歌的社交研究  163 7.5.3 隐私保护  163 7.5.4 思维实验:如何消除用户的顾虑  164 第8章 构建面向大量用户的推荐引擎  165 8.1 一个真实的推荐引擎  166 8.1.1 最近邻算法回顾  167 8.1.2 最近邻模型的已知问题  168 8.1.3 超越近邻模型:基于机器学习的分类模型  169 8.1.4 高维度问题  171 8.1.5 奇异值分解(SVD)  172 8.1.6 关于SVD的重要特性  172 8.1.7 主成分分析(PCA)  173 8.1.8 交替最小二乘法  174 8.1.9 固定矩阵V,更新矩阵U  175 8.1.10 关于这些算法的一点思考  176 8.2 思维实验:如何过滤模型中的泡沫  176 8.3 练习:搭建自己的推荐系统  176 第9章 数据可视化与欺诈侦测  179 9.1 数据可视化的历史  179 9.1.1 Gabriel Tarde  180 9.1.2 Mark 的思维实验  181 9.2 到底什么是数据科学  181 9.2.1 Processing  182 9.2.2 Franco Moretti  182 9.3 一个数据可视化的方案实例  183 9.4 Mark 的数据可视化项目  186 9.4.1 《纽约时报》大厅里的可视化:Moveable Type  186 9.4.2 屏幕上的生命:Cascade可视化项目  188 9.4.3 Cronkite广场项目  189 9.4.4 eBay与图书网购  190 9.4.5 公共剧场里的“莎士比亚机”  192 9.4.6 这些展览的目的是什么  193 9.5 数据科学和风险  193 9.5.1 关于Square公司  194 9.5.2 支付风险  194 9.5.3 模型效果的评估问题  197 9.5.4 建模小贴士  200 9.6 数据可视化在Square  203 9.7 Ian的思维实验  204 9.8 关于数据可视化  204 第10章 社交网络与数据新闻学  207 10.1 Morning Analytics与社交网络  207 10.2 社交网络分析  209 10.3 关于社交网络分析的相关术语  209 10.3.1 如何衡量向心性  210 10.3.2 使用哪种向心性测度  211 10.4 思维实验  212 10.5 Morningside Analytics  212 10.6 从统计学的角度看社交网络分析  215 10.6.1 网络的表示方法与特征值向心度  215 10.6.2 随机网络的第一个例子:Erdos-Renyi模型  217 10.6.3 随机网络的第二个例子:指数随机网络图模型  217 10.7 数据新闻学  220 10.7.1 关于数据新闻学的历史回顾  220 10.7.2 数据新闻报告的写作:来自专家的建议  220 第11章 因果关系研究  222 11.1 相关性并不代表因果关系  223 11.1.1 对因果关系提问  223 11.1.2 干扰因子:一个关于在线约会网站的例子  224 11.2 OK Cupid的发现  225 11.3 黄金准则:随机化临床实验  226 11.4 A/B测试  228 11.5 退一步求其次:关于观察性研究  229 11.5.1 辛普森悖论  230 11.5.2 鲁宾因果关系模型  231 11.5.3 因果关系的可视化  232 11.5.4 定义:因果关系  233 11.6 三个小建议  235 第12章 流行病学  236 12.1 Madigan的学术背景  236 12.2 思维实验  237 12.3 统计学在现代  238 12.4 医学文献与观察性研究  238 12.5 分层法不解决干扰因子的问题  239 12.6 就没有更好的办法吗  241 12.7 研究性实验(OMOP)  242 12.8 最后的思维实验  246 第13章 从竞赛中学到的:数据泄漏和模型评价  247 13.1 Claudia作为数据科学家的知识结构  247 13.1.1 首席数据科学家的生活  248 13.1.2 作为一名女数据科学家  248 13.2 数据挖掘竞赛  249 13.3 如何成为出色的建模者  250 13.4 数据泄漏  250 13.4.1 市场预测  251 13.4.2 亚马逊案例学习:出手阔绰的顾客  251 13.4.3 珠宝抽样问题  251 13.4.4 IBM 客户锁定  252 13.4.5 乳腺癌检测  253 13.4.6 预测肺炎  253 13.5 如何避免数据泄漏  254 13.6 模型评价  255 13.6.1 准确度重要吗  256 13.6.2 概率的重要性,不是非0 即1  256 13.7 如何选择算法  259 13.8 最后一个例子  259 13.9 临别感言  260 第14章 数据工程:MapReduce、Pregel、Hadoop  261 14.1 关于David Crawshaw  262 14.2 思维实验  262 14.3 MapReduce  263 14.4 单词频率问题  264 14.5 其他MapReduce案例  267 14.6 Pregel  268 14.7 关于Josh Wills  269 14.8 思维实验  269 14.9 给数据科学家的话  269 14.9.1 数据丰富和数据匮乏  270 14.9.2 设计模型  270 14.10 算算Hadoop的经济账  270 14.10.1 Hadoop简介  271 14.10.2 Cloudera  271 14.11 Josh 的工作流程  272 14.12 如何开始使用Hadoop  272 第15章 听听学生们怎么说  273 15.1 重在过程  273 15.2 不再简单  274 15.3 援助之手  275 15.4 殊途同归  277 15.5 逢山开路,遇水架桥  279 15.6 作品展示  279 第16章 下一代数据科学家、自大狂和职业道德  281 16.1 前面都讲了些什么  281 16.2 什么是数据科学(再问一次)  282 16.3 谁是下一代的数据科学家  283 16.3.1 成为解决问题的人  284 16.3.2 培养软技能  284 16.3.3 成为提问者  285 16.4 做一个有道德感的数据科学家  286 16.5 对于职业生涯的建议  289
【展开】
内容简介
• 统计推断、探索性数据分析(EDA)及数据科学工作流程 • 算法 • 垃圾邮件过滤、朴素贝叶斯和数据清理 • 逻辑回归 • 金融建模 • 推荐引擎和因果关系 • 数据可视化 • 社交网络与数据新闻 • 数据工程、MapReduce、Pregel和Hadoop
【展开】
下载说明

1、追日是作者栎年创作的原创作品,下载链接均为网友上传的的网盘链接!

2、相识电子书提供优质免费的txt、pdf等下载链接,所有电子书均为完整版!

下载链接
热门评论
  • 数据科学家快报的评论
    Spark数据分析实战:大型活动大规模人群的检测和疏散 网页链接 - 数据科学家快报
  • 实验楼官方微博的评论
    #IT实战项目课程#【Kaggle入门:泰坦尼克号幸存者项目】Kaggle是一个线上数据科学竞赛类网站,课程用python科学计算工具对Kaggle提供的泰坦尼克号上的人员数据进行分析建模 ,然后用机器学习的工具预测某位乘客能否在灾难中幸存下来[威武] 。项目地址:网页链接
  • 好东西传送门的评论
    第520期大数据日报(2016-06-25)网页链接 1) 实时流处理框架 Storm、Spark Streaming、Samza、Flink,孰优孰劣?! 2) 实战:R环境下Echart的8种可视化 - 数据科学家 3) Spark:从构建和测试的效率说起 4) Improving Spark Performance With Partitioning 5) Spam classification using Spar
  • 好东西传送门的评论
    第609期Python日报(2016-06-20)网页链接 1) 如何设计Crawler(一)实战页面分析 2) 深入对比数据科学工具箱:Python 和 R 非结构化数据的结构化 3) python3中的正则模块 4) Python开源网络爬虫编程框架,一起把互联网变成大数据库 5) IPN:用Python实现神经网络模型 完整版6条
  • 成都发布的评论
    【温江区拓展“党员e家”平台功能 运用大数据助“两学一做”科学落实】#两学一做#近日,温江区举办党员教育骨干人员专题培训,采取传统授课和实战操作相结合的教学方式,重点讲授如何利用成都“党员e家”平台开展“线上线下”党员教育的具体实务。温江区拓展“党员e家...
  • 巨蟹星星er的评论
    本书是使用Spark进行大规模数据分析的实战宝典,由大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习
  • JeffreyJwg的评论
    读过《数据科学实战》 “主要指明大数据的应用领域, 偏应用范畴, 对Data Scientist来说很赞...” 网页链接
  • 云峰策划设计的评论
    未来的营销趋势是科学、艺术和实战三者的结合。 什么是科学?科学就是指管理在数据化、定量化分析的基础上得出的准确决策; 什么是艺术?艺术必须要有创意; 什么是实战?实战必须要有实际经验,必须在实践当中运作。 这完美的三角形,将支撑未来的营销之路。
  • 正則黑板報的评论
    卡尔曼滤波器算法浅析及matlab实战 | 数据科学家联盟 作者:Liu_LongPo出处:Liu_LongPo的博客卡尔曼滤波器是一种利用线性系统状态方程,通过系统输入输出观测数据,对系统状态进行最优估计的算法。而且由于观测包含系统的噪声和干扰的影响,所以最优估计也可看… 网页链接
  • Layman2077的评论
    看过《十一罗汉》:看《数据科学实战》的时候看见有提到,就下载看了下;感觉还不错:) ★★★★ 十一罗汉 (豆瓣)