统计学电子书下载-相识电子书

女士品茶

[美]戴维·萨尔斯伯格

大数据时代最该懂的学科就是统计学科学松鼠会推荐统计学领域入门必读书 ................... ※编辑推荐※ ★统计学入门首选读本，科学松鼠会强力推荐！这是一本经典的入门级读物，每介绍一个新的概念，都会进行大量的背景介绍，再辅以相关奇闻异事。就算是对于一个门外汉来说，也能读懂一个特定概念是做什么用的。 ★像小说一样的科普书，堪称统计学领域的《苏菲的世界》在作者笔下，固执的皮尔逊、低调的戈塞特、天才的费舍尔，一如武林高手一样，在统计学的思想领域激烈交锋。他们和后续各个时代代表性的天才，共同演绎了二十世纪这场绚丽多彩又跌宕起伏的统计学革命。有读者评论，本书之于统计学，一如《苏菲的世界》之于哲学。 ★了解统计学的人，运气都不会太差。大数据时代，你需要懂点统计学思想。统计学从不猜想，而是测量未来！从买乐透到大数据，全都需要统计学，不懂统计学，你就等着被骗吧！ ................... ※内容简介※ 统计学之所以被滥用、误用，其实是因为它太有用，在某种程度上,可以说改变了世界上处理问题的方式。这是一部统计学的史诗。一百多年来，统计学从无到有，以至于蔚为壮观。一部统计学的发展史，就是一部不断革新现有科学体系的历史。本书深入浅出地描绘了这一历程，为读者奉献了一场思想的饕餮盛宴。这是一部关于叱咤风云的统计学学霸的传奇故事书。回望那段波澜壮阔的时代,一张张脸孔水一样掠过。在英国剑桥的某个午后，有位女士声称，把茶加到牛奶里，和把牛奶加到茶里，两种方法调出来的下午茶喝起来味道不同。在座的科学家都对她的说法嗤之以鼻，但有位来访的瘦小绅士，R. A. 费希尔，提议要用科学的方法，来检验这位女士的假设……本书以这位喝下午茶的英国女士为起点，带领读者一一回顾“统计”这门应用范围最广的科学，了解若干重要理论的发展过程与应用，亲近那些隐身幕后的统计学家，看看统计究竟为今天这个世界，带来了什么样的改变。这是一部大数据时代不容错过的实用之书。大数据时代，一切以数据说话，如何解读数据便与每个人的日常生活息息相关。统计学的本质就在于解读数据，读懂了本书，你就是大数据时代的明白人。
精準預測

奈特．席佛

數據不會說話，是你在為它說話。 ˙美國政府長期蒐集許多情報，但為何還是無法預見911恐怖攻擊？ ˙2007年房市泡沫爆發前，華爾街的金融專家們為何看不見崩盤的警訊？身處「巨量資料」 (big data)時代，照理說我們擁有空前充足的資料，去做各項預測。但各行各業掌握最多資料的專家與決策者，卻都還是不斷做出失敗的判斷，這是怎麼回事?作者奈特˙席佛指出，預測最難的部分在於：分辨出哪些是無意義的雜訊，哪些才是關鍵的訊號。誤把雜訊當訊號，做出來的預測，自然不會準確，甚至會造成嚴重的謬誤與損失! 最常出錯的就是過度自信、被稱為「刺蝟」型的預測者，他們很會歸納、喜歡大原則、很有膽識，雖不斷收到新訊息卻很少修改預測，他們做預測常成為一種「表演」，模糊了追求精準預測的動機。(代表人物:成為名嘴的專家、認定自己能翻盤的賭徒。) 另外一個大家常犯的錯，是忽略「樣本外」的重大新資訊。假設你這輩子從未酒後駕車，肇事紀錄也很低。今晚你喝了酒，請預測今天駕車肇事的機率？如果你拿過去的記錄作分析預測，那麼你出事的機率相當低;但是喝酒開車並不在你過去記錄的樣本內。預測的模型錯了、忽略樣本外的重大訊息，這就是席佛認為，大家對房市泡沫以及雷曼兄弟垮台，無法精準預測的主因。在本書中，席佛針對政治選情、球賽結果與球員價值的評估、金融風暴、氣象、地震、撲克賭局、西洋棋賽、股市投資等跨領域的預測難題，做了精闢的個案分析。雖然領域迥異，但預測要精準，背後的原則與邏輯卻都是一樣的。在一個個精彩的故事中，即使沒有統計背景的讀者，也能一點一滴拼湊、建立預測的基本功，並且可以練習把這些原則與技巧，運用在自己的專業領域上。(甚至可以用來預測伴侶外遇的機率: 詳見第8章) 席佛在書中不斷提醒預測者: ˙預設立場或過度自信，對預測來說，是非常可怕的事。 ˙預測不是在追求是與非，而是估算事情發展的「機率」。有精準的機率，才能做出有利的決策。 ˙預測時不能忽略「誤差」，並要勇於承認有「不確定性」。不然你會過度解釋，變成不精準的預測。 ˙根據預測出來的機率，做了最有利的選擇，即使最後結果不好，仍然是好預測。 ˙在很多情境中，不是一定要追求終極完美的預測，只要預測比競爭對手好，你就贏了。 ˙當大家不免被雜訊迷惑時，問問自己，你有什麼法寶，能讓自己更接近真相?跟著法寶走，不要跟著群眾走。 ˙有新的重大資訊進來時，能保持客觀，隨時更新的預測，才有可能是精準的預測。
数据统治世界

[美]冯启思（Kaiser Fung）

 《大数据时代》之后的必读之作。《大数据时代》改变了我们的思维，《数据统治世界》将改变我们利用数据的方式。揭示5大统计式思维，让你可以解决在商业、金融、科学、公共卫生以及犯罪调查中遇到的难题！  他用难以胜数的来自真实世界的例子，为我们展现了统计学在日常生活中的实际应用，以一种简单、务实、无限娱乐性的方式为您解释了数据所具有的神秘力量。  游人如织的迪士尼是如何管理排队等候时间的？高速公路为什么要修建缓行匝道？服用兴奋剂的运动员在被揭穿之前是如何制造出几十次干净的药检结果的？即使拥有海量的股票数据和公司财报信息，为什么大部分人还是不能在投资中所向披靡？为何不同的人有不同的保险费率，信用评分又是如何运作的？当传染病暴发的时候，科学家是如何帮我们找到感染源头，保证我们的安全的？统计学家为何不怕飞机失事，但也不相信能够中奖的彩票？十个精彩纷呈的故事，带你领略数据的别样魅力。 [编辑推荐]  《大数据时代》之后的必读之作，看数据如何影响你的工作与生活，教你如何从数据统计中挖掘商机与做出决策。  全书用10个精彩故事，通过精心的叙述，翔实的资料，别样的角度，为我们开启一趟惊心动魄之旅，展现统计学家是如何利用统计式思维解决我们身边的问题，数据又是如何影响我们的生活。  本书作者系纽约大学统计学教授，视频分享网站Vimeo商业智能分析副总裁，并且著有超高人气的博客“垃圾图表”，内容及可读性极佳。  湛庐文化出品。 [推荐语] 约翰•萨尔美国赛仕软件研究所执行副总裁、著名统计学家书中所描述的事件都是新闻记者关注的热点问题，事件内幕经由数据阐释出来令人醍醐灌顶，同时数据也揭示了世界的动态性，这正是本书的魅力所在。伊恩•艾尔斯耶鲁大学教授自组织数据挖掘技术正在冲击着我们的世界，有些人对此感到惴惴不安。冯启思的这本书开启了一扇窗，让我们看到预测分析的利与弊。
ggplot2：数据分析与图形艺术

哈德利·威克姆 (Hadley Wick

中译本序每当我们看到一个新的软件，第一反应会是：为什么又要发明一个新软件？ggplot2是R世界里相对还比较年轻的一个包，在它之前，官方R已经有自己的基础图形系统（graphics包）和网格图形系统（grid包），并且Deepayan Sarkar也开发了lattice包，看起来R的世界对图形的支持已经足够强大了。那么我们不禁要问，为什么还要发明一套新的系统？设计理念打个比方，想想我们小时候怎样学中文的。最开始的时候我们要识字，不认识字就没法阅读和写作，但我们并不是一直按照一个个汉字学习的，而是通过句子和具体的场景故事学习的。为什么不在小学时背六年字典呢？那样可能认识所有的汉字。原因很简单，光有单字，我们不会说话，也无法阅读和写作。缺的是什么？答案是对文字的组织能力，或者说语法。 R的基础图形系统基本上是一个“纸笔模型”，即：一块画布摆在面前，你可以在这里画几个点，在那里画几条线，指哪儿画哪儿。后来lattice包的出现稍微改善了这种情况，你可以说，我要画散点图或直方图，并且按照某个分类变量给图中的元素上色，此时数据才在画图中扮演了一定的中心角色，我们不用去想具体这个点要用什么颜色（颜色会根据变量自动生成）。然而，lattice继承了R语言的一个糟糕特征，就是参数设置铺天盖地，足以让人窒息，光是一份xyplot()函数的帮助文档，恐怕就够我们消磨一天时间了，更重要的是，lattice仍然面向特定的统计图形，像基础图形系统一样，有直方图、箱线图、条形图等等，它没有一套可以让数据分析者说话的语法。那么数据分析者是怎样说话的呢？他们从来不会说这条线用#FE09BE颜色，那个点用三角形状，他们只会说，把图中的线用数据中的职业类型变量上色，或图中点的形状对应性别变量。有时候他们画了一幅散点图，但马上他们发现这幅图太拥挤，最好是能具体看一下里面不同收入阶层的特征，所以他们会说，把这幅图拆成七幅小图，每幅图对应一个收入阶层。然后发现散点图的趋势不明显，最好加上回归直线，看看回归模型反映的趋势是什么，或者发现图中离群点太多，最好做一下对数变换，减少大数值对图形的主导性。从始至终，数据分析者都在数据层面上思考问题，而不是拿着水彩笔和调色板在那里一笔一划作图，而计算机程序员则倾向于画点画线。Leland Wilkinson的著作在理论上改善了这种状况，他提出了一套图形语法，让我们在考虑如何构建一幅图形的时候不再陷在具体的图形元素里面，而是把图形拆分为一些互相独立并且可以自由组合的成分。这套语法提出来之后他自己也做了一套软件，但显然这套软件没有被广泛采用；幸运的是，Hadley Wickham在R语言中把这套想法巧妙地实现了。为了说明这种语法的想法，我们考虑图形中的一个成分：坐标系。常见的坐标系有两种：笛卡尔坐标系和极坐标系。在语法中，它们属于一个成分，可自由拆卸替换。笛卡尔坐标系下的条形图实际上可以对应极坐标系下的饼图，因为条形图的高可以对应饼图的角度，本质上没什么区别。因此在ggplot2中，从一幅条形图过渡到饼图，只需要加极少量的代码，把坐标系换一下就可以了。如果我们用纸笔模型，则可以想象，这完全是不同的两幅图，一幅图里面要画的是矩形，另一幅图要画扇形。更多的细节在本书中会介绍，这里我们只是简略说明用语法画图对用纸笔画图来说在思维上的优越性；前者是说话，后者是说字。发展历程 ggplot2是Hadley在爱荷华州立大学博士期间的作品，也是他博士论文的主题之一，实际上ggplot2还有个前身ggplot，但后来废弃了，某种程度上这也是Hadley写软件的特征，熟悉他的人就知道这不是他第一个“2”版本的包了（还有reshape2）。带2的包和原来的包在语法上会有很大的改动，基本上不兼容。尽管如此，他的R代码风格在R社区可谓独树一帜，尤其是他的代码结构很好，可读性很高，ggplot2是R代码抽象的一个杰作。读者若感兴趣，可以在GitHub网站上浏览他的包：https://github.com/hadley。在用法方面，ggplot2也开创了一种奇特而绝妙的语法，那就是加号：一幅图形从背后的设计来说，是若干图形语法的叠加，从外在的代码来看，也是若干R对象的相加。这一点精妙尽管只是ggplot2系统的很小一部分，但我个人认为没有任何程序语言可比拟，它对作为泛型函数的加号的扩展只能用两个字形容：绝了。至2013年2月26日，ggplot2的邮件列表（http://groups.google.com/group/ggplot2 ）订阅成员已达3394人，邮件总数为15185封，已经成为一个丰富、活跃的用户社区。未来ggplot2的发展也将越来越依赖于用户的贡献，这也是很多开源软件最终的走向。关于版本更新原书面世之时，ggplot2的版本号是0.8.3，译者开始翻译此书时是0.9.0版本；该版本较之0.8.3，内部做了一些大改动。此后，ggplot2频繁升级，目前版本号是0.9.3，当然这也给本书的翻译过程带来了相当大的麻烦。因为译者不但要修正原书中大量过时的代码、重新画图，还要修正过时的理念，以及处理数次版本更新的影响。所幸，在翻译过程中，译者得到了本书审校殷腾飞博士、ggplot2开发者Hadley Wickham和Wistong Chang的大力帮助。如果你是老用户，那么可能需要阅读下面的小节。之后ggplot2有过多次更新，尤其是0.9.0之后，ggplot2的绘图速度和帮助文档有了质的飞跃。关于0.9的更新，读者可以从https://github.com/downloads/hadley/ggplot2/guide-col.pdf下载一份细致的说明文档，但原文档比较长，而且有些内部更新问题我们也不一定需要了解，因此这里给一段概述。 ggplot2的帮助文档大大扩充了，过去头疼的问题之一就是一个函数里面不知道有哪些可能的参数，例如theme()函数，现在已经有了详细说明。新增图例向导函数guide_legend()和guide_colorbar()，前者可以用来指导图例的排版，例如可以安排图例中元素排为n行m列；后者增强了连续变量图例的展示，例如当我们把颜色映射到一个连续变量上时，过去生成的图例是离散的，现在可以用这个函数生成连续颜色的图例（渐变色）。新增几何对象函数geom_map()（让地图语法变得更简单），geom_raster()（更高效的geom_tile()），geom_dotplot()（一维点图，展示变量密度分布）和geom_violin()（小提琴，实为密度曲线）。新增统计变换函数stat_summary2d()（在二维网格上计算数据密度），stat_summary_hex()（在六边形“蜂巢”上计算数据密度），stat_bindot()（一维点图密度），stat_ydensity()（密度曲线，用于小提琴图）。 facet_grid()支持X轴和Y轴其中一者可以有自由的刻度（根据数据范围而定），以往要么所有切片使用同样的坐标轴刻度，要么所有都自由。 geom_boxplot()开始支持画箱线图的凹槽（notch），就像R基础图形系统中的boxplot()函数。新增函数ggmissing()用来展示缺失值的分布，ggorder()按照数据观察顺序先后画折线图，ggstructure()展示数据热图。另外这次更新涉及到一些函数参数名称的变化，如果旧代码在这个版本中报错说有未使用的参数，那么用户需要再次查看帮助文档，确保输入的参数在函数中存在。在所有这些表面的更新背后，实际上ggplot2很大程度上被重写了，例如开始使用R自带的S3泛型函数设计，以及将过去ggplot2的功能继续模块化为一些独立的包，一个典型的例子就是标度部分的功能被抽象到scales包中，从数据映射到颜色、大小等外观属性可以由这个包直接完成。这种分拆也使得其他开发者可使用过去ggplot2内部的一些功能函数。 0.9.1版本主要解决了0.9.0版本中的一些漏洞。ggplot2在2012年9月4日发布了新的版本0.9.2，其中一些特性和更新有必要提及：采用了全新的主题（theme）系统，opts()函数已被标记为“不推荐使用”（deprecated），将在未来版本中被取消，取而代之的是theme()函数，主题元素（theme element）由属性列表构成，支持继承，主题之间可以直接进行合并等操作。详情参见wiki页面：https://github.com/wch/ggplot2/wiki/New-theme-system 。依赖于新的gtable包。用来更方便地调整修改ggplot2图形中的图元，ggplotGrob()会返回一个gtable类，这个对象可以利用gtable包中提供的函数和接口进行操作。所有“模板”类型的图形函数，比如plotmatrix()，ggorder()等等，已被标记为“不推荐使用”（deprecated），将在未来版本中取消。在本书出版之际，ggplot2更新到了版本0.9.3，修复了0.9.2的一些漏洞，其主要更新包括不再支持plotmatrix()函数。 geom_polygon()提速，比如世界地图的绘制快了12倍左右。新增部分主题，比如theme_minimal()，theme_classic()。本书的所有代码和图片都是针对新版本0.9.3的，在内容方面也根据版本更新对原文做了适当的增删填补，以满足读者的需求。本书把影响正文阅读的彩图集中放在附录后面，读者可以随时翻阅。致谢在听说我们翻译完这本书之后，本书原著Hadley很高兴，给我们发邮件说： I am excited and honoured to have my book translated to Chinese. ggplot2 has become far more popular than I ever imagined, and I'm excited that this translation will allow many more people to learn ggplot2. I'm very grateful that Yihui and his team of translators (Nan Xiao, Tao Gao, Yixuan Qiu, Weicheng Zhu, Taiyun Wei and Lanfeng Pan) made this possible. One of the biggest improvements to ggplot2 since the book was first written is the ggplot2 mailing list. This is a very friendly environment where you can get help with your visualisations, and improve your own knowledge of ggplot2 by helping others solve their problems. I'd strongly encourage you to join the mailing list, even if you think your English is not very good -- we are very friendly people. 我们感谢这本书的译者，包括邱怡轩（第1~2章）、主伟呈（第3~4章）、肖楠（第5~6章）、高涛（第7~8章）、潘岚锋（第9章）、魏太云（第10章、附录以及翻译过程的协调安排和全书的LaTeX排版工作）。所有译者均来自于统计之都（http://cos.name ）。爱荷华州立大学的殷腾飞博士、中国人民大学统计学院的孟生旺教授、浙江大学的张政同学通读了译稿，提出了很多有用的建议，殷腾飞博士还提供了大多数新版本中的解决方案，并担任本书的审校。肖凯老师和余光创博士分别对第1~4章、第8~10章以及附录提出了很多修改意见，此外，中国人民大学的陈妍、李晓矛、谢漫锜三位同学、中国再保险公司的李皞先生、百度公司的韩帅先生、eBay公司的陈丽云女士、Mango Solutions公司的李舰先生、京东商城的刘思喆先生、首钢总公司的邓一硕先生、新华社的陈堰平先生在此书的翻译过程中也曾提过不少宝贵的建议，在此一并表示感谢。为了更好地服务社区，我们还建立了翻译主页：https://github.com/cosname/ggplot2-translation ，读者可以在这里得到最新的勘误和书中的代码，也可以随时提出任何问题。谢益辉 2013年2月26日
大数据时代下的统计学

杨轶莘

不知不觉中，人们进入了一个数据为王的时代。大数据的字眼以一种迅雷不及掩耳之势进入人们的视野，更加强调了数据在这个时代的重要性。不管人们愿意或者不愿意，都在诚惶诚恐地拥抱着这个所谓的大数据时代。大数据的火热也带火了另外一个看上去有点神秘、有点距离感的学科：统计学。为什么编写本书笔者作为一个在校园里学了11年统计学的资深学院派，深深地被这门学科打动：它有着数学的美感，充满了哲学的智慧，并且透露出思辨的洞察力。你可以把它看作一种工具，或者一种武器。有了它，你可以事半功倍地直击事物本质的规律。笔者很想把这门学科分享给有兴趣的人。这就是编写这本书的初衷。统计学本身就是大数据时代的一门重要学科。随着大数据逐渐走进公众的视野，统计学也必然会迎来更多的关注。这就意味着，越来越多的非统计学专业人士会了解统计学、应用统计学。人们也必然需要更多的统计学读物。据笔者观察，市场统计学的教材大多像教科书，充斥着枯燥的公式和深奥的理论。当然，也有一些幽默风趣、深入浅出的入门书籍，如查尔斯•韦兰的《赤裸裸的统计学》（Naked Statistics），但也因为是外国作品编译的问题，在语言和写作方式上很难符合东方人的阅读习惯。这本书讨论大数据，讨论统计学，更讨论二者之间千丝万缕的联系。大数据时代将迎来技术的变革，以及工作方式和思维模式的变革。大数据时代也挑战着传统统计学的思维和研究模式。统计学这门学科是将要面临江河日下的被取代的危机，还是迎来一个破茧而出的春天？本书试着抛砖引玉地给出一部分答案。大数据时代，对于统计学来说，是最好的时代，也是最坏的时代。统计学，必须与时俱进，勇敢地接受大数据时代的挑战和变革，才会走得更长远。而大数据，没有了统计学思维的辅助、修正和补充，当热潮退去，也只能在这个浮躁的时代中渐渐被人们遗忘。本书特点本书从当下热门话题大数据切入，引入与之息息相关的统计学。深入浅出地讲述了在“数据为王”的时代下，统计学作为分析、解读数据的学科，如何为商业、社会、生活等领域提供决策支持。热门性——业界和学术界热议的词“大数据”对大多数人来说仍是“犹抱琵琶半遮面”。经典性——久经时间考验的统计学理论仍是实践中数据处理的重要依据。洞察性——站在统计学哲学的思想高度对时下热门话题进行分析思考。前瞻性——下一个时代是数据的时代。无论什么行业，未来都是数据生意。本书和市面上很多书籍相比，有两点最具特色：本书将统计学和大数据结合在一起，探讨两者的差异和相关性。本书行文按照【案例】+【知识点】+【分析】的结构，清晰明了。应用的案例也都和人们的生活息息相关，更符合国人阅读习惯，更具代入感和认同感。本书内容本书共分为8章，各章内容如下。第1章大数据时代下的统计学，讲解了统计学的基本原理、应用领域及数据的获取方法。第2章样本魅影，重点介绍了统计学最核心的思想，即用样本信息推论总体，并和大数据的推论思想进行比较，强调二者在实践中结合使用的重要性。第3章描述数据，告诉读者面临大量数据的时候，如何迅速提炼出有用信息，以一种直接、感性的方式勾勒出隐藏在冷冰冰的数据背后的内涵。第4章正态女神，隆重推出了统计学最经典、最重要、最具代表性的一个分布——正态分布，详细介绍了关于正态分布的理论、应用和相关的知识点。第5章统计推断，讲述了统计推断是用样本来估计总体的，是一种具有科学依据的合理猜测，尽管它不可能百分百准确，却对人们认知事物有着不可估量的作用。第6章变量间的关系，从大数据思维的其中一个角度切入，即强调事物的相关关系而非因果关系，重点讲述了究竟什么是相关关系，它的统计学内涵、方法及应用。第7章统计杂谈，以一种漫谈的方式，深入浅出地讲解了统计学一些热门应用的理论。特别强调了这些理论在实践中的误用，并告诉读者正确的使用方法和解读方法。第8章大数据，在水一方，探讨了大数据巨大的商业价值，除此之外还强调如何从大数据中获取洞察力和决策力。关于作者本书由杨轶莘主笔编写，其中第6章由王辉撰写。杨轶莘：瑞典厄勒布鲁大学商学院统计学博士毕业，北京诺贝伦思教育咨询有限公司高级咨询师，旗下商学院CN网站联合创始人和网站知识分享类微信节目《杨博夜话》制作人和主持人。王辉：北京大学汇丰商学院金融学（数量金融方向）研究生。善于统计综合评价方法的应用、金融计量学、经济计量分析领域的研究。2013—2014年，主持项目《社区养老现状和需求研究》，获第四届全国大学生市场调查分析大赛一等奖和第三届海峡两岸市场调查分析大赛二等奖。2014—2015年，参与朱喜安教授的国家社科基金课题《综合评价方法的优良标准研究》。
例解回归分析(原书•第5版)

Samprit Chatterjee,A

上一页

第7/43页

下一页