-
精準預測
數據不會說話,是你在為它說話。 ˙美國政府長期蒐集許多情報,但為何還是無法預見911恐怖攻擊? ˙2007年房市泡沫爆發前,華爾街的金融專家們為何看不見崩盤的警訊? 身處「巨量資料」 (big data)時代,照理說我們擁有空前充足的資料,去做各項預測。但各行各業掌握最多資料的專家與決策者,卻都還是不斷做出失敗的判斷,這是怎麼回事?作者奈特˙席佛指出,預測最難的部分在於:分辨出哪些是無意義的雜訊,哪些才是關鍵的訊號。誤把雜訊當訊號,做出來的預測,自然不會準確,甚至會造成嚴重的謬誤與損失! 最常出錯的就是過度自信、被稱為「刺蝟」型的預測者,他們很會歸納、喜歡大原則、很有膽識,雖不斷收到新訊息卻很少修改預測,他們做預測常成為一種「表演」,模糊了追求精準預測的動機。(代表人物:成為名嘴的專家、認定自己能翻盤的賭徒。) 另外一個大家常犯的錯,是忽略「樣本外」的重大新資訊。假設你這輩子從未酒後駕車,肇事紀錄也很低。今晚你喝了酒,請預測今天駕車肇事的機率?如果你拿過去的記錄作分析預測,那麼你出事的機率相當低;但是喝酒開車並不在你過去記錄的樣本內。預測的模型錯了、忽略樣本外的重大訊息,這就是席佛認為,大家對房市泡沫以及雷曼兄弟垮台,無法精準預測的主因。 在本書中,席佛針對政治選情、球賽結果與球員價值的評估、金融風暴、氣象、地震、撲克賭局、西洋棋賽、股市投資等跨領域的預測難題,做了精闢的個案分析。雖然領域迥異,但預測要精準,背後的原則與邏輯卻都是一樣的。在一個個精彩的故事中,即使沒有統計背景的讀者,也能一點一滴拼湊、建立預測的基本功,並且可以練習把這些原則與技巧,運用在自己的專業領域上。(甚至可以用來預測伴侶外遇的機率: 詳見第8章) 席佛在書中不斷提醒預測者: ˙預設立場或過度自信,對預測來說,是非常可怕的事。 ˙預測不是在追求是與非,而是估算事情發展的「機率」。有精準的機率,才能做出有利的決策。 ˙預測時不能忽略「誤差」,並要勇於承認有「不確定性」。 不然你會過度解釋,變成不精準的預測。 ˙根據預測出來的機率,做了最有利的選擇,即使最後結果不好,仍然是好預測。 ˙在很多情境中,不是一定要追求終極完美的預測,只要預測比競爭對手好,你就贏了。 ˙當大家不免被雜訊迷惑時,問問自己,你有什麼法寶,能讓自己更接近真相?跟著法寶走,不要跟著群眾走。 ˙有新的重大資訊進來時,能保持客觀,隨時更新的預測,才有可能是精準的預測。 -
数据统治世界
《大数据时代》之后的必读之作。《大数据时代》改变了我们的思维,《数据统治世界》将改变我们利用数据的方式。揭示5大统计式思维,让你可以解决在商业、金融、科学、公共卫生以及犯罪调查中遇到的难题! 他用难以胜数的来自真实世界的例子,为我们展现了统计学在日 常生活中的实际应用,以一种简单、务实、无限娱乐性的方式为您解释了数据所具有的神秘力量。 游人如织的迪士尼是如何管理排队等候时间的?高速公路为什么要修建缓行匝道?服用兴奋剂的运动员在被揭穿之前是如何制造出几十次干净的药检结果的?即使拥有海量的股票数据和公司财报信息,为什么大部分人还是不能在投资中所向披靡?为何不同的人有不同的保险费率,信用评分又是如何运作的?当传染病暴发的时候,科学家是如何帮我们找到感染源头,保证我们的安全的?统计学家为何不怕飞机失事,但也不相信能够中奖的彩票?十个精彩纷呈的故事,带你领略数据的别样魅力。 [编辑推荐] 《大数据时代》之后的必读之作,看数据如何影响你的工作与生活,教你如何从数据统计中挖掘商机与做出决策。 全书用10个精彩故事,通过精心的叙述,翔实的资料,别样的角度,为我们开启一趟惊心动魄之旅,展现统计学家是如何利用统计式思维解决我们身边的问题,数据又是如何影响我们的生活。 本书作者系纽约大学统计学教授,视频分享网站Vimeo商业智能分析副总裁,并且著有超高人气的博客“垃圾图表”,内容及可读性极佳。 湛庐文化出品。 [推荐语] 约翰•萨尔 美国赛仕软件研究所执行副总裁、著名统计学家 书中所描述的事件都是新闻记者关注的热点问题,事件内幕经由数据阐释出来令人醍醐灌顶,同时数据也揭示了世界的动态性,这正是本书的魅力所在。 伊恩•艾尔斯 耶鲁大学教授 自组织数据挖掘技术正在冲击着我们的世界,有些人对此感到惴惴不安。冯启思的这本书开启了一扇窗,让我们看到预测分析的利与弊。 -
数据挖掘与数据化运营实战
《数据挖掘与数据化运营实战:思路、方法、技巧与应用》是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的著作,更是创造性地针对数据化运营中不同分析挖掘课题类型,推出一一对应的分析思路集锦和相应的分析技巧集成,为读者提供“菜单化”实战锦囊的著作。作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的“非技术”语言和大量活泼生动的案例,围绕数据分析挖掘中的思路、方法、技巧与应用,全方位整理、总结、分享,帮助读者深刻领会和掌握“以业务为核心,以思路为重点,以分析技术为辅佐”的数据挖掘实践应用宝典。 《数据挖掘与数据化运营实战:思路、方法、技巧与应用》共19章,分为三个部分:基础篇(第1~4章)系统介绍了数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的核心,以及实践中常见分析项目类型;实战篇(第6~13章)主要介绍实践中常见的分析挖掘技术的实用技巧,并对大量的实践案例进行了全程分享展示;思想意识篇(第5章,第14~19章)主要是有关数据分析师的责任、意识、思维的培养和提升的总结和探索,以及一些有效的项目质控制度和经典的方法论介绍。 海报: -
Mahout实战
通过收集数据来学习和演进的计算机系统威力无穷。Mahout作为Apache的开源机器学习项目,把推荐系统、分类和聚类等领域的核心算法浓缩到了可扩展的现成的库中。使用Mahout,你可以立即在自己的项目中应用亚马逊、Netflix及其他互联网公司所采用的机器学习技术。 本书出自Mahout核心成员之手,得到Apache官方推荐,权威性毋庸置疑。作者凭借多年实战经验,为读者展现了丰富的应用案例,并细致地介绍了Mahout的解决之道。本书还重点讨论了可扩展性问题,介绍了如何利用Apache Hadoop框架应对大数据的挑战。 本书内容: • 利用分组数据实现个性化推荐; • 寻找数据中的逻辑簇; • 通过即时分类实现过滤与调优。 -
IBM SPSS数据分析与挖掘实战案例精粹
《IBM SPSS数据分析与挖掘实战案例精粹》以IBM SPSS Statistics 20.0和IBM SPSS Modeler 14.1为工具,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,使读者在阅读时能突破方法和工具的局限,真正聚集于对数据分析精髓的领悟。《IBM SPSS数据分析与挖掘实战案例精粹》所附光盘包括案例数据和分析程序/流文件,读者可完整重现全部的分析内容。 -
大数据
大数据:互联网大规模数据挖掘与分布式处理,ISBN:9787115291318,作者:(美) Anand Rajaraman (美) Jeffrey David Ullman 著,王 斌 译