书评一:

利润曲线是一个很好的中心。这本薄薄的书是必要和重要的,但远远不够。

新葡京娱乐场:现在,乌兰木伦河碧波万顷,南岸是鳞次栉比的高楼大厦,北岸是公园连成片的景观地带,还有能随乐起舞喷高200米的音乐喷泉和水幕电影,被游人称为东方的曼哈顿。

By Geoffrey R. Anderson on October 14, 2015

这是一本很基础同时也很优秀的数据科学的书。我很高兴购买了它。这本书我已经我读了2/3。但它在某些方面还很不够,而且还缺了一些你需要的东西。不过实际上这是可以的,因为没有一本书能涵盖你在一个领域所需要的所有知识。看看你为了拿到本科学位买了多少本书,我打赌肯定不止一本。

这里列下了这本优秀的书的优缺点。

优点:

利润曲线。在读这本书之后我再也不会用准确度去选择一个模型了,因为这几乎是一个毫无价值的度量,尤其是当应用场景涉及边际成本和边际利润时。这本书非常出色地描述了如何根据预期利润来选择模型,然后画出利润曲线以及曲线下的ROC面积等其他支撑曲线。

期望利润计算和成本-收益矩阵是混淆矩阵的合作伙伴。真是太棒了。在我所选修的其他数据科学课程中,甚至没有提到这个。

另外一些优点:……不要去想其他的优点了(尽管还有一些)。利润曲线分析以及相关信息都是优秀的)。 缺点:

第224页:“我们将在完整的数据集上进行训练,之后在我们所训练的同一数据集上进行测试。” 这章接下来只是一个不恰当的误差分析,因为它过于乐观了(但是其他的技术都很好)。模型已经看到了训练数据。我们不应该完全评估(测试)——还把整个章节的剩余部分建立在模型已经看到的数据所产生的误差估计之上。

大多数章节没有给出足够的细节,让这本书无法作为根据你使用的计算机语言来编写自己的工作代码时“正确参考”的依据。

总结:

这本书很出色。这对你的数据科学书架是必要的,但另一方面它还远远不够。

约翰?霍普金斯大学的数据科学课程系列勾勒出一个完整的大纲要素,这就是数据科学从业人员需要能做的事情(虽然是不够充分的):

可再生的研究;实验设计;R编程(或python,或者SAS或Octave,但一定要有一些数学的语言);探索性数据分析;回归模型;统计推断;实用机器学习;科学写作;开发数据产品;大数据技术(如Apache Spark编程或至少MapReduce风格的编程);SQL和NoSQL数据库;并发、分布式和并行编程;高级统计(例如多个测试修正)。

Provost的这本书只给了必要的数据科学材料的一部分。然而,提供的这部分是必不可少的。我希望学术界的生物数据科学家能够将成本效益矩阵和利润曲线的概念融入到他们的模型选择技术中,而不是仅仅使用精确度度量。

此外,数据科学家能为利润曲线章节做一些后续的附加价值扩展。你可以创造收入(或成本)曲线,因为有时这更重要。你可以很快找到其他的替代方案,这些方案对最优利润来说几乎等价,但它收入少/成本低或者收入高/成本高。你可以详细说明固定预算的模型选择和利润结果。当盈利比率发生变化时,你可以进一步评估边际利润分析对最佳数量的影响。你可以根据最佳商业智慧解决方案直接评估数据科学解决方案,并评估在使用旧的商业智慧决策时损失了多少利润。这是这本书强大价值的证明,你可以根据它的材料做更多的事情。

很好的作品。推荐。

书评二:

读这本书!

By T. Bond on March 7, 2015

Foster Provost和 Tom Fawcett写的《数据化思维》是一本有关数据挖掘和分析思维重要的书。在1971年,Abbie Hoffman 要求嬉皮读者“偷走这本书”时(大概是种逆喻法),震惊了世界。不管是现在还是将来我都不会鼓励数据科学家去行窃,但是我们会要求他们读这本书!

不久之前,数据很困难,而且成本很高。今天,我们生活在一个有太多数据、大量廉价计算能力以及太多无法准确定义的问题的世界里。把这些混到一起,你肯定会弄得一团乱。

数据从匮乏到过剩,带来了实质性的问题。在商业领域,直觉决策和分析瘫痪之间的平衡正在迅速改变。它是否会从直觉决策到分析瘫痪,只有时间会告诉我们。通过《数据化决策》这本书,Provost和 Fawcett 为从业者提供了一个平衡的指南。

读这本书,你会发现自己正快速地朝着数据分析的方向前进。虽然不是特别技术性的,但作者对每个主题都进行了严格的描述,来欣赏所呈现的工具和所提供的见解。

从一开始,作者就明确了这本书的目标:“主要目的是帮助你从数据的角度去分析公司的问题以及从数据中理解、提取有用的知识。”

这篇文章让我想起了世界各个大学学习统计学的本科生和研究生,包括我的女儿,他们被一个又一个的数学或统计学课程所轰炸(微积分三、数理统计一和二、线性代数等)往往当他们步入现实世界就会发生缺乏“数据分析思维”或者“基本原则”。然而,他们会有一种不知所措的感觉。“频率学派”和“贝叶斯学派”之间的史诗级战役在全球统计部门的争论中占了一个位置,即“应用”和“理论”之间的平衡。这本书的“主要目标”应该是让各个大学统计学教学的步调一致起来。

一开始(第二页),作者就说,“数据挖掘是一门手艺。它涉及大量的科学技术的应用,但是恰当的应用也会涉及到艺术。”千真万确!读这本书真是太好了!接下来就是对CRISP-DM的简要讨论,这是一个定义明确的数据挖掘过程,它的各种概念是数据挖掘的基础、必要和不可或缺的责任以及适当和成功的练习。

从这个点出发,作者着手完成他们的主要目标。他们提出了预测建模、相关性、分类、聚类、回归、逻辑回归、线性鉴别等主题。他们的介绍是用户友好的,真实的例子也很有趣,指导和见解非常有价值。

我的批评仅限于他们的网站。《数据化思维》的网站让我想要更多现实世界的例子,获得更多的资源和工具,更多的参考,以及更严格的解决方案。也许《数据化思维》的续集即将上映?

不管你是周期性的统计学家(或数据科学家)、年轻的有抱负的新手或者想拓展视野富有冒险精神的商业人士,Foster Provost和 Tom Fawcett的《数据化思维》都是值得你花时间阅读的。

Foster Provost和 Tom Fawcett说:“理性状态下,我们想象能把任意一本数据科学家的书分享给他的合作者……”我要比他们做得更好——分享给我的女儿!

书评三:

对于数据科学很好的总结

By William P Ross Top Contributor: Architecture on October 4, 2016

《数据化思维》这本书本意是想给别人介绍数据科学。作者将数据科学的一些知识分解成了简单的解释方式。我对非技术性的数据科学书籍持怀疑态度,但这本书效果不错。

在一开始,这本书展示了数据科学的动机以及它们适用的领域,包括电影推荐、信用卡收费、电信流失率和股票市场新闻的自动分析的一些例子。这本书避免进入系统的高技术部分,但给了你该去哪里的链接。 他们没有真正揭示整个科学数据堆栈。例如,Hadoop被提到是MapReduce的实现,但是他们说介绍Hadoop配置对于这种类型的书来说太过详细了。我倾向于同意,作为一个程序员,我认为他们做出了正确的选择。

这本书的解释是一大亮点。我非熟悉期望值的算法而这本书里有一整章有关于它。它的讨论比我在任何地方看到的还要高阶,书中提到预期价值框架可能存在的缺陷。

我喜欢把重点放在解决科学数据的问题上。这本书的标题是十分恰当的,因为它不仅分析了数据,而且也研究商业案例。如果你是科学数据的新手或者想获得更高水平的回顾,这本书是一个很好的开始。