冯凌秉

文章
0
评论
2
推荐
0
收藏
1
社区会龄
3 年
个人网站
--
个人简介
还没有输入个人简介……

评论了

  • 2015-03-26 22:29

    (不好意思,前面我想回复的时候,点击了删除按钮,导致了Andy-Henry和李老师的回复都看不见了,我现在把我之前的回复再放上来。但我先说两句: 对于Andy-Henry的回复首先表示感谢。但我觉得对于sampling该如何翻译的争论是没有价值的,就我个人的统计学习经验来说,采样和取样均可。例如, http://www.wking-china.com/xpjylc/tornadomeet/archive/2013/03/26/2982694.html)。我觉得,这里争论的价值点是翻译的一致性,不是属于。您也没有必要把我朋友的名字也带上,我跟不止一个统计学的朋友交流了这个问题,大家都觉得采样没有问题。对您的回复,作为译者的我们,以及出版社和编辑们都是充分重视的,但是我觉得社区是一个心平气和交流的平台,我们没必要做标题党,因为标题是吸引人的,我建议用内容说话即可;也没必要提及人身(例如“不知道您的***朋友怎么看”之类的表述。 其实,我们都可以做的更好。:) 十分感谢这位热心、认真和专业的读者。 因为我是第三章的主翻译者,所以我想应该由我来回复和解答这位读者提出来的问题。 看到这样一份认真的书评,我个人心里是感激的。这位读者用了同行评审论文的精神仔细阅读了本书的第三章《算法》, 并提出了一系列有关统计术语等的翻译问题。借此机会,我想解读一下这位读者的困惑的同时,也与广大的读者朋友们交流一番我翻译此书的缘由与初衷,翻译中的体会,以及翻译完结时候的感受。 因为我个人非常喜欢本书的英文原版,读了之后便在新浪微博发布了书的短评。之后图灵的李松峰老师主动联系我,问我是否有意翻译本书,我欣然应允。因为有过翻译经验的人都知道,翻译一本好书的过程是笑泪交替的,是辗转反侧的,是百转千回的。如果不是真爱一本书,肯定不会接手这个重任。 在我动手翻译第一个字之前,我就在想,我应该以什么样的风格翻译这样一本书。这是一本数据科学前沿的书,它的学术气味不浓,但是却综合了很多学科的精髓(尤其是统计学,机器学习,可视化与计算科学);它的目的是引领读者了解数据科学的发展与现状,在不失细节的前提下,总领数据科学大纲。因此,我的翻译初衷也就定位于此:不学究,广胸怀。 为什么我要提醒自己不学究?因为我的专业背景是统计学,但是在数据科学和大数据蓬勃发展的今天,统计学和统计学家所起得作用似乎越来越轻。为什么会这样?我们如何提升统计学在数据科学中的领导地位?我个人只是统计学的一名小卒,但我看到一些统计巨擘们也在思考同样的问题, 比如Bin Yu (http://www.wking-china.com/xpjylc/2014/10/ims-presidential-address-let-us-own-data-science/), 比如Matlof (http://www.wking-china.com/xpjylc/2014/08/26/statistics-losing-ground-to-cs-losing-image-among-students/)。 其原因在我看来,是传统的统计学(Jerzy Neyman来到伯克利之后所引领的数理统计学浪潮)在21世纪没有做好迎接数据科学和大数据的准备。 数据科学更需要的是:数据敏感度,数据处理能力, 数据探索能力和统计意识。在翻译这本书的时候,我时常会望着一个统计术语发发呆:心想,这玩意我懂,读者懂吗?我该怎么翻译?类似的术语问题,我前天还跟统计之都的魏太云和其他伙伴聊过“regularisatio”一词的翻译问题:统计学上叫做正则化,有时候其也用penalisation, 应译做惩罚项; 从贝叶斯统计的角度来说,无非就是加一项先验信息。面对这样的情况,如果书本里面出现了regularisation, 我若翻译成正则化,没有任何背景的读者可能会一头雾水,有计算机背景的同学可能会联系到正则表达式,其实一点关系也没有。因此,“正则化”这样的翻译对于大多数读者来说,是没有意义的。一言以蔽之,我依然相信统计学应该在数据科学中扮演引领者的角色,但我指的是统计意识,而不是统计术语。数据科学的拓荒者,应该能够用浅显的语言把一些复杂晦涩的统计概念传教出去。 在着手翻译这本书之后,我们才感受到,这是一本综合性很强的书,并且每章的作者的写作风格都不一样。我们踟蹰:是应该统一翻译风格,还是应该忠实原版?譬如本书数据可视化以及金融建模两个章节,原文写的颇为随意,甚至写意,翻译挑战性很大。为了更好的契合章节原作者的风格,这些章节我们都是在读了至少5遍,掌握了原作者的节奏之后,再开始翻译。在翻译流行病学一章时,因为我们平常接触流行病学的内容不多,所以决定暂时停下来,自学了一段时间流行病学模型的相关知识后,再开始翻译。类似的故事我相信,图灵的很多译者都体验过。因此,我在书本即将付梓的时候对统计圈的朋友说过,流行病学是我翻译的最不稳的一章,欢迎拍砖。 本书出版之后,心中怅然。我深知,这才是这本书生命的开始,我要陪它度过一段岁月,不断洗练,以臻于完美。因为,我们虽然在翻译的时候尽了全力,也难免有错漏和不为人意之处。我们自己的名字和头像映在首页,就是因为我们知道,作为译者,我们要接受全国读者的检阅。书已出版两周有余,漫长的检阅已经开始。譬如这位热情专业读者所提到的诸多问题,我们逐项审查,现回复如下: 问题1:打字错误就不说了,平均一页至少有一个,网站上有网友提了一些,还有不少。 打字错误先不说了,主要看翻译问题吧。 译者:我们十分欢迎每一位读者对笔误,错别字提出意见和建议。我们会在后期的刊印中不断修正错别字和笔误,这是一本书所必然经历的过程。对于”平均一页至少有一个“的统计,我们也欢迎该读者列出更为详细的信息。 问题2:最后一段 英:One of the most common statistical methods is linear regression. At its most basic, it’s used when you want to express the mathematical relationship between two variables or attributes. When you use it, you are making the assumption that there is a linear relationship between an outcome variable (sometimes also called the response variable, de‐ pendent variable, or label) and a predictor (sometimes also called an independent variable, explanatory variable, or feature); or between one variable and several other variables, in which case you’re modeling the relationship as having a linear structure. 中:线性回归是统计学中最常用的算法之一。从根本上来说,当你想表示两个变量间的数学关 系时,就可以使用线性回归。当你使用它时,你首先假设输出变量(有时称为响应变量、 因变量或标签)和预测变量(有时称为自变量、解释变量或特征)之间存在线性关系。当 然这种线性关系也可能存在于一个输出变量和数个预测变量之间 注2 )。 注 2: 这称作多元线性回归。 1. 第一句话,显然是:线性回归是最常用的统计方法之一,翻译成算法无中生有。 2. 最后一句in which case漏译。 3. 译者加的注毫无必要。 译者: 1. 这里是仁者见仁的,我们肯定知道statistical methods的字面意思是”统计方法“,这里翻译成”算法“是契合本章的标题。其实,统计模型无外乎就是机器学习中的各种算法,可以通称,大可不必拘泥。本章其实就是在说统计模型,但既然原作者将本章的标题选作”算法“,我们认同并且尊重原作者的意思。 2. In which case这一句原文多有同意反复(假设线性关系的存在,以及要对此建立线性关系模型)的意味。在翻译时,我考虑了将最后一种情形(一个输出变量和数个预测变量之间)单独出来并且再提一下线性关系的存在(“当然这种线性关系也可能存在于”),这样可以避免同意反复。如果按照原文应该翻译为:“当我们使用它时,你假设输出变量和一个预测变量之间,或者一个输出变量和数个预测变量之间存在线性,并且使用线性模型的目的就是要对这样的线性结构关系进行建模。” 3. 译者在教学过程中深知,线性回归模型都是从单变量回归教到多变量回归,也就是多元回归。就此做译者注,可以提醒读者注意两种情形的不同。本书中,我们加了不少译者注,就是想把我们在翻译过程中的一些思考也分享给读者。我们也理解具有统计学背景的读者会觉得其中很多译者注是多余的。 问题3:P46 第2段 模型对于数据来说,主要是用来捕捉其中两个方面的信息:第一个是趋势(trend),第二 个是变动幅度(variation)。我们先从趋势说起。 P49 第3段 英:In order to get at this question of confidence, you need to extend your model. You know there’s variation among time spent on the site by people with five new friends, meaning you certainly wouldn’t make the claim that everyone with five new friends is guaranteed to spend 195.7 seconds on the site. So while you’ve so far modeled the trend, you haven’t yet modeled thevariation. 中:这在统计学上叫作置信值的问题,解答它需要将模型的内涵稍作延伸。可以想象,如果用 户的新好友数为 5,那么这些用户在网站上花费时间的预测值不可能只是一个定值 195.7 秒,一个合理的情况是这些用户花费的时间都在 195.7 秒附近波动。因此,线性模型得到 的预测值只是所有可能预测值的一个总体趋势,而围绕这个趋势的波动性还没有被模型考 虑进来。 1. 首先译者不能把握variation的翻译,P46翻译成变动幅度(错误),后面可能因为拿不准,就直接忽略了。 英文中最后一句trend和variation都是斜体,中文只有趋势弄成了楷体,variation对应的名词拿不准(翻译成了波动性)也就没有变字体。 2. 另外第一句,confidence翻译成置信值,我个人没有见过这个术语。 第一句中文“这在统计学上”是无中生有, 3. 而英文in order to表示目的没有翻译出来。整段的翻译也过于随意了。 译者: 1. 统计学的精髓是什么?是不确定性(uncertainty),也是方差(variance),是变动(variation),是波动(volatility)。在回归模型中到底如何翻译variation这个词,从图形上来看,就是一些点在趋势附近的波动,变动的幅度就是variation。 围绕一个趋势的变动幅度特征应该如何理解?我们觉得, 对于非专业背景的读者来说,“波动性”可能更形象化。 作为译者,我们知道variation的统计含义是“变差”,但是这样一个词对于解释回归模型给广大读者听益处不大。作为一本数据科学的书,对于一个抽象的概念,我们不必纠结于其统计术语是什么。当然,我们在这里可能做的并不好,并且十分希望广大读者朋友能够提出更好的翻译建议。 2. Confidence是什么意思?统计上来说,置信度,置信值均可。为什么加上“这在统计学上”几个字?因为confidence在一般人看来就是“信心,信任”的意思,“置信”是统计学独有的概念,加上统计学的标签, 应该比较合适。 3. “In order to”是“为了。。。”的意思,这样的目的状语可以不直接翻译。为了更好的翻译本句,我们先提出了问题(这在统计学上叫作置信值的问题),在用“解答它需要。。。”表示目的,可以达到同样的效果。如果直译,应为“为了解答有关置信值得问题,你需要。。。”。孰优孰劣?本书的不少翻译,我们都进行了糅合和推敲,并不意味着看不到类似的目的状语就属于漏译的情况。当然也肯定存在不少确属的漏译,我们欢迎读者提出。 问题4:P48 第2、3段 英:Here the little “hat” symbol on top of the β is there to indicate that it’s the estimator for β . You don’t know the true value of β ; all you have is the observed data, which you plug into the estimator to get an estimate. To actually fit this, to get the β s, all you need is one line of R code where you’ve got a column of y’s and a (single) column of x’s: 中:β帽 代表 β 的估计值,真实的 β 是无从得知的。在得到 β 估计值的表达式之后,主要将观测数 据的值代入即可计算出实际的估计值。 在 R 软件中拟合一个线性模型再简单不过了,假设有一列数据代表因变量 Y ,一列数据代 表自变量 x ,则拟合的 R 代码为: 1. 第一句话,译者大量省略原文(这里β上面的小帽子符号……)。 2. 更严重的问题是,译者不能区分 估计值estimate 与 估计量estimator 这两个概念。第一段最后一句同时出现这两个词,译者不能区分,就直接省略了一个。 3. 第二段第一句中to get the β s漏译了。 4. 最后一句,中文为Y,原文为y。统计学中Y和y含义不同,对读者造成严重误导。 5. 整体上这段话的翻译也过于随意。 译者: 1. 没有省略,hat已经翻译成帽。 2. 严格来说,估计量是样本的函数,而估计值其实就是样本函数值。这里,我们选择不区分二者,但是如果有更多的读者认为应该严格加以区分,我们会更正。 3. 这里确属漏译,后期会加上。 4. 这里确实应该用小写的y,感谢这位读者的细心指正。 问题5. P54 英文: ? Linearity ? Error terms normally distributed with mean 0 ? Error terms independent of each other ? Error terms have constant variance across values of x ? The predictors we’re using are the right predictors 中文: ? 线性假设; ? 误差项是正态分布的,并且均值为 0; ? 误差项是相互独立的; ? 误差项具有恒定的条件方差; ? 预测变量都是有用的。 1. 第1个,直接翻译成 线性性 就可以了。 2. 第4个,across values of x 漏译。原文没有条件一词,但也确实是说条件方差,可以接受。另外个人感觉constant最好翻译成“为常数”,比“恒定的”稍好吧。 3. 第5个,原文直接翻译是 所使用的预测变量都是正确的预测变量。原文right是斜体,right的英文含义也比 正确 要广,但"有用"给人感觉对应中文useful,不太合适。 译者: 1. 线性性的翻译不如线性假设,因为线性性其实是线性模型最大的假设。 2. Across values of x是典型的在英文中很容易表达,却很难用中文表达的情形。我们考虑再三,觉得用“条件方差”来表示可能更加好。此处不属于漏译。Constant翻译成“恒定”和“常数”均可,我们更喜欢“恒定方差”的说法。也希望其他的读者提点意见? 3. George Box说过所有的模型都是错的,但有些是有用的。在使用什么变量的时候,没有任何一种方案是正确的,但有些方案是有用的。Right在英文中的含义非常宽泛,我们后来想想,可能翻译成“恰当”更合适。因此,我们会在后来的版本中用“恰当”一次代替“有用”。但是,如果直译做“正确”我们觉得是不合适的。 =========================== P54 第2-3行 英:It’s possible that the true model is quadratic, but you’re assuming linearity or vice versa. 中: 很可能真实的模型是二次型的,而 你最后还是使用了线性模型。 quadratic不能翻译成二次型,二次型是线性代数的特定术语。直接翻译成二次的(或者二次方程)就可以了。 or vice versa漏译。 “你最后还是使用了线性模型”翻译过于随意。 译者:二次或者二次方程都不够贴切,我们考虑会在后面的版本会用“二阶模型”,。Vice sersa确属漏译。这位读者此条建议甚为中肯。这句话的翻译,我们会在之后推敲改进。 问题6:P16-18 sampling翻译成采样,这个词的标准翻译是抽样。更严重的是,P18第二段将抽样分布翻译成取样分布。一会儿采样,一会儿取样,都是错误翻译。 译者:抽样确属统计学的术语,但采样和取样其实均可,不是错误翻译。至于一致性问题,后续版本会改善。 问题7:P17 第二个小标题 bias翻译成偏差 偏差在英文中对应多个词,而且不是统计学术语。而bias在统计中有特定含义,应当翻译成偏倚。 翻译成偏差不能让人想到英文说的是bias一词。 ======================== 译者:bias翻译成偏差无误。偏倚是统计学中的蹩脚术语之一。统计学甚至称其作“乖离”,我们不予采纳。 总结: 这位读者对本书怀揣极大的期望,并在阅读过程中发现了诸多与自己的认知和理解不太撮合的地方,我们深表遗憾。我们期待这位读者能就后续章节继续提出问题,也希望其他的广大读者朋友争相发言。全民写书是一件很美好的事情,我记得Hadley Wickham在写《Advanced R》的时候,把原书稿放在了Github上,每个人如若发现了错误都可以提交建议。我个人也提出了不少建议,大多数有关错别字和遣词造句(对于内容,Hadley本人把控的非常好),95%都被他接受了。数以百计的其他在线读者也在该书出版之前提出了很多建议,最后铸成了一本优秀图书的诞生。我相信,对于译著也同样如此,我们需要更多读者的加入与互动,让这本在国内打头阵的数据科学译著越来越好。 就译者的身份来说,我们接受来自读者群体的各种声音,最想听到的就是批评的声音。译者和编辑的工作都是为了将更好的译著呈现给广大读者朋友。

  • 2014-09-08 16:04

    同意,这本书还是很有内容的的,比某些口号万岁的书来的实在。你都是凌晨回帖的节奏哦。。。

  • 2014-09-06 20:06

    我着手翻译之前,看了你翻的第一章,当时压力还是蛮大的,心想我的合译者翻得真心好。 眼看着这本书就快完工啦!

合作: 赌球网 美高梅网址 新葡京娱乐场