摩思睿生物(MouseRat.cn)--专注动物实验资源分享!

摩思睿生物信息网

当前位置: 主页 > 医药进展 >

从Stylewriter看英文写作

时间:2016-07-26 13:33来源:http://blog.sciencenet.cn/blog 作者:hai 点击: 点击此处获得【转发赠送积分】网址
分享到: 更多

看葛老师的博文( http://sciencenet.cn/m/user_content.aspx?id=328098 ),知道了几种写作(检查、修改)软件的名字,顺便下载了一个 Stlywriter ,还体验了一下,发现几点有趣的东西,写出来与大家分享。 下载安装以后(我都不知道它存到哪儿去了),它会
看葛老师的博文(http://sciencenet.cn/m/user_content.aspx?id=328098),知道了几种写作(检查、修改)软件的名字,顺便下载了一个Stlywriter,还体验了一下,发现几点有趣的东西,写出来与大家分享。
 
下载安装以后(我都不知道它存到哪儿去了),它会自动出现在word的工具栏里(三个小图标),点击编辑的那个,它就自动分析当前的word文件。
 
分析有三个指标:bog index,ave sentence, passive index
 
Bog index代表文章的“可读性”,定义为  
Bog Index = Sentence Bog + Word Bog – Pep 
Sentencebog是句子长度决定的,等于平均句长的平方除以最大句长(long sentence limit,软件似乎设定为35个字,有点儿小气)。
 
Wordbog关乎用词,如难词、大词、专词等,也包括被动语态,这些“毛病”的总和乘以250(这个系数选得别有用心啊,么不是249呢?),除以文章的总字数,就是wordbog。
 
Peg是好东西,如很好的论据和问题,有趣的表达形式等。
 
Bog指数包括了决定一篇文章的主要元素:单词、句子和表达形式。根据Stylewriter的标准,好文章应该是句子短小精悍,用词干净利落,而且尽量少用被动语态。反过来,句子长,词语偏,被动语态多,Bog指数就越大,文章也就越烂。好文章的bog应该在20以下。
 
【顺便说一句,国内外有些刊物明确要求不许在科研论文里用第一人称,似乎那样才显得“客观”。但现在几乎所有讲英文写作的书,都强调多用主动语态,Stylewriter甚至说,尽可能地删除你的被动语态——虽然主动语态不等于就说we do,但很多情形是免不了的。其实,大量国际刊物都在流行we do,随便找一家刊物,在短短的几行摘要里,就能找到好几个we。因为它们本来就是“我们”做的,而不是“客观地”被做的。在我看来,“我们”句型,不但陈述了事实,活泼了文字,也增添了科学的人文气息。让我们在中文里也大胆地歌唱,“我们做了……”!】
 
用Stylewriter来检验自己的一篇文章,bog为67,一般般(average);平均句长11.9,excellent;被动语态指数19,excellent。另一篇,bog更高,poor了,其余两个指标一样。看来,我的成绩顶多是一般般啦。
 
为证明我的一般般,我找了一个美国人的书稿,随便选几章来检验,bog是average,其他两项还不如我呢。
 
再看一篇New York Times的头版文章,bog是poor;一篇Washington post的短文,成绩也不好。这令我有些惊讶。不过,一篇Nature的新闻,指标却很好。
 
那么,经典作家的成绩呢?我随便测试了Bacon, Swift, Boswell, Dickens,散文、传记和小说都有。结果不错,bog都good,但也超过了20。除了Dickens,他们的句子都很短(小于10),有点儿偏短(too short)。从bog的计算公式可以看出,短句越多,bog成绩越好。所以,这几位大师的好成绩,未必是靠文章好换来的。其实,他们的句子并不都很短(Bacon好像真的短),而是插入语多,从句多,所以逗号多,才显得句子短(不知道系统如何识别?如果认句号,我的判断就错了?)——很多“短句子”读起来是相当费力的。我没找到Hemingway的,他的电报英文大概能得一个好分数。
 
如果有工夫,我还想试试FaulknerJoyce。老福的一篇小说有个1600字的句子,Ulysses最后一章,40页没有一个标点。不知道Stylewriter将如何为它们打分儿。
 
还有一点有趣的发现,从句子分析的柱状图看,我的句子好像满足负幂分布:字数为n的句子数N满足  
(n) ~ power (n, -p)  
可惜我不会把界面上的统计数字和图表导出来,不知道是不是能用幂函数来拟合。我原以为这是自然的结果,大概每个作者都会“自组织地”呈现负幂律,只是指数不同而已。但是,考察了古今中外不同作者的文章后,才发现我的情形有点儿另类,也许纯粹是巧合。不过,能巧合一个普遍的自然法则,我还是有几分窃喜。(其实,不可能真有那么多短句的,肯定是把作者和参考文献都算进来了。所以这个巧合没有意义!另外,我没有看到正态分布的例子,有点儿意外。)
 
尽管不同作者的句子分布模式不同,但同一个作者的分布,大体上是不变的,那几个指标也大致“守恒”——Stylewriter的指标虽不能判别文章的优劣,却可能鉴别作者的真假。过去有很多通过文字统计来鉴定作品的方法,现在计算机发达了,类似的鉴别方法应该更多,也更可靠。
 
我向来不信机器能做翻译,能写作文,能做文字的裁判。不过,虽然Stylewriter不能作为文章好坏的判官,但对我们这些土人来说,它还是有帮助的。特别好的一点是,它会将它认为bog的每句话和每个词都标记出来,计算每一个指标,如句子太长,扣分儿;用词不好,扣分儿;缩写不对,扣分儿;还建议替换的词……我们可以本着“有则改之无则加勉”的态度来接受它那天真而严格的批评。

来源:http://blog.sciencenet.cn/blog-279992-328754.html
(责任编辑:hai)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
发布者资料
hai 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2015-07-07 15:07 最后登录:2017-04-04 19:04