上初中的时候,自习课上我跟我的同桌玩过这样一个游戏:轮流让对方在地理课本里的地图中找一个地名,或者在语文课本的某一篇文章中找一个词。我记得有一次他让我在一篇文章中找“活该”二字,我找了半天也没找到——完全没想到这两个字在《论雷峰塔的倒掉》的结尾,独立成段。
有了文本文档和电子书后,捜索文本中某个词的位置就非常容易了。毕业于哈佛大學的本·布拉特分析了各种文学经典和畅销书,他说J.K.罗琳最常用的是“魔杖”“巫师”和“魔药”,这显而易见。比较新鲜的是,简·奥斯丁最常用的词是“礼貌”“幻想”和“轻率”,海明威最常用的词是“门房”“船尾”和“干邑”,谭恩美最常用的词是“葫芦”“花生”和“面条”,“007系列”小说中最常出现的词是“洗手间”“裤子”和“闪耀”。纳博科夫最喜欢用的词是mauve(淡紫色),其实他喜欢各种表示颜色的词,因为他是一个联觉者,他说他听到声音的同时还能看到其颜色:g和r是黑色的,蓝色组有钢铁般的x、雷雨云z和蓝莓k,绿色组有桤木叶f、生苹果p和阿月浑子t……
布拉特大胆断言,对作品用词的统计能辨别出作者是男性还是女性。有些词的性别特征很明显,如“刮胡子”和“购物”;有些不那么明显,如“确实”和“有些”。他说,男性角色更有可能咕哝、咧嘴笑、轻声笑、喊叫和杀人,女性角色注定要颤抖、哭泣、低语、尖叫和嫁人。根据他的统计和分析,托尔金的《霍比特人》的男性特质占99.9%,《麦田里的守望者》则是经典男性小说中女性特质最强的。
他还分析了作家使用标点符号的情况。美国犯罪小说家埃尔莫·伦纳德在《写作的10条守则》中说,每10万字使用的感叹号不得超过2到3个,而他自己并没有遵守这一守则:他写了40多部小说,总字数有340万,按照他提出的写作建议,他在整个写作生涯中使用的感叹号应该不超过102个。实际上,他用了1651个,是他建议的数量的16倍——每10万字用了49个。不过,相对来说,他使用的感叹号数量确实是最少的,用得最多的是乔伊斯——每10万字1105个。狄更斯也是一个很吵的作家(713个),最安静的作家除了埃尔莫·伦纳德,还有海明威(59个)、厄普代克(88个)和福克纳(108个)。
让人感到不可思议的是,文本分析还能用来看病和破案。有人发现,英国前首相哈罗德·威尔逊在他的演讲中表现出明显的认知能力损伤的迹象,后来他主动辞职了。美国联邦调査局雇用了许多电脑高手帮他们做文本分析,但帮助他们找到大学炸弹客的是莎士比亚研究专家唐·福斯特。近来有人说,在艾丽丝·默多克去世后出版的小说中能看到她心智退化的表现,她的文字中有些句子不够连贯,用词也不够特别。所以,为了证明自己心智正常,你也要挖空心思地推敲用词。endprint
赞(0)
最新评论