【新概念英语探索】- 将计算思维带入课堂
英语篇
这一次我想将借助 Wolfram 语言对学习英文过程产生的一点问题进行探索, 比如像统计【新概念英语】第二册这本书中单词的频率, 查询发音相近, 哪些单词容易拼写混淆, 整本书哪种句型出现的次数最多等等.
文本课文的导入
网站有各种新概念的文本格式文件, 这里找到了一个 LRC 格式文件, 整理起来相对较为简单, 每个文件只需要取出第六行之后内容就可以了.
高频英文词的统计
统计单词的词频并进行排序, 不过排名最高的这部分英文单词一般没有什么实际含义,比如下面的 'the'、'is'、'a'、'to'、'of'等, 这类词称之为停用词(Stop Words). 在日常的文本处理中通常第一步都会将这些词从数据中移去, 一方面提高搜索分析的性能, 再来能得到有真正意义的结果.
查看排名较后的单词是实际应用中更应该重视和牢记的:
这里也提一下, 如果用 WolframAlpha 进行查询, 是可以得到确切某个单词在实际的读和写的使用频率的, 下面是 picture 单词在口语中使用频率为 763 , 而在书写则为 924:
找出拼写相近和读音相似的单词
下一步来看拼写容易混淆的单词, 譬如找出跟 aboard 拼写最为相似的 5 个单词(包括它本身), 就可以用下面的方法:
再看看如何查询单词发音相近的方法, Wolfram 语言中可以查询单词的国际音标:
不过坦白讲, 做的不足够好, 还可以进一步改进. 因为我更希望按照美式(或英式)音标去进行检索, 于是查了下有道翻译API就提供了这项功能, 那么自己写一个函数就可以调用查询了:
探索句子结构
Wolfram 语言有一个命令 TextStructure, 可用来分析和可视化英文文本, 比如下面三句话就是英语语法三大基本句型, 但从可视化的图形中来看, 马上就可以看到其他都属于名词短语(Noun Phrase) + 动词短语(Verb Phrase)的结构.
并且还可以用图形示意语法依赖关系:
我也动手分析了下【新概念英语】第二册中句型的排名, 如下:
相信在分析后, 对英语语法中句型会有更加清晰的认识了.
比较两个句子的结构
再来从上面的例子其实可以想到, 一旦我们将英文句子转成图的问题, 那么数学中图论的知识就可以应用其中了. 比如两个句子的结构可以通过计算并处理其各自的成分图进行比较. 可以显示句子的树状成分图.
注: 该例选自Wolfram官方示例
计算该图所有节点间的距离矩阵:
对另一个句子进行同样处理, 通过两个句子的距离矩阵比较其结构. 得到两个句子拥有相同结构的结论:
可以从两个不同维基百科文章中找出相同结构的句子. 首先,提取单词数相符的句子并生成每个句子的成分图:
显示结构相同的两个句子结构:
上面就是利用 Mathematica (Wolfram语言) 英语课堂的例子. 因为本人水平有限, 疏忽错误在所难免, 所以还请各位老师和朋友不吝赐教, 多提宝贵意见! 现在让我们在下一篇的计算思维课堂再见.
Thanks! Happy Weekend!