【每周一坑】三国演义中谁的存在感最强 +【解答】暴力计算圆周率

2024-04-17 09:07:52

自然语言处理（NLP）是人工智能的一个重要领域。在对中文做自然语言处理的时候，一个很基础的操作就是分词：因为中文不像英语有现成的单词划分，需要将汉字序列切分成一个个单独的词，以便于后续的处理和分析。

今天我们的题目就是：

统计出《三国演义》书中被提及最多的角色

当然，精确统计是比较复杂的，比如同样是刘备，可以是 刘备、玄德、刘豫州、刘皇叔、使君、先主、备，而同样的 主公、丞相、将军 这些称谓在不同语境下指的又是不同的人。这里我们就只粗略算个大概即可，统计哪些个名字出现次数最多。你可以尽量让结果更接近实际值。

这是我的结果，数值仅供参考。

为了方便大家，我已经准备好了《三国演义》的 txt 文件，UTF8 和 GBK 的版本都有，公众号里回复关键字三国

其实我们之前做过一些类似的案例，比如：
数据分析：当赵雷唱民谣时他唱些什么？

在知乎上逛一逛，你会发现现在很多人写的有关 Python 的文章都在用这个套路：

采集相关的文本
中文分词
统计词频
生成词云

当然也有些更厉害的，比如：用机器学习判定红楼梦后40回是否曹雪芹所写

所以，今天的附加题是开放式的，你可以在统计分词的基础上，发挥更多的想象力：图表可视化、生成词云、分析人物的关联性、人物出场分布等等。

详细解答和参考代码将在下次栏目中给出，也可以其他同学在留言中的代码。

期待各位同学提交解答。

提交代码可以使用 paste.ubuntu.com 或

codeshare.io 等代码分享网站，只需将代码复制上去保存，即可获得一个分享地址，非常方便。

往期问题可通过公众号菜单栏“课外辅导”栏目中进入查看。

【解答】暴力计算圆周率

上次的题目，提示了两种方法：均匀点阵、蒙特卡洛方法。

这里有个细节要注意，如果过你用点阵的话，圆心位置的选取，会直接影响到结果的准确度。因为如果把圆心设在点上，距离 R 的范围内，直径上是有 2R + 1 个点；而设在点的间隔之间，直径则是 2R 个点。那么这时候，分母选择 R² 还是 (R+1)²，结果就不一样了。

一个简单的实现：

R = 10000 R2 = R * R count = 0 for x in range(-R, R+1): for y in range(-R, R+1): if x * x + y * y <= R2: count += 1 print(count / R2)

蒙特卡洛法 + 绘图：

import matplotlib.pyplot as pltimport random R = 60 R2 = R * R x_in = [] y_in = [] x_out = [] y_out = [] for i in range(100000): x = random.random() * 2 * R - R y = random.random() * 2 * R - R if x * x + y * y > R2: x_out.append(x) y_out.append(y) else: x_in.append(x) y_in.append(y) plt.figure(figsize=(16, 16)) plt.scatter(x_out, y_out, color='blue', marker='.', linewidths=0.1, alpha=0.3) plt.scatter(x_in, y_in, color='red', marker='.', linewidths=0.1, alpha=0.3) plt.scatter(0, 0, color='black') plt.show() print(len(x_in) / (len(x_in) + len(x_out)) * 4)

上次提交答案的同学有：
hoshea、a87g5o、张钒、谢谢谢伟、Cool、王文亚、Famisi、星星
大部分同学都提供了2种不同解法，Cool 和 王文亚 还实现了无穷级数法。

感谢各位同学的参与。

期待在下一期中看到你的代码！

plt设置

属于图形的参数有很多,本篇以折线图的为例,介绍其中一部分. 以下内容中所有plt均为matplotlib.pyplot的简称. 1.标题可以用函数plt.title()来设置图形标题. 以下代码中绘 ...
自己玩转QAR数据

如果你拷问数据到一定程度,它会坦白一切. Ronald H. Coase 在当下,计算机科学已经是驾驶舱的日常,单纯的操作技能已经远不能代表飞行水平的高低.飞行品质已然数据化,保存在快速存储系统QAR ...
Python贝叶斯回归分析住房负担能力数据集

原文链接:http://tecdat.cn/?p=11664 我想研究如何使用pymc3在贝叶斯框架内进行线性回归.根据从数据中学到的知识进行推断. 贝叶斯规则是什么? 本质上,我们必须将已经知道的知 ...
使用python的seaborn绘制折线图与柱状图的组合图

前言代码结果前言今天入职,小组长给我们布置了数据可视化的作业,让大家浏览一个可视化系统,然后找到三个结论,其实很简单,但是自己又拓展一点.然后需要画一个折线图与柱状图的组合图,下面是我的代码和 ...
【每周一坑】单词本 +【解答】三国演义中谁的存在感最强

"每周一坑"这个系列在本教室的文章中,阅读量不算高.但我屡次在和读者沟通时听到说"我都有跟着每周一坑里的题在做".这是个有意思的普遍现象:内容的价值和传播度并不 ...
三国演义中张飞的战斗力为何那么强？第一靠的是猛，第二主要靠吼

三国演义中张飞的战斗力就好像打了鸡血一样,始终处于爆表状态.因此我们又称他为"猛张飞",张飞不论与谁单挑始终没有处于过下风的时候.即使张飞与三国武力排名第一的吕布单挑,也没有败过阵 ...
【每周一坑】暴力计算圆周率 +【解答】生成/识别二维码

我们之前有出过一些和概率相关的问题.比如几道有趣的概率题.三门问题.田忌赛马.蜥蜴流感与贝叶斯定理.我讲过,用计算机程序来解编程题有个很有意思的思路,就是暴力解法.就是利用电脑的计算能力,去模拟大量 ...
三国演义中武艺排名前十的猛将，张飞能打败几个，结局会如何

三国演义中武艺靠前的武将,基本来自于三国二十四名将,如果从其中选出排名前十的猛将,并且不算张飞的话,应该是这样的: 吕布.赵云.关羽.马超.典韦.许褚.黄忠.庞德.颜良.文丑. 排名的依据为综合武艺, ...
以武艺划分，三国演义中哪些武将是一流水平，哪些是二三四流水平

以武艺为标准,整个三国演义中的全部武将可以划分为五个等级,分别是一流水平.二流水平.三流水平.四流水平.五流水平,五个等级之间的区别主要是看武艺,相近或者相差不大的位于同一等级. 一流水平:13位 1 ...
三国演义中单挑从未输过的猛将有谁，蜀汉6人，东吴4人，曹魏2人

都说胜败乃兵家常事,在战场上打了败仗其实并不丢人,只要能保住性命,就能"留得青山在.不怕没柴烧",而在三国演义中,单挑可以说最精彩的打斗了,当然这个只存在小说三国演义中,如果能在单 ...
沈梦辰时尚感太强，穿几何图案闪光V领裙，甜美中带着一点小性感

沈梦辰的穿搭风格很是高调,经常为了展露性感身材而运用个性的服装.最近沈梦辰就穿了一款亮片连衣裙,民族风的色块拼接在一起耀眼又魅惑,并且这款服装运用了深V的设计,长长的项链直达胸口,性感的同时也增加了吸 ...
三国演义中，不能结交的6个人

三国演义中,不能结交的6个人一.许攸,本是袁绍帐下谋士,他的家人犯了过错,因为袁绍早处置.许攸主动投靠曹操,献计剿除袁绍粮草,帮助曹操平定冀州. 此人品行不端,不能结交. 二.蒋干,周瑜的同窗,在 ...
以单挑成绩来看，三国演义中张飞能排第几，能否力压吕布排第一

三国演义中最精彩的就是单挑,基本每一场战争都以单挑开始,单挑能证明一个武将的武艺与实力,也涉及到武艺的排名,单挑成绩主要看两点: 1.斩将数量. 斩将数量就是看你跟多少武将有过单挑,一般来说,单挑的将 ...

【每周一坑】三国演义中谁的存在感最强 +【解答】暴力计算圆周率

相关推荐