统计文本中单字母、双字母、三字母的频率

2024-08-06 13:03:11

1 前言

这篇文章是对网友在文章的下的提问，做出的解答。

2 问题描述

如何统计文本中单字母、双字母、三字母的频率，考虑单词之间的空格和符号。

3 算法思路

对于统计单字母、双字母、三字母的出现频率：

（1）将文本中单词提取出来（遍历输入的文本，判断当前遍历到的元素是否为字母，若为字母则继续遍历，若不为字母就以此为断点分割出单词）。

注意：在遍历输入的文本时，为保证可以得到所有的单词需要在输入的文本最后加上一个非字母的符号（防止文章最后没有标点符号导致最后一个单词没有被分割出来）。

（2）在遍历输入文本的同时，统计分割出的所有单词数（计算频率时使用），判断该单词是否为单字母、双字母、三字母单词，若是则相应的变量值加1。

（3）在遍历完成后，利用各个变量的值去计算相关类型单词在文本中出现的频率，最后输出即可。

代码清单

统计文本中单字母、双字母、三字母的频率

# 输入文本
str1 = input()
# 和flag和循环中的i组成双指针
flag = 0
# 统计各种单词的数量，用于计算比例
all_word, length1, length2, length3 = 0, 0, 0, 0
# 防止输入文本最后没有标点符号导致最后一个单词没有被算在内
str1 += " "
# 循环分割单词
for i in range(len(str1)):
# i如果字母就跳过
if 65 <= ord(str1[i]) <= 90 or 97 <= ord(str1[i]) <= 122:
continue
# i不是字母就分割
else:
if flag != i:
a = str1[flag:i]
all_word += 1
if len(a) == 1:
length1 += 1
elif len(a) == 2:
length2 += 1
elif len(a) == 3:
length3 += 1
flag = i + 1
print("长度为1单词的比例：", "{:.2f}".format(length1/all_word))
print("长度为2单词的比例：", "{:.2f}".format(length2/all_word))
print("长度为3单词的比例：", "{:.2f}".format(length3/all_word))

实习编辑：李欣容

稿件来源：深度学习与文旅应用实验室（DLETA）

赞 (0)

原生JS内置对象的字符串操作习题

(一)获取字符串长度 console.log(str.length); // 33 (二)取出指定位置的字符,如:0,3,5,9等 console.log(str[0], str[3], str[5] ...
前端程序员学好算法系列（九）递归回溯算法

回溯算法主要应用于树形问题,我们先从一个简单的算法入手 17. 电话号码的字母组合给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合. 给出数字到字母的映射如下(与电话按键相同).注意 ...
VBA实战技巧36：比较两组数据并高亮显示不匹配的字母或单词

excelperfect 引言:本文学习整理自chandoo.org的文章<Compare 2 sets of databy letter or word & highlight mis ...
「八大排序算法」16张图带你搞懂基数排序

前言在排序算法中,大家可能对桶排序.计数排序.基数排序不太了解,不太清楚其算法地思想和流程,也可能看过会过但是很快就忘记了,但是不要紧,幸运的是你看到了本篇文章.本文将通俗易懂的给你讲解基数排序. ...
英语单词中哪个字母的使用频率最高呢？

摩斯密码的发明人Samuel Morse (1791-1872)为了发明一套通讯密码,就得知道到底哪些字母是使用频率最高的,这样的话,他就可以把最简单的密码用在使用频率最高的字母上.为此,他只能手工去 ...
小学英语学习方法有哪些，现在分词变化双写尾字母的

同学们好,我是林老师,欢迎大家和老师一起轻松有趣学语法. 什么是现在进行时?它表示正在进行或者正在做的事.句型为:主语+be+动词ing形式. 现在分词变化形式通常加ing,但变化有几种形式,不同的动 ...
C语言中的“三字母词”坑了工程师

某软件工程师接盘了前同事的项目,进度一拖再拖,最后发现问题出现在如下代码: // 注释语句 ??/2a = b+c; 请注意代码中的"??/",就是这注释隐藏的很深,让项目一拖再拖 ...
“生快”是我最不能容忍的缩略词（网上最全的三字母缩略词）！

引言英文中有一些较长的单词,平时使用时,为了简便,采取了缩略形式: 今天小结一下三个字母的缩略词,这里不包括首字母缩略词(initialism 和 acronym),如 WTO, BBC, VIP, ...
算法创作|寻找比目标字母大的最小字母问题解决方法

问题描述给你一个排序后的字符列表 letters ,列表中只包含小写英文字母.另给出一个目标字母 target,请你寻找在这一有序列表里比目标字母大的最小字母.在比较时,字母是依序循环出现的.举个例子 ...
浙江考古发掘一批字母，比国外字母早千余年：西方字母源自中国？#史前文明#世界未解之谜#科普#考古 #...

浙江考古发掘一批字母，比国外字母早千余年：西方字母源自中国？#史前文明#世界未解之谜#科普#考古 #...
浙江发现一批字母，腓尼基字母比它晚千余年：西方字母源自中国？

自古以来,中国的华夏文明从未断过,在这一片土地上始终有着无数令人惊叹的故事发生,总是带给人们惊喜.从考古方面来看,我们有金沙遗址.三星堆这样令人叹为观止的发现,这一切就如:"女娲炼石补天处, ...
5个元音字母 1个半元音字母发音规律大总结，建议收藏

5个元音字母 1个半元音字母发音规律大总结，建议收藏
JavaScript中将字符串中的字母全部转换为大写字母/小写字母

<script> let str = "Hello World!"; // 将字符串的字符全部转换为小写字符 function lowerCase(str) { let ...
黄埔五年计划敲定！重点发展一岸双轴三片，筹建黄埔大学，高铁城际入区

黄埔五年计划敲定！重点发展一岸双轴三片，筹建黄埔大学，高铁城际入区