30万篇作文分层的文本特征
30万篇作文分层的文本特征
渐新堂
有了现代网络技术真好。
30万篇作文的文本特征,可以很快统计出来,让语文教师分享,让诸位同行在学生作文的认知上得到提升。
根据扫描观察识别统计,得到如下七组数据。
如果分为ABCDEFG七等,每等权重相同,也就是等距离统计,得到了以下一些有趣的数字。
一 总字数,也就是每篇文章的长度。
A级 850.78 B级 826.75 C级 820.21 D级 779.67
E级 637.16 F级 468.02 G级 31.32
如果是60分的满分 其对应的等级应该是 每8.5714位等距边界,A级即51.4——60 G级即8.5714——0分。A级的作文篇幅平均为850多字,而G级则平均不到32字。
二 单字使用量
A级 290.34 B级 272.51 C级 268.11 D级 261.03
E级 218.51 F级 168.19 G级 11.41
这涉及到平时的文化以及文字的积累,不是短时间内能够突击出来的。
三 词语使用量
A级 546.33 B级 530.25 C级 529.80 D级 512.46
E级 424.93 F级 308.19 G级 20.23
词语使用,说明现代汉语词的切分,已经不是障碍。当然,也不知道其设计者所说的词,具体所指的是什么,词汇,含不含词类,以及词汇学包括的不少小类。
四 标点符号使用量
A级 47.36 B级 48.91 C级 49.70 D级 48.71
E级 4.084 F级 28.61 G级 1.73
标点符号是语言表达是否有规范习惯的问题,既涉及标号,也包括句中句末的点号,还包括了语词及语句的其他意义。
五 段落数量
A级 11.10 B级 10.16 C级 9.87 D级 9.83
E级 8.75 F级 6.26 G级 0.42
段落数量在一点程度上表达出了写作者的思考群落以及思维与情绪转换的节奏,包括独句段的使用。
六 句子数量
A级 13.31 B级 12.14 C级 11.88 D级 12.23
E级 10.77 F级 7.22 G级 0.48
句子数量与篇幅长短有关,与表意单位的多少有关,也与思维的严谨有关。
七 古诗词成语使用量
A级 7.04 B级 7.24 C级 6.59 D级 4.76
E级 3.26 F级 3.15 G级 0.25
这是对传统文化以及现代语言的吸纳内化及运用的指标之一。
当然,积累的东西多了,时间久了,还可以得到更多的认知。也许,这些维度不完全,不完全科学,有待以后不断调整增删,但是,观察思考之后,难道没有给我们新的思考吗?