Python读取文件后进行词频统计-CFANZ编程社区

1引言

本文解决由粉丝提出的问题。

Python读取文件后进行词频统计_java

2 问题

我们在使用python函数获取文件后，有时需要对该文件进行词频统计。

本文将通过对英文文件的读取和中文文件的读取进行讲解。

3 方法

一．统计英文文档中的词频

Python读取文件后进行词频统计_人工智能_04

完整代码：

代码清单 1

def getText():	txt = open("C:\\Users\\61483\\Desktop\\EnglishTest.txt","r",encoding='utf-8').read()	txt = txt.lower() #排除单词大小写影响 for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_`{1}~':	txt = txt.replace(ch," ") #排除特殊字符及标点符号的影响 return txt	EnglishTxt = getText()	# print(EnglishTxt) words = EnglishTxt.split()	counts = {} #统计单词出现次数 for word in words:	counts[word] = counts.get(word,0) + 1	items = list(counts.items()) #将字典转换为记录列表 items.sort(key=lambda x:x[1],reverse=True) #进行排序 for i in range(10):	word,count = items[i]	print("{0:<10}{1:>5}".format(word,count)) #从高到低输出出现次数多的前十个单词

二.对中文文档进行词频统计

1.安装python第三方库(pip install jieba)

1.1 jieba库的使用

jieba库简介：

Jieba库分词原理是利用一个中文词库，将待分词内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组。除了分词，jieba库还提供增加自定义中文单词的功能。

代码清单 2

import jieba	txt = open("C:\\Users\\61483\\Desktop\\电脑快捷键.txt","r",encoding='utf-8').read()	words = jieba.lcut(txt)	counts = {}	for word in words:	if len(word) == 1:	continue	else:	counts[word] = counts.get(word,0) + 1	items = list(counts.items())	items.sort(key=lambda x:x[1],reverse=True)	for i in range(15):	word,count = items[i]	print("{0:<10}{1:>5}".format(word,count))