第7章-1 词频统计 (30分)【Python版本】-白红宇

第7章-1 词频统计 (30分)【Python版本】

阅读量：193 次

发布时间：2019-02-28

本文共 1214 字，大约阅读时间需要 4 分钟。

为了解决这个问题，我们需要编写一个Python程序来统计一段英文文本中的所有不同单词，并找出词频最大的前10%的单词。以下是详细的解决方案。

方法思路

读取输入：首先读取用户输入的文本，并去掉末尾的#符号。

预处理文本：将所有非法字符替换为空格，然后将文本转换为小写字母。

分割单词：将处理后的文本按空格分割成单词列表。

截断单词：对超过15个字符的单词进行截断，只保留前15个字符。

统计单词频率：使用字典记录每个单词的出现次数。

排序单词：根据单词频率和字典序对单词进行排序。

输出结果：输出所有不同单词的总数，随后输出词频最大的前10%的单词。

解决代码

import systext = sys.stdin.read().strip('#')# 替换非法字符为空格，并将所有字符转换为小写processed = []for c in text:    if c.isalnum() or c == '_':        processed.append(c.lower())    else:        processed.append(' ')text = ''.join(processed).strip()# 分割单词words = text.split()# 截断超过15个字符的单词for i in range(len(words)):    if len(words[i]) > 15:        words[i] = words[i][:15]# 统计单词频率word_counts = {}for word in words:    word_counts[word] = word_counts.get(word, 0) + 1# 按词频降序和字典序升序排序sorted_words = sorted(word_counts.items(), key=lambda x: (-x[1], x[0]))# 输出结果print(len(sorted_words))num_to_output = int(len(sorted_words) / 10)for i in range(num_to_output):    print(f"{sorted_words[i][1]}:{sorted_words[i][0]}")

代码解释

读取输入：使用sys.stdin.read()读取所有输入内容，并去掉末尾的#符号。

预处理文本：遍历每个字符，保留字母、数字和下划线，将其转换为小写，其他字符替换为空格。

分割单词：将预处理后的文本按空格分割成单词列表。

截断单词：检查每个单词的长度，如果超过15个字符，则截断为前15个字符。

统计单词频率：使用字典记录每个单词的出现次数。

排序单词：根据频率降序和字典序升序对单词进行排序。

输出结果：输出所有单词的数量，随后输出前10%的高频单词及其频率。

转载地址：http://dbii.baihongyu.com/

你可能感兴趣的文章

Objective-C实现linear search线性搜索算法(附完整源码)

Objective-C实现Linear search线性搜索算法（附完整源码）

Objective-C实现LinearSieve线性素数筛选算法（附完整源码）

Objective-C实现LinkedListNode链表节点类算法（附完整源码）

Objective-C实现LinkedList链表算法（附完整源码）

Objective-C实现local weighted learning局部加权学习算法(附完整源码)

Objective-C实现logistic regression逻辑回归算法(附完整源码)

Objective-C实现logistic sigmoid函数（附完整源码）

Objective-C实现longest Common Substring最长公共子串算法（附完整源码）

Objective-C实现longest increasing subsequence最长递增子序列算法(附完整源码)

Objective-C实现longestCommonSubsequence最长公共子序列算法（附完整源码）

Objective-C实现LongestIncreasingSubsequence最长递增子序列算法（附完整源码）

Objective-C实现lorenz transformation 洛伦兹变换算法(附完整源码)

Objective-C实现Lower-Upper Decomposition上下分解算法(附完整源码)

Objective-C实现LowerCaseConversion小写转换算法（附完整源码）

Objective-C实现lowest common ancestor最低共同祖先算法(附完整源码)

Objective-C实现LRU 缓存算法（附完整源码）

Objective-C实现LRU缓存(附完整源码)

Objective-C实现LRU（least recently used）算法(附完整源码)

Objective-C实现lstm prediction预测算法(附完整源码)