一、简介
本文介绍了如何使用python
中的docx
包统计.docx
文档中的字符数、字数。
二、方法
1. 统计单个文档中的字符数
#!/usr/bin/env python3
import docx
character_cnt = 0
document_file_path = "./input.docx"
doc = docx.Document(document_file_path) # 打开 word 文档
for para in doc.paragraphs: # 遍历 word 文档的所有段落
character_cnt += len(para.text) # para.text 为某段落的所有字符,len 即为段落字符数量
print("总字符数为:", character_cnt)
2.统计单个文档中的单词数
#!/usr/bin/env python3
import docx
word_cnt = 0
document_file_path = "./input.docx"
doc = docx.Document(document_file_path) # 打开 word 文档
for para in doc.paragraphs: # 遍历 word 文档的所有段落
words = para.text.split() # 根据空格分割单词
word_cnt += len(words)
print("总单词数为:", word_cnt)
3.统计当前目录下所有文档中的字符数、字数
#!/usr/bin/env python3
import os
import docx
path = './' # word文档文件夹路径
word_list = os.listdir(path) # 获取文件夹下的文件列表
for i in word_list:
if i.endswith(".docx"):
character_cnt = 0
word_cnt = 0
doc = docx.Document(path + '{}'.format(i)) # 打开每一个 word 文档
for para in doc.paragraphs: # 遍历某一个 word 文档的所有段落
character_cnt+= len(para.text) # para.text 为某段落的所有字符,len 即为段落字符数量
for para in doc.paragraphs:
words = para.text.split() # 根据空格分割单词
word_cnt += len(words)
print("文档:", i)
print("总字符数为:", character_cnt)
print("总单词数为:", word_cnt)
三、参考
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)