當前位置：首頁 » 編程語言 » python詞頻分析

python詞頻分析

發布時間: 2021-03-11 14:23:30

A. 求看python 統計中文詞頻的代碼，有一個地方不懂求大神

首先要說復明一個概念：gbk編碼里一個中制文字元的『長度』是2。

str='中國'#gbk編碼

要取得'中'這個字元，需要用分片str[0:2],而不是索引str[0]。

以z4為例，下面這些代碼的效果是這樣的。
x='同舟共濟與時俱進艱苦奮斗'
i+=z4.findall(x)#返回['同舟共濟'，'與時俱進','艱苦奮斗']
i+=z4.findall(x[2:])#返回['舟共濟與','時俱進艱']
i+=z4.findall(x[4:])#返回['共濟與時','俱進艱苦']
i+=z4.findall(x[6:])#返回['濟與時俱','進艱苦奮']

目的是取得所有連續4字中文字元串。

B. python里如何快速統計詞頻現在有個文件 data.txt 裡面有1萬多行每行都

1. N^2時間復雜度是怎麼算出來的？N指什麼？
2. 對於多位數，比如 76，我們把它當做兩個數字 7 和 6 這樣來統計詞頻？

C. python詞頻分析關鍵詞頻數與word檢索的結果不一致

測下下面的代碼看顯示多少
words = jieba.lcut(txt)
#把你後面的代碼全部暫時注釋
from collections import Counter
ct = Counter(words)
print(ct['發展'])

D. Python詞頻統計問題

#下載一文到words.txt，內容為（stumldsmlstustueezkzwxjZkzWxj）

File="words.txt"
number_list=[]
withopen(File)asf:
forlineinf:
number_list.extend(str(i)foriinline.split())
foriteminset(number_list):
L=[item,number_list.index(item),number_list.count(item)]
print(L)#單詞首次出現的位置詞頻
withopen('Q1.txt','a')asF:
F.writelines(str(L))

E. python 字典中的詞頻統計之後如何將頻數大於一個數字的詞的數量統計出來

v={}
for i in dic:
if dic[i]>14:
#print(i,dic[i])
v[i]=dic[i]
print(len(v))

F. python問題，我運用python做中文詞頻分析的時候總是顯示UnicodeDecodeError: 'utf-8'問題

出現原因：文件不是 UTF8 編碼的，而系統默認採用 UTF8 解碼。
解決方法是改為對應的解碼方式。
解決辦法：
「文件–》另存為」，可以看到文件的默認編碼格式為ANSI，改為編碼格式UTF8，保存

G. 如何用python對文章中文分詞並統計詞頻

1、全局變數在函數中使用時需要加入global聲明
2、獲取網頁內容存入文件時的編碼為ascii進行正則匹配時需要decode為GB2312，當匹配到的中文寫入文件時需要encode成GB2312寫入文件。
3、中文字元匹配過濾正則表達式為ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字元存入分組
4、KEY，Value值可以使用dict存儲，排序後可以使用list存儲
5、字元串處理使用split分割，然後使用index截取字元串，判斷哪些是名詞和動詞
6、命令行使用需要導入os,os.system(cmd)

H. Python 分詞後詞頻統計


out_one=re.compile(r'(.*?)00',re.S)

out_one_re=re.findall(self.out_one,i)


a={}
forjinout_one_re:
a[j]=out_one_re.count(j)


使用字典屬性，內容唯一來進行統計。出來的包括內容和次數。

I. 如何用python和jieba分詞，統計詞頻

#!python3
#-*-coding:utf-8-*-
importos,codecs
importjieba
fromcollectionsimportCounter

defget_words(txt):
seg_list=jieba.cut(txt)
c=Counter()
forxinseg_list:
iflen(x)>1andx!='
':
c[x]+=1
print('常用詞頻度統計版結果權')
for(k,v)inc.most_common(100):
print('%s%s%s%d'%(''*(5-len(k)),k,'*'*int(v/3),v))

if__name__=='__main__':
withcodecs.open('19d.txt','r','utf8')asf:
txt=f.read()
get_words(txt)

J. 用Python統計詞頻

def statistics(astr):
# astr.replace("\n", "")
slist = list(astr.split("\t"))
alist = []
[alist.append(i) for i in slist if i not in alist]
alist[-1] = alist[-1].replace("\n", "")
return alist

if __name__ == "__main__":
code_doc = {}
with open("test_data.txt", "r", encoding='utf-8') as fs:
for ln in fs.readlines():
l = statistics(ln)
for t in l:
if t not in code_doc:
code_doc.setdefault(t, 1)
else:
code_doc[t] += 1

for keys in code_doc.keys():
print(keys + ' ' + str(code_doc[keys]))

閱讀全文

python詞頻分析

與python詞頻分析相關的閱讀推薦