python中文識別
1. python 或c++ 中文命名實體識別開源工具有哪些
一、NLTK進行分詞
用到的函數:
nltk.sent_tokenize(text) #對文本按照句子進行分割
nltk.word_tokenize(sent) #對句子進行分詞
二、NLTK進行詞內性標注
用到的函數:容
nltk.pos_tag(tokens)#tokens是句子分詞後的結果,同樣是句子級的標注
三、NLTK進行命名實體識別(NER)
用到的函數:
nltk.ne_chunk(tags)#tags是句子詞性標注後的結果,同樣是句子級
上例中,有兩個命名實體,一個是Xi,這個應該是PER,被錯誤識別為GPE了; 另一個事China,被正確識別為GPE。
四、句法分析
nltk沒有好的parser,推薦使用stanfordparser
但是nltk有很好的樹類,該類用list實現
可以利用stanfordparser的輸出構建一棵python的句法樹
2. python2中為什麼交互界面可以識別中文,而文件無法識別
Python中的字元串的大概分為為str和Unicode兩種形式,其中str常用的編碼類型為utf-8,gb2312,gbk等等,Python使用Unicode作為編碼的基礎類型。str記錄的是位元組數組,只是某種編碼的存儲格式,終於輸出到文件或是列印出來是什麼格式,完全取決於其解碼的編碼將他解碼成什麼樣子;Unicode是一種類似於符號集的抽象編碼,它只規定了符號的二進制代碼,卻沒有規定這個二進制代碼該如何存儲,也就是它只是一種內部表示,不能直接保存,所以存儲時需要規定一種存儲形式,比如utf-8等。
Python中有編碼轉換的函數有:
decode(char_set) 實現char_set解碼成Unicodeencode(char_set) 實現Unicode編碼成char_set
查看Python文檔會發現:
open(filename, 'w')這個方法中,filename這個參數必須是Unicode編碼的參數。
我之前加上#-*-coding:utf-8-*-將編碼設置為utf-8,當調用這個方法往裡傳參數時,需要將這個變數filename解碼成Unicode。
比如filename='中文.txt',使用open()時,這樣寫open(filename.decode('utf-8'), 'w'),這樣創建的中文文件名就沒有亂碼問題了。
3. 對於一個學完python編程基礎知識想做出一個手寫漢字識別的項目出來,需要學習什麼
對於漢字識別你可以考慮一下 aip
pip install -aip
每人每天有500次識別的機會。
4. python在utf-8下怎麼識別中文
GBK: 漢字國標擴展碼,基本上採用了原來GB2312-80所有的漢字及碼位,並涵蓋了原版Unicode中所有的漢字20902,總共權收錄了883個符號, 21003個漢字及提供了1894個造字碼位。 Microsoft簡體版中文Windows 95就是以GBK為內碼,又由於GBK同時也涵蓋了Unicode所有CJK漢字,所以也可以和Unicode做一一對應。
5. python怎樣讀取文本文件里的中文
#在Windows 環境下
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import re
fin = open('in.txt', 'r') #以讀的方式打開輸入文件
for eachLine in fin: #按行讀入文件內容
line = eachLine.strip().decode('gbk', 'utf-8') #處理前進行相關的處理,包括轉換成Unicode等
print line #列印原始字元
p2 = re.compile(ur'[^\u4e00-\u9fa5]') #中文的編碼范圍是:\u4e00到\u9fa5
zh = "".join(p2.split(line)).strip()
#zh = ",".join(zh.split())
print zh ##列印中文字元
6. python怎麼識別csv中的中文
Python | 多種編碼文件(中文)亂碼問題解決
http://jingyan..com/article/425e69e6e111a1be15fc1609.html
7. windows下如何讓python識別中文
在你的py文件首行加一句 #-*- coding: utf-8 -*-
8. python 讀取的中文怎麼使用
file = open('filename.txt','r')
text = file.read() #讀取所有文字
text = file.readline() #讀取一行文字
text = file.readlinse() #把每一行變成list的一個元素
如果需要里專面中文的話,用正則匹配屬
9. 怎麼讀取中文字元 python
中文編碼一般為gbk或者utf8,在程序最前面寫上批註
# -*- coding:utf-8 -*-
或者
# -*- coding:gbk -*-
就好了
10. 在pycharm學python 怎麼識別漢子
PyCharm配置
PyCharm默認Python腳本編碼是UTF-8,我們將其設置為GBK:
進入file>setting,在輸入框搜索encoding
保存設置並重啟PyCharm,這樣默認編碼就生效了,可在右下角查看
END
Python 2
筆者使用的Python版本是2.7.11。Python 2 的中文支持需要做兩件事:
①在代碼前端增加代碼:# -*-coding:gbk-*-
②在中文前加u前綴,如:u"你好"
運行代碼,檢查是否已成功支持中文字元
END
Python 3
筆者使用的Python版本是3.5.1。Python 3 的中文支持只需要做一件事即可:
①在代碼前端增加代碼:# -*-coding:gbk-*-