當前位置：首頁 » 編程語言 » python中文識別

python中文識別

發布時間: 2021-03-16 17:49:47

1. python 或c++ 中文命名實體識別開源工具有哪些

一、NLTK進行分詞

用到的函數：

nltk.sent_tokenize(text) #對文本按照句子進行分割

nltk.word_tokenize(sent) #對句子進行分詞

二、NLTK進行詞內性標注

用到的函數：容

nltk.pos_tag(tokens)#tokens是句子分詞後的結果，同樣是句子級的標注

三、NLTK進行命名實體識別（NER）

用到的函數：

nltk.ne_chunk(tags)#tags是句子詞性標注後的結果，同樣是句子級

上例中，有兩個命名實體，一個是Xi,這個應該是PER，被錯誤識別為GPE了；另一個事China，被正確識別為GPE。

四、句法分析

nltk沒有好的parser，推薦使用stanfordparser

但是nltk有很好的樹類，該類用list實現

可以利用stanfordparser的輸出構建一棵python的句法樹

2. python2中為什麼交互界面可以識別中文，而文件無法識別

Python中的字元串的大概分為為str和Unicode兩種形式，其中str常用的編碼類型為utf-8,gb2312,gbk等等，Python使用Unicode作為編碼的基礎類型。str記錄的是位元組數組，只是某種編碼的存儲格式，終於輸出到文件或是列印出來是什麼格式，完全取決於其解碼的編碼將他解碼成什麼樣子；Unicode是一種類似於符號集的抽象編碼，它只規定了符號的二進制代碼，卻沒有規定這個二進制代碼該如何存儲，也就是它只是一種內部表示，不能直接保存，所以存儲時需要規定一種存儲形式，比如utf-8等。
Python中有編碼轉換的函數有：
decode(char_set) 實現char_set解碼成Unicodeencode(char_set) 實現Unicode編碼成char_set

查看Python文檔會發現：
open(filename, 'w')這個方法中，filename這個參數必須是Unicode編碼的參數。
我之前加上#-*-coding:utf-8-*-將編碼設置為utf-8，當調用這個方法往裡傳參數時，需要將這個變數filename解碼成Unicode。
比如filename='中文.txt'，使用open()時，這樣寫open(filename.decode('utf-8'), 'w'),這樣創建的中文文件名就沒有亂碼問題了。

3. 對於一個學完python編程基礎知識想做出一個手寫漢字識別的項目出來,需要學習什麼

對於漢字識別你可以考慮一下 aip
pip install -aip
每人每天有500次識別的機會。

4. python在utf-8下怎麼識別中文

GBK: 漢字國標擴展碼,基本上採用了原來GB2312-80所有的漢字及碼位，並涵蓋了原版Unicode中所有的漢字20902，總共權收錄了883個符號， 21003個漢字及提供了1894個造字碼位。 Microsoft簡體版中文Windows 95就是以GBK為內碼，又由於GBK同時也涵蓋了Unicode所有CJK漢字，所以也可以和Unicode做一一對應。

5. python怎樣讀取文本文件里的中文

#在Windows 環境下
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import re
fin = open('in.txt', 'r') #以讀的方式打開輸入文件
for eachLine in fin: #按行讀入文件內容
line = eachLine.strip().decode('gbk', 'utf-8') #處理前進行相關的處理，包括轉換成Unicode等
print line #列印原始字元
p2 = re.compile(ur'[^\u4e00-\u9fa5]') #中文的編碼范圍是：\u4e00到\u9fa5
zh = "".join(p2.split(line)).strip()
#zh = ",".join(zh.split())
print zh ##列印中文字元

6. python怎麼識別csv中的中文

Python | 多種編碼文件（中文）亂碼問題解決
http://jingyan..com/article/425e69e6e111a1be15fc1609.html

7. windows下如何讓python識別中文

在你的py文件首行加一句 #-*- coding: utf-8 -*-

8. python 讀取的中文怎麼使用

file = open('filename.txt','r')
text = file.read() #讀取所有文字
text = file.readline() #讀取一行文字
text = file.readlinse() #把每一行變成list的一個元素
如果需要里專面中文的話，用正則匹配屬

9. 怎麼讀取中文字元 python

中文編碼一般為gbk或者utf8，在程序最前面寫上批註
# -*- coding:utf-8 -*-
或者
# -*- coding:gbk -*-
就好了

10. 在pycharm學python 怎麼識別漢子

PyCharm配置
PyCharm默認Python腳本編碼是UTF-8，我們將其設置為GBK：
進入file>setting，在輸入框搜索encoding

保存設置並重啟PyCharm，這樣默認編碼就生效了，可在右下角查看

END
Python 2
筆者使用的Python版本是2.7.11。Python 2 的中文支持需要做兩件事：
①在代碼前端增加代碼：# -*-coding:gbk-*-
②在中文前加u前綴，如：u"你好"

運行代碼，檢查是否已成功支持中文字元

END
Python 3
筆者使用的Python版本是3.5.1。Python 3 的中文支持只需要做一件事即可：
①在代碼前端增加代碼：# -*-coding:gbk-*-

閱讀全文

python中文識別

與python中文識別相關的閱讀推薦