当前位置：首页 » 编程语言 » python中文识别

python中文识别

发布时间: 2021-03-16 17:49:47

1. python 或c++ 中文命名实体识别开源工具有哪些

一、NLTK进行分词

用到的函数：

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词

二、NLTK进行词内性标注

用到的函数：容

nltk.pos_tag(tokens)#tokens是句子分词后的结果，同样是句子级的标注

三、NLTK进行命名实体识别（NER）

用到的函数：

nltk.ne_chunk(tags)#tags是句子词性标注后的结果，同样是句子级

上例中，有两个命名实体，一个是Xi,这个应该是PER，被错误识别为GPE了；另一个事China，被正确识别为GPE。

四、句法分析

nltk没有好的parser，推荐使用stanfordparser

但是nltk有很好的树类，该类用list实现

可以利用stanfordparser的输出构建一棵python的句法树

2. python2中为什么交互界面可以识别中文，而文件无法识别

Python中的字符串的大概分为为str和Unicode两种形式，其中str常用的编码类型为utf-8,gb2312,gbk等等，Python使用Unicode作为编码的基础类型。str记录的是字节数组，只是某种编码的存储格式，终于输出到文件或是打印出来是什么格式，完全取决于其解码的编码将他解码成什么样子；Unicode是一种类似于符号集的抽象编码，它只规定了符号的二进制代码，却没有规定这个二进制代码该如何存储，也就是它只是一种内部表示，不能直接保存，所以存储时需要规定一种存储形式，比如utf-8等。
Python中有编码转换的函数有：
decode(char_set) 实现char_set解码成Unicodeencode(char_set) 实现Unicode编码成char_set

查看Python文档会发现：
open(filename, 'w')这个方法中，filename这个参数必须是Unicode编码的参数。
我之前加上#-*-coding:utf-8-*-将编码设置为utf-8，当调用这个方法往里传参数时，需要将这个变量filename解码成Unicode。
比如filename='中文.txt'，使用open()时，这样写open(filename.decode('utf-8'), 'w'),这样创建的中文文件名就没有乱码问题了。

3. 对于一个学完python编程基础知识想做出一个手写汉字识别的项目出来,需要学习什么

对于汉字识别你可以考虑一下 aip
pip install -aip
每人每天有500次识别的机会。

4. python在utf-8下怎么识别中文

GBK: 汉字国标扩展码,基本上采用了原来GB2312-80所有的汉字及码位，并涵盖了原版Unicode中所有的汉字20902，总共权收录了883个符号， 21003个汉字及提供了1894个造字码位。 Microsoft简体版中文Windows 95就是以GBK为内码，又由于GBK同时也涵盖了Unicode所有CJK汉字，所以也可以和Unicode做一一对应。

5. python怎样读取文本文件里的中文

#在Windows 环境下
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import re
fin = open('in.txt', 'r') #以读的方式打开输入文件
for eachLine in fin: #按行读入文件内容
line = eachLine.strip().decode('gbk', 'utf-8') #处理前进行相关的处理，包括转换成Unicode等
print line #打印原始字符
p2 = re.compile(ur'[^\u4e00-\u9fa5]') #中文的编码范围是：\u4e00到\u9fa5
zh = "".join(p2.split(line)).strip()
#zh = ",".join(zh.split())
print zh ##打印中文字符

6. python怎么识别csv中的中文

Python | 多种编码文件（中文）乱码问题解决
http://jingyan..com/article/425e69e6e111a1be15fc1609.html

7. windows下如何让python识别中文

在你的py文件首行加一句 #-*- coding: utf-8 -*-

8. python 读取的中文怎么使用

file = open('filename.txt','r')
text = file.read() #读取所有文字
text = file.readline() #读取一行文字
text = file.readlinse() #把每一行变成list的一个元素
如果需要里专面中文的话，用正则匹配属

9. 怎么读取中文字符 python

中文编码一般为gbk或者utf8，在程序最前面写上批注
# -*- coding:utf-8 -*-
或者
# -*- coding:gbk -*-
就好了

10. 在pycharm学python 怎么识别汉子

PyCharm配置
PyCharm默认Python脚本编码是UTF-8，我们将其设置为GBK：
进入file>setting，在输入框搜索encoding

保存设置并重启PyCharm，这样默认编码就生效了，可在右下角查看

END
Python 2
笔者使用的Python版本是2.7.11。Python 2 的中文支持需要做两件事：
①在代码前端增加代码：# -*-coding:gbk-*-
②在中文前加u前缀，如：u"你好"

运行代码，检查是否已成功支持中文字符

END
Python 3
笔者使用的Python版本是3.5.1。Python 3 的中文支持只需要做一件事即可：
①在代码前端增加代码：# -*-coding:gbk-*-

阅读全文

python中文识别

与python中文识别相关的阅读推荐