1. python 或c++ 中文命名实体识别开源工具有哪些

一、NLTK进行分词

用到的函数:

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词

二、NLTK进行词内性标注

用到的函数:容

nltk.pos_tag(tokens)#tokens是句子分词后的结果,同样是句子级的标注

三、NLTK进行命名实体识别(NER)

用到的函数:

nltk.ne_chunk(tags)#tags是句子词性标注后的结果,同样是句子级

上例中,有两个命名实体,一个是Xi,这个应该是PER,被错误识别为GPE了; 另一个事China,被正确识别为GPE。

四、句法分析

nltk没有好的parser,推荐使用stanfordparser

但是nltk有很好的树类,该类用list实现

可以利用stanfordparser的输出构建一棵python的句法树

2. python2中为什么交互界面可以识别中文,而文件无法识别

Python中的字符串的大概分为为str和Unicode两种形式,其中str常用的编码类型为utf-8,gb2312,gbk等等,Python使用Unicode作为编码的基础类型。str记录的是字节数组,只是某种编码的存储格式,终于输出到文件或是打印出来是什么格式,完全取决于其解码的编码将他解码成什么样子;Unicode是一种类似于符号集的抽象编码,它只规定了符号的二进制代码,却没有规定这个二进制代码该如何存储,也就是它只是一种内部表示,不能直接保存,所以存储时需要规定一种存储形式,比如utf-8等。
Python中有编码转换的函数有:
decode(char_set) 实现char_set解码成Unicodeencode(char_set) 实现Unicode编码成char_set

查看Python文档会发现:
open(filename, 'w')这个方法中,filename这个参数必须是Unicode编码的参数。
我之前加上#-*-coding:utf-8-*-将编码设置为utf-8,当调用这个方法往里传参数时,需要将这个变量filename解码成Unicode。
比如filename='中文.txt',使用open()时,这样写open(filename.decode('utf-8'), 'w'),这样创建的中文文件名就没有乱码问题了。

3. 对于一个学完python编程基础知识想做出一个手写汉字识别的项目出来,需要学习什么

对于汉字识别你可以考虑一下 aip
pip install -aip
每人每天有500次识别的机会。

4. python在utf-8下怎么识别中文

GBK: 汉字国标扩展码,基本上采用了原来GB2312-80所有的汉字及码位,并涵盖了原版Unicode中所有的汉字20902,总共权收录了883个符号, 21003个汉字及提供了1894个造字码位。 Microsoft简体版中文Windows 95就是以GBK为内码,又由于GBK同时也涵盖了Unicode所有CJK汉字,所以也可以和Unicode做一一对应。

5. python怎样读取文本文件里的中文

#在Windows 环境下
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import re
fin = open('in.txt', 'r') #以读的方式打开输入文件
for eachLine in fin: #按行读入文件内容
line = eachLine.strip().decode('gbk', 'utf-8') #处理前进行相关的处理,包括转换成Unicode等
print line #打印原始字符
p2 = re.compile(ur'[^\u4e00-\u9fa5]') #中文的编码范围是:\u4e00到\u9fa5
zh = "".join(p2.split(line)).strip()
#zh = ",".join(zh.split())
print zh ##打印中文字符

6. python怎么识别csv中的中文

Python | 多种编码文件(中文)乱码问题解决
http://jingyan..com/article/425e69e6e111a1be15fc1609.html

7. windows下如何让python识别中文

在你的py文件首行加一句 #-*- coding: utf-8 -*-

8. python 读取的中文怎么使用

file = open('filename.txt','r')
text = file.read() #读取所有文字
text = file.readline() #读取一行文字
text = file.readlinse() #把每一行变成list的一个元素
如果需要里专面中文的话,用正则匹配属

9. 怎么读取中文字符 python

中文编码一般为gbk或者utf8,在程序最前面写上批注
# -*- coding:utf-8 -*-
或者
# -*- coding:gbk -*-
就好了

10. 在pycharm学python 怎么识别汉子

PyCharm配置
PyCharm默认Python脚本编码是UTF-8,我们将其设置为GBK:
进入file>setting,在输入框搜索encoding

保存设置并重启PyCharm,这样默认编码就生效了,可在右下角查看

END
Python 2
笔者使用的Python版本是2.7.11。Python 2 的中文支持需要做两件事:
①在代码前端增加代码:# -*-coding:gbk-*-
②在中文前加u前缀,如:u"你好"

运行代码,检查是否已成功支持中文字符

END
Python 3
笔者使用的Python版本是3.5.1。Python 3 的中文支持只需要做一件事即可:
①在代码前端增加代码:# -*-coding:gbk-*-