当前位置：首页 » 编程语言 » python正则表达式汉字

python正则表达式汉字

发布时间: 2021-03-12 10:24:50

1. python正则表达式中要匹配汉字怎么弄

line = "000我是中国人111"
# matchMe = re.match("^[\u4e00-\u9fa5]+")
matchObj = re.match(r'.*([\u4e00-\u9fa5]+).*', line, re.L)
if matchObj:
print "matchObj.group() : ", matchObj.group()
print "matchObj.group(1) : ", matchObj.group(1)
print "matchObj.group(2) : ", matchObj.group(2)

else:
print "No match!!"

2. Python怎么通过正则表达式提取汉字

python有很多网页解析的包啊，BeautifulSoup,lxml之类的都很好用，犯不着正则

举个栗子：

frombs4importBeautifulSoup
text='<h1class="title">.....</h1>'
soup=BeautifulSoup(text)
printsoup.text

3. python正则表达式怎么匹配中文

#!/usr/bin/envpython
#_*_coding:utf-8_*_
a="中文"
printa

输出
中文

前面加上

#_*_ coding: utf-8_*_

4. Python 求正则表达式匹配中文

#coding=utf-8

importre


string=u"""<代码>书名1【精装版】<代码>
<代码>书名2【豪华版版】<代码>
<代码>书名3<代码>"""

fresult=re.findall(u">(.*?)[【|<]",string)


foriteminfresult:
printitem.encode("utf-8")

5. Python用正则表达式截取中文

你可以取反，先把能找到的比如数字或者字母匹配出来，剩下的就是汉字了了比如\d\.\d+(汉字)。这样你利用分组就能知道里面的汉字是什么了。

6. python中如何用正则表达式匹配汉字

name = re.search(r'导演: (.*?) 主演:.*? '.encode('utf-8'),text,re.S).group(1)

7. python的re，正则表达式，可以用中文么

解决了>>>
a='中文'>>>
a'\xd6\xd0\xce\xc4'>>>
import
re>>>
mytestre=re.compile('\xd6\xd0\xce\xc4')>>>
b='中文asdf223中文ss'>>>
mytestre.sub('zw',b)'zwasdf223zwss'>>>复制代码关键是要找到中文相应coding对应的编码，这里中文='\xd6\xd0\xce\xc4'所以，就用\xd6\xd0\xce\xc4代替中文就可以了，如果是其他编码，也用类似的方法找到编码的字符串就可以了，没测试过，应该是这样的。哈哈。:mrgreen:

8. python 中正则表达式怎么匹配中文

([A-Za-z0-9_]+)\s*=.*中国.*
group(1)就是 s1

9. python怎么用正则表达式提取中文

1、字符串line='ufeffD0002044x01大数据x01数据分析x01技术x01工具x01应用 '
想提取出其中的“大数据”，“数据分析”，“技术”，“工具”，“应用”这些中文，用了正则表达式：
>>>pat2='x01(.*?)'
>>>rs=re.compile(pat2).findall(line)
>>>print(rs)
['','','','','']
显示的结果是空，请问如何才能正确的提出中文部分。

2、原文：法规名称:'《中华人民共和国合同法》',Items:[{法条名称:'第五十二条'
匹配成：《中华人民共和国合同法》第五十二条
(?<=法规名称:').*?（',Items:[{法条名称:'）.*?(?=') 请问这样匹配哪里错了？Python报sre_constants.error: unterminated character set at position 22

3、Python re正则匹配中文，其实非常简单，把中文的unicode字符串转换成utf-8格式就可以了，然后可以在re中随意调用
unicode中中文的编码为/u4e00-/u9fa5，因此正则表达式u”[u4e00-u9fa5]+”可以表示一个或者多个中文字符
>>> import re
>>> s='中文：123456aa哈哈哈bbcc'.decode('utf8')
>>> s
u''
>>> print s
中文：123456aa哈哈哈bbcc 。

10. python正则表达式中\w居然能匹配汉字，请问是怎么一回事

\w匹配的是能组成单词的字符，在python3 中re默认支持的是unicode字符集，当然也支持汉字
如果要让\w仅支持英文，加个re.A标志
print(re.findall(r"\w",s,re.A))
这样就不会匹配汉字了

阅读全文

python正则表达式汉字

与python正则表达式汉字相关的阅读推荐