当前位置：首页 » 编程语言 » python读取乱码文件

python读取乱码文件

发布时间: 2021-03-16 23:25:02

❶ python 用shelve读取.dat文件中文乱码问题

“得到的结果是'xb2xe2xcaxd4,并不是我想要的中文” =》其实，你看到的'xb2xe2xcaxd4‘，版就已经是你想要的中文了。只不过是GBK编码的权，所以显示出来的是'测试'这两个中文字符所对应的GBK编码的内部的值而已
如果你想要显示出中文字符，而非内部值的话，可以，先将其转换为Unicode，就可以看到中文了：
```
decodedName=Database['name'].decode("GBK")
print"decodedName=",decodedName#decodedName=测试
```
注：
1.不要用那个IDLE，不好用，容易让你误解。
2.在直接在cmd下测试即可。
更多的，极其详尽的解释，我专门为你写了教程了。你一看就懂了：
【整理】Python中实际上已经得到了正确的Unicode或某种编码的字符，但是看起来或打印出来却是乱码
（google搜标题即可找到我的帖子了）

❷ python显示乱码

多次被python的编码/乱码问题困扰，相信pythoner们都被困扰过，网上铺天盖地的资料太多也参差不齐，就整理了下。本文从使用的角度系统总结了python编码相关的一些概念，将本文的例子玩一遍，基本上对python的编码问题就清楚了。
首先明确几个概念：
字节流：以utf8/gbk等编码编码的字节流。
unicode对象：python代码中，a=u'中国', 或者a='中国'.decode()的结果。
terminal用于显示字符的编码：将一个用utf8/gbk编码的字节流通过terminal指定的编码，去查找对应的字符显示出来。
locale：linux下，Locale 是软件在运行时的语言环境, 它包括语言(Language), 地域 (Territory) 和字符集(Codeset)。一个locale的书写格式为: 语言[_地域[.字符集]]. 所以说呢，locale总是和一定的字符集相联系的。比如：zh_CN.GB2312
编码转换原则：unicode是”中介”，任何编码之间转换都需要先decode()到unicode。
针对python，先把结论放在前面，三点：
#coding:utf-8 #.py文件是什么编码就需要告诉python用什么编码去读取这个.py文件。
sys.stdout.encoding，默认就是locale的编码，print会用sys.stdout.encoding去encode()成字节流，交给terminal显示。所以locale需要与terminal一致，才能正确print打印出中文。
sys.setdefaultencoding(‘utf8’)，用于指定str.encode() str.decode()的默认编码，默认是ascii。
对编码字符串a，代码中可以直接写a.encode(“gbk”)，但事实上内部自动先通过defaultencoding 去decode成unicode之后再encode()的。
str(xxx)应该也是用这个去编码的。
'ascii' codec can't encode characters in position 7-8: ordinal not in range(128)print的时候出现这个错误一般可以使用这个方案去处理。
为了避免代码中到处都要去encode(“xxx”)，还有可能不同的地方写得不一样带来不一致的情况，推荐使用这个：
import sys
reload(sys)
sys.setdefaultencoding('utf8')
例子1：
在python中，unicode vs 字节流：字节流可以从unicode encode得到，unicode可以从utf8/gbk等编码的字节流decode得到。
分析下面这段代码，终端/locale分别为不同编码的情况：
#coding:utf-8 #由于.py文件是utf-8的，所以必须有这一句
import sys
import locale
import os
import codecs
reload(sys)
print sys.getdefaultencoding() + " - sys.getdefaultencoding()"
sys.setdefaultencoding('utf8') #影响encode()
print sys.getdefaultencoding() + " - sys.getdefaultencoding()"
print sys.stdout.encoding + " - sys.stdout.encoding:"
#sys.stdout = codecs.getwriter('utf8')(sys.stdout) #影响print
print sys.stdout.encoding + " - sys.stdout.encoding:"
u = u'中国'
print u + " - u"
a = '中国'
print a + " - a"
print a.decode('utf-8') + " - a.decode('utf-8')"
print a.decode('utf-8').encode('gbk') + " - a.decode('utf-8').encode('gbk')"
print a.decode('utf-8').encode('utf-8') + " - a.decode('utf-8').encode('utf-8')"
print a.decode('utf-8').encode() + " - a.decode('utf-8').encode()"
print (sys.stdout.encoding) + " - (sys.stdout.encoding)"
print (sys.stdout.isatty())
print (locale.getpreferredencoding())
print (sys.getfilesystemencoding())
—终端为UTF-8，locale为zh_CN.GBK—————–
ascii - sys.getdefaultencoding()
utf8 - sys.getdefaultencoding()
GBK - sys.stdout.encoding:
GBK - sys.stdout.encoding:
?й? - u
中国 - a
?й? - a.decode('utf-8')
?й? - a.decode('utf-8').encode('gbk')
中国 - a.decode('utf-8').encode('utf-8')
中国 - a.decode('utf-8').encode()
GBK - (sys.stdout.encoding)
True
GBK
utf-8
—终端为UTF-8，locale为zh_CN.UTF-8—————–
ascii - sys.getdefaultencoding()
utf8 - sys.getdefaultencoding()
UTF-8 - sys.stdout.encoding:
UTF-8 - sys.stdout.encoding:
中国 - u
中国 - a
中国 - a.decode('utf-8')
?й? - a.decode('utf-8').encode('gbk')
中国 - a.decode('utf-8').encode('utf-8')
中国 - a.decode('utf-8').encode()
UTF-8 - (sys.stdout.encoding)
True
UTF-8
utf-8
—终端为GBK，locale为zh_CN.GBK—————–
ascii - sys.getdefaultencoding()
utf8 - sys.getdefaultencoding()
GBK - sys.stdout.encoding:
GBK - sys.stdout.encoding:
中国 - u
涓???? - a
中国 - a.decode('utf-8')
中国 - a.decode('utf-8').encode('gbk')
涓???? - a.decode('utf-8').encode('utf-8')
涓???? - a.decode('utf-8').encode()
GBK - (sys.stdout.encoding)
True
GBK
utf-8
—终端为GBK，locale为zh_CN.UTF-8—————–
ascii - sys.getdefaultencoding()
utf8 - sys.getdefaultencoding()
UTF-8 - sys.stdout.encoding:
UTF-8 - sys.stdout.encoding:
涓???? - u
涓???? - a
涓???? - a.decode('utf-8')
中国 - a.decode('utf-8').encode('gbk')
涓???? - a.decode('utf-8').encode('utf-8')
涓???? - a.decode('utf-8').encode()
UTF-8 - (sys.stdout.encoding)
True
UTF-8
utf-8
例子1总结，对print而言：
unicode的数据如果要显示正常，必须终端与locale一致。sys.stdout.encoding这个值应该来自locale，print会以sys.stdout.encoding去encode并输出到字节流。
encode为终端编码的字节流就能显示正常，无论locale是啥。
最终是terminal通过terminal配置的编码规则去解码成对应的字符并显示出来。
例子2：
关于sys.setdefaultencoding(‘utf8’)的例子：
#coding:utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
print sys.getdefaultencoding() + " - sys.getdefaultencoding()"
a = '中国'
print a + " - a"
print a.encode("gbk") #并不是直接从utf8的字节流转化到gbk的，而是通过defaultencoding decode之后才转的。
print a.decode() #使用默认的defaultencoding
print a.encode() #使用默认的defaultencoding
关于str()和repr()
str()是对各种类型转化成str，如果本来是encoded字符串，则不变，如果为unicode，会encode()
repr()对字符串是将字节流出二进制的值以16进制转化为可见字符。
测试环境locale为GBK
#coding:utf-8
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
a = u'中国'
print a
print str(a)
print repr(a)
print repr(a.encode("utf-8"))
print repr(a.encode("gbk"))
中国
涓????
u'\u4e2d\u56fd'
'\xe4\xb8\xad\xe5\x9b\xbd'
'\xd6\xd0\xb9\xfa'
再深挖下去，还有repr()和eval()的关系，就不深挖了。
关于终端和服务器的编码
另外补充一些关于终端和服务器编码的结论：
1. 对mac iterm2，如果server的locale与mac本地终端的locale一致，才能保证server端与本地的表现一致。
2. cat a.py #就把文件显示出来，就是给terminal一串字节流。terminal根据设置的终端编码规则来显示字符。所以只要文件编码与terminal一致即可，与locale无关。
3. cat a.txt > b.txt #无论locale怎么样，只跟a.txt原来的编码相关
4. echo “中国年过” > a.txt #这个情况下，只有terminal与locale的编码一致，你才能在终端shell打出正确的中文~~~所以a.txt与两者都会一致

❸ 为什么python文件打开有乱码

脚本开头加 # -*- coding: utf-8 -*-用文本编辑器打开脚本文件，将脚本文件的编码设置成 ANSI，保存脚本，在 IDLE 中运行，查看结果正常；# -*- coding: utf-8 -*-#这是一个注释的练习print "这是我的第一个学习练习。Python 2"测试结果，中文显示正常。

❹ python下读取种子文件列表中的名字，获取到的信息是乱码，使用bencode来读取的

使用：chardet 模块，可以检测你的内容是什么编码。然后再根据检测结果来解码。

❺ python中读取文件（路径含中文）出现乱码问题。

没有Python3 。

你试一下

path='Py....'#下面添加一行
path=path.decode('gbk')

❻ python 读取再写入就乱码

无论你原来是什么编码, 先按utf-8 encode再按gb18030 decode都不是正确的打开方式.
如果原来是utf-8, 直接读出来.decode("utf8"). 在写的时候再.encode("utf8")即可.

❼ 使用python打开一个txt文件，逐行读取，但是txt本身含有乱码，报错。有什么方法可以忽略这些错误继续读

大约抄就是这样。没有调试过。

fp=fopen("xxxx.txt","rt")
en=0
while True:
try:
eachline=fp.readline()
except:
en+=1
if en>10000:break #如果出错1万次就不再读了。防死循环
continue
if x=="":break
print eachline
fp.close()

❽ python，打开文件都是乱码

现在为什么还要用2啊，2马上就不会维护了啊，为什么会有python3呢，就是处理这些遗留问题的啊啊

❾ python读取中文目录出现乱码

Windows 下文件路径的中文编码是 GB2312/CP396，而 Python 设置编码为 UTF-8 ...
所以应当对每一个文件路径做编码转换很简单版就是先按权照 GB2312 decode 然后再按照 UTF-8 encode..

❿ python中文显示乱码，已经在开头有了coding: utf-8

乱码原因：
因为你的文件声明为 utf-8，并且也应该是用 utf-8 的编码保存的源文件。但是 windows 的本地回默认编码是 cp936，也就答是 gbk 编码，所以在控制台直接打印 utf-8 的字符串当然是乱码了。

解决方法：

py文件用记事本打开，另存为utf-8格式即可

阅读全文

python读取乱码文件

与python读取乱码文件相关的阅读推荐