处理统一码文件是场噩梦?这些诀窍助你大梦初醒
发布时间:2019-08-27 16:08:54 所属栏目:优化 来源:读芯术
导读:对于那些经常在日常工作中处理统一码文件(也适用于其他编码)的人来说,这篇文章是必读的。对于自然语言处理的从业者,处理统一码文件是一场噩梦,尤其是使用Windows操作系统。想象一下,当在编码或解码过程中遇到错误时的沮丧,例如: UnicodeEncodeError:
如果在Windows操作系统中运行命令提示符,那么在大多数情况下显示统一码字符都会有问题,出现如下图所示的乱码字符: 显示乱码字符的命令提示符 为了解决这个问题,需要将设置更改为正确的字体。
命令提示符的字体属性 打开一个有统一码字符的文件路径——通过pandas模块适用于read_csv 这部分有点棘手,尤其是在使用某些特定Python模块(如pandas)时。假设有以下非英语的文件路径:
试图通过read_csv读取文件将会抛出错误,因为文件路径包含统一码字符。在Python中使用内置的open()函数不是问题所在。为了解决这个问题,需要先打开文件,然后传递给read_csv函数:
(编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |