最近开始处理中文文本,读取文件有时候会出现乱码。原因:编码和解码方式不一样。 所以,解决这个问题的方法就是正确地解码,问题拆解为:1、弄清楚待查看文件的编码方式;2、解码。 即: 1、查看文件编码方式: import chardet fobj=open(fname,'r') data=fobj.re ...
分类:
编程语言 时间:
2017-10-20 01:24:56
阅读次数:
299
import urllibimport chardetdef encode_detect(): html = urllib.urlopen(url) content = html.read() reslut = chardet.detect(content) encoding = reslut['e ...
分类:
编程语言 时间:
2017-10-17 14:59:11
阅读次数:
259
# coding=utf-8 """ hashlib模块 """ import unittest import hashlib import chardet class TestHashlib(unittest.TestCase): def test_md5(self): """MD5编码""" s... ...
分类:
编程语言 时间:
2017-10-11 23:47:03
阅读次数:
222
#!/usr/bin/python # coding:utf8 import os import chardet import sys import traceback import logging # 遍历文件 def get_all_file_path(path, all_file_path):... ...
分类:
编程语言 时间:
2017-10-10 14:48:53
阅读次数:
253
1. chardet是什么 chardet是python中比较常用的一个编码方式检测库,需要注意的是它只检测并返回检测结果,并不负责对原数据做什么处理。 可以使用PIP命令安装:pip install chardet 2. 如何使用 2.1 API简介 一般都是调用chardet.detect传入一... ...
分类:
其他好文 时间:
2017-10-06 00:03:21
阅读次数:
286
一个人无聊,写了个小爬虫爬取不可描述图片.... 代码太短,就暂时先往这里贴一下做备份吧。 #! /usr/bin/python import chardet import urllib3 import uuid import os import logging import time import... ...
分类:
编程语言 时间:
2017-10-04 12:45:00
阅读次数:
246
py3里,字符串,str类型,是unicode编码格式。其他类型都是byte,编码格式是gbk,utf-8等 而chardet是检查byte类型的编码格式的,不是检查str类型的编码格式的。 a="abc啊”,是字符串,就不能用chardet了。 当获取的数据(byte)类型,需要当成字符串来处理, ...
分类:
编程语言 时间:
2017-09-22 17:50:27
阅读次数:
1400
1 算法 1.1 字符串处理 re 正则表达式的标准库。 StringIO / cStringIO 以读写文件的方式来操作字符串(有点类似于内存文件)。 cStringIO 是 C 语言实现的,提供高性能;而 StringIO 是 Python 实现的,提供 Unicode 兼容性。 chardet ...
分类:
编程语言 时间:
2017-09-02 19:56:10
阅读次数:
291
s = "图片picture"print chardet.detect(s) for c in s.decode('utf-8'): print c UnicodeEncodeError: 'ascii' codec can't encode character u'\u5728' in posit ...
分类:
Web程序 时间:
2017-08-25 21:04:01
阅读次数:
343
在处理字符串时,常常会遇到不知道字符串是何种编码,如果不知道字符串的编码就不能将字符串转换成需要的编码。面对多种不同编码的输入方式,是否会有一种有效的编码方式?chardet是一个非常优秀的编码识别模块。 chardet 是python的第三方库,需要下载和安装。下载的地址有: 1.推荐地址: ht ...
分类:
编程语言 时间:
2017-08-21 09:45:36
阅读次数:
218