使用scrapy爬取页面数据到入库遇到的问题

时间：2014-12-09 00:17:00 阅读：199 评论：0 收藏：0 [点我收藏+]

1.编码问题

页面是gbk的，数据库是utf8的

gbk到utf8的转化得通过unicode编码：gbk 《--unicode--》utf8

具体参考 http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html

scrapy从页面抓到的数据自动转化为unicode了所有把抓到的数据直接encode(‘utf8‘)，就变成utf8编码了

入库时发生了数据库中文乱码，原来python再连接mysql的时候需要制定编码格式

db=MySQLdb.connect(user=‘root‘,charset=‘utf8‘)

参考http://blog.csdn.net/foyuan/article/details/1711100

2.python mysql链接层

我用的比较简单直接使用python提供的操作函数操作

有第三方orm库SQLAlchemy，另外还有Django框架中的orm库

直接使用db-api 　　http://www.cnblogs.com/rollenholt/archive/2012/05/29/2524327.html

使用第三方库　　http://smartzxy.iteye.com/blog/680740

3.python处理html实体

存入数据库的时候需要把，python抓到的数据进行编码，把一些字符使用html实体尽心编码，如果编码不完全，还需要使用替换功能，直接替换

参考的http://blog.csdn.net/holybin/article/details/23872815

4. md5加密（对比php使用，这个自己还没理解）

参考：http://www.cnblogs.com/mingaixin/archive/2013/02/20/2919313.html

5.日期使用

参考 http://www.jb51.net/article/47957.htm

原文地址：http://www.cnblogs.com/krytor/p/4152161.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行