码迷,mamicode.com
首页 > 其他好文 > 详细

使用scrapy爬取页面数据到入库遇到的问题

时间:2014-12-09 00:17:00      阅读:199      评论:0      收藏:0      [点我收藏+]

标签:blog   http   ar   使用   sp   on   数据   art   问题   

1.编码问题

页面是gbk的,数据库是utf8的

gbk到utf8的转化得通过unicode编码:gbk 《--unicode--》utf8

具体参考 http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html

scrapy从页面抓到的数据自动转化为unicode了所有把抓到的数据直接encode(‘utf8‘),就变成utf8编码了

入库时发生了数据库中文乱码,原来python再连接mysql的时候需要制定编码格式

db=MySQLdb.connect(user=‘root‘,charset=‘utf8‘)

参考http://blog.csdn.net/foyuan/article/details/1711100

 

2.python mysql链接层

我用的比较简单直接使用python提供的操作函数操作

有第三方orm库SQLAlchemy,另外还有Django框架中的orm库

直接使用db-api   http://www.cnblogs.com/rollenholt/archive/2012/05/29/2524327.html

使用第三方库   http://smartzxy.iteye.com/blog/680740

 

3.python处理html实体

 存入数据库的时候需要把,python抓到的数据进行编码,把一些字符使用html实体尽心编码,如果编码不完全,还需要使用替换功能,直接替换

 参考的http://blog.csdn.net/holybin/article/details/23872815

 

4. md5加密(对比php使用,这个自己还没理解)

参考:http://www.cnblogs.com/mingaixin/archive/2013/02/20/2919313.html

 

5.日期使用

参考 http://www.jb51.net/article/47957.htm

 

使用scrapy爬取页面数据到入库遇到的问题

标签:blog   http   ar   使用   sp   on   数据   art   问题   

原文地址:http://www.cnblogs.com/krytor/p/4152161.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!