今天在用scrapy爬某个网站的数据,其中DOM解析我用的是BeautifulSoup,速度上没有XPath来得快,不过因为用了习惯了,所以一直用的bs,版本是bs4不过在爬取过程中遇到了一些问题,其中一个是Unicode转码问题,这也算是python中一个著名问题了。我遇到的算是Beautiful...
分类:
其他好文 时间:
2014-07-22 22:53:55
阅读次数:
229
从 .NET Framework 4.5 开始,Console 类支持与 UnicodeEncoding 类的 UTF-16 编码。 显示 Unicode 字符到控制台,你可以设置 OutputEncoding 属性为 UTF8Encoding 或 UnicodeEncoding。 下面的示例显示 ...
分类:
Web程序 时间:
2014-07-22 22:48:35
阅读次数:
227
问题1:假设我们知道汉字编码范围是0x4E00到0x9FA5,怎么从十六进制的编码转成人类可读的字呢?
问题2:怎么把unicode编码的字写入文件呢,如果直接用open()的话,会提示UnicodeEncodeError: 'ascii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128...
分类:
编程语言 时间:
2014-07-20 10:46:08
阅读次数:
732
因为项目中要匹配手机号,所以接触了正则表达式,没有深入学习,直说明一个简单的应用。
在java里,匹配要用matches(表达式字符串)方法。
表达式要以^开头,以$结尾。
匹配手机号的正则表达式是:^1[3458]\\d{9}$。1是手机号首位数字,[3458]代表第二位是其中一个数字,第一个\是转义字符标示下个\是特殊符号,\d标示0--9的数字,后面跟一个{9}标示后面9个都是一样的类型,最后以$结尾。
总结:正则表达式简单方便易用,待目前的学习内容结束后继续深入学习。...
分类:
其他好文 时间:
2014-07-20 10:43:09
阅读次数:
224
标准C++提供了两种字符串:一是C风格的以“\0”字符结尾的字符数组,二是字符串类String。而Qt字符串类QString功能更强大。
QString类保存16位Unicode值,提供了丰富的操作、查询、转换等函数。该类还进行了使用隐式共享、高效的内存分配策略等多方面的优化。
1)字符串操作
与C++中的String字符串类一样,QString也提供了“+”和“+=”操作符号来符合两个字符...
分类:
其他好文 时间:
2014-07-20 10:17:08
阅读次数:
169
最近有一个需求,就是给一个目录,然后把里面所有的文件内容都修改,并修改文件名。 #include "stdafx.h"#undef UNICODE#include #include #include #include #include #include #include using namespac...
分类:
其他好文 时间:
2014-07-19 19:05:06
阅读次数:
157
windows 命令行编码是cp936,而D:\Python27\Scripts\scrapy脚本编码是Unicode编码顾在命令行启动会出现编码问题解决办法:修改D:\Python27\Scripts\ 下的scrapy文件,这个文件即scrapy命令的程序文件,加上如下代码即可:import s...
分类:
其他好文 时间:
2014-07-19 14:21:14
阅读次数:
209
序列是python中最基本的数据,序列中每个元素分配一个序号,即元素的位置,也称为索引。python包含6中内置的序列,除了列表和元组,还有字符串、unicode字符串、buffer对象和xrange对象(后续介绍),今天且看列表和元组。1、列表和元组的区别(1)两者最大的区别在于能否对数..
分类:
其他好文 时间:
2014-07-19 02:38:26
阅读次数:
206
varchar(n)长度为 n 个字节的可变长度且非 Unicode 的字符数据。n 必须是一个介于 1 和 8,000 之间的数值。存储大小为输入数据的字节的实际长度,而不是 n 个字节。nvarchar(n)包含 n 个字符的可变长度 Unicode 字符数据。n 的值必须介于 1 与 4,00...
分类:
数据库 时间:
2014-07-18 22:13:10
阅读次数:
355
#include "stdafx.h"//vs2010下运行通过#undef UNICODE#include #include #include #include using namespace std;void browseFile(char* path){ char pattern[FILENA...
分类:
其他好文 时间:
2014-07-18 18:36:12
阅读次数:
187