htmlParse 函数htmlParse加抓HTML页面的函数。url1<-"http://www.caixin.com/"url<-htmlParse(url1,encoding="UTF-8")但是有的网站会出现报错。例如淘宝,错误信息为:Warning message:XML content...
分类:
编程语言 时间:
2015-09-29 18:20:13
阅读次数:
1534
时间:2015-09-09 15:40 ~ 16:40地点:北京市海淀区王庄路1号清华同方科技广场D座西区7层这面是HR面。聊创业公司和大公司的优缺点。工作时间和年假问题。一周工作6天,OMG。一年7天假,OMG。但是,一点资讯竟然在硅谷有Office,巨想去。总结:不错的创业公司,值得拥有!
分类:
其他好文 时间:
2015-09-12 22:12:51
阅读次数:
154
一点资讯二面,字符串 转换 float,最长递增子序列
分类:
其他好文 时间:
2015-09-11 06:41:37
阅读次数:
246
背景:抓取各个医药网站关于“肝炎”的疾病的问答。分别是两个问题:1、用PHPEXCEL保存到excel文件出现中文乱码怎么解决,查了百度查了好久,都没有搞定。百度到的基本是因为是从数据库取数据而数据库编码不一致。可是我是从网站根据phpquery取得数据,所以没有找到有用的东西。待解决。2、为什么根...
分类:
其他好文 时间:
2015-08-16 16:26:29
阅读次数:
180
最近使用了Jsoup,感觉还是挺简单,挺方便的,轻而易举地抓取网页源码,分析获取各个标签所需的东西。这几天在搞一个音乐播放器的小项目,其中使用到了就是使用JSOUP进行页面数据的获取,获取网页的歌曲列表,并对歌曲的链接进行加载,以便实现歌曲下载和歌词的下载。搞好之后,就会跟着写几篇博文,分享给大家。本博文主要说明android中使用jsoup如何进行网页数据的获取。具体可看下面各个相关例子:
Js...
分类:
移动开发 时间:
2015-08-15 16:32:04
阅读次数:
227
计算机的内存中存储的是二进制的序列 (当然,在Linux眼中,是文本流)。我们可以直接将某个对象所对应位置的数据抓取下来,转换成文本流 (这个过程叫做serialize),然后将文本流存入到文件中。由于Python在创建对象时,要参考对象的类定义,所以当我们从文本中读取对象时,必须在手边要有该对象的类定义,才能懂得如何去重建这一对象。从文件读取时,对于Python的内建(built-in)对象
...
分类:
编程语言 时间:
2015-08-13 10:05:54
阅读次数:
273
时间:2015-08-11 11:30 ~ 12:30地点:知春路甲48号盈都大厦B座11层今日头条1. 先对着简历的项目问了许多。2. 算法题:一个按顺序排好的数组,从某一个位置开始将后面的数移动到前面。例如,"123456789" -> 从第7个元素开始移动到最前面,"789123456", 在...
分类:
其他好文 时间:
2015-08-11 23:13:32
阅读次数:
192
web数据抓取是一个经常在python的讨论中出现的主题。有很多方法可以用来进行web数据抓取,然而其中好像并没有一个最好的办法。有一些如scrapy这样十分成熟的框架,更多的则是像mechanize这样的轻量级库。DIY自己的解决方案同样十分流行:你可以使用requests、beautifulso...
分类:
编程语言 时间:
2015-08-07 06:58:46
阅读次数:
164