Node.js configure error: No acceptable C compiler found!
Please make sure you have a C compiler installed on your system and/or
consider adjusting the CC environment variable if you ...
分类:
Web程序 时间:
2014-07-16 17:32:10
阅读次数:
952
python抓取伯乐在线的所有文章,对标题分词后存入mongodb中...
分类:
数据库 时间:
2014-07-16 17:09:20
阅读次数:
289
(原创,转载请注明) 不久前接手一个java web开发的活,网站是一个学术期刊的发布和共享平台。支持在线搜索网站内部期刊。以前没接触过搜索引擎,觉得搜索是一门高深的学问,后来折腾了两天写了一个简单的,不包含权重排序、爬虫和大型数据库和全文搜索(貌似中文不支持全文搜索),不涉及自然语言处理相关...
分类:
Web程序 时间:
2014-07-15 23:08:41
阅读次数:
330
EBS采购模块中的快速接收和快速接收事务(版权声明,本人原创或者翻译的文章如需转载,如转载用于个人学习,请注明出处;否则请与本人联系,违者必究)快速功能是一个快速输入收货和接收事务的方法。在收货窗口上,如果你在查找期望收货窗口上指定了或者隐式指定了来源类型(你如果你输入了,比如,采购订单编号,就隐式指定了来源类型),那么就可以使用快速功能。在接收事务窗口,不论查找接收事务窗口上的搜索条件,快速功能...
分类:
其他好文 时间:
2014-07-15 22:38:10
阅读次数:
217
好吧,没想到居然这么快,才两天我就把入门看完了,当然只是入门,以后如果用到,会把那些各个类型的细化都总结一下例如数学函数,或者总结一下一些框架的应用如Scarpy(爬虫框架,听着就很兴奋呢,很多人都是了解有,但是没用过......),笔者写完这段暂时先开心的看电影去,回学校再说。Python的屏幕I...
分类:
编程语言 时间:
2014-07-15 08:26:59
阅读次数:
204
主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成的,主流的搜索引擎都是...
分类:
其他好文 时间:
2014-07-15 08:01:58
阅读次数:
189
我们如果在公司或家里使用网络爬虫去抓取自己索要的一些数据的时候,常常对方的网站有defence机制,会给你的http请求返回500错误,只要是相同IP就请求不到数据,这时候我们只能去重启路由器,这样IP地址会改变,网络爬虫就能正常工作了
下面是通过发送Socket请求来模拟路由器的重启指令:
protected void rebotadsl() {
try {
BufferedO...
分类:
编程语言 时间:
2014-07-14 13:00:50
阅读次数:
274
1 使用connect-mongdo时,报错:Cannot read property 'Store' of undefined解决: require('connect-mongo')的时候加一个参数express,如下: var express = require('express'); var ...
分类:
其他好文 时间:
2014-07-14 00:30:23
阅读次数:
298
1.npm全局安装 modules 后在应用中 使用npm安装时会默认安装到当前目录,如果没有安装到nodejs的node_modules目录,自己复制到node_modules目录 require 不到的解决方案 Windows环境下, 通过 npm install -g 安装的全局模块, 可能无...
分类:
Web程序 时间:
2014-07-13 20:59:00
阅读次数:
261
上一篇博客我们成功地从网页上爬下了小说的一个章节,理所当然地,接下来我们要把整本小说都爬下来。首先,我们要把程序从原来的读完一章就结束,改成读完一章之后可以继续进行下一章的阅读。
注意到每个小说章节的网页下面都有下一页的链接。通过查看网页源代码,稍微整理一下( 不显示了),我们可以看到这一部分的 HTML 是下面这种格式的:...
分类:
编程语言 时间:
2014-07-12 22:45:47
阅读次数:
341