第1章 机器学习基础1)学习分类监督学习——是因为这类算法必须知道预测什么,即目标变量的分类信息。无监督学习——数据没有类别信息,也不会给定目标值。2)开发机器学习应用程序的步骤 收集数据——制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据(风速、血糖等)、公....
分类:
其他好文 时间:
2015-01-05 14:38:09
阅读次数:
170
原文地址:http://www.cnblogs.com/agileblog/p/3615250.html
关于爬虫乱码有很多群友的各式各样的问题,下边简单总结下关于网络爬虫的乱码处理。注意,这里不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因为他们的解决方式 是一致的,故在此统一说明。
网络爬虫,有两种选择,一是选择nutch、hetriex,二是...
分类:
其他好文 时间:
2015-01-05 13:03:19
阅读次数:
195
我们都知道布隆过滤是用来判断一个元素是否在一个集合中的很有效的方法。比如在WPS字处理软件中,需要检查一个单词是否拼写正确;在FBI中需要判断一个嫌疑犯的名字是否在嫌疑名单上;在网络爬虫里,判断一个网址是否被访问过。最简单的解决办法就是采用HashTable的方法来存储,它的好处是快速且精确,缺点是耗费大量内存空间。所以针对耗费空间大的问题,提出了布隆过滤。但是布隆过滤是有误识别率的,也就是说在集...
分类:
其他好文 时间:
2015-01-01 19:50:29
阅读次数:
222
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Internet 上的网页,以及如何使用 HttpClient 来简化 Get 和 Post 请求操作,构建...
分类:
Web程序 时间:
2014-12-27 21:38:23
阅读次数:
455
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?...
分类:
其他好文 时间:
2014-12-24 14:42:27
阅读次数:
254
cURL:即使用URL语法传输数据的命令工具,是客户端向服务器请求资源工具。
作用:
1、网页资源(编写网页爬虫)
2、webservice(动态获取接口数据天气,号码归属地)
3、FTP资源上传和下载
必须先配置服务器支持curl,配置过程不再说。
简单网络爬虫,下载百度页面并替换
<?php
/**
* 实例描述:在网络上下载一个网页并把内容中的“百度”替换为“屌丝”之...
分类:
Web程序 时间:
2014-12-17 09:47:53
阅读次数:
193
这个程序其实就是模仿用户的网页访问操作。 先从主页上获取大的商品分类,再一级一级地遍历所有的小分类。在最后得到商品列表,再遍历每个商品页,从商品页是抓取有效的信息。 这里,我对一些关键点做个总结,以便...
分类:
编程语言 时间:
2014-12-15 22:13:17
阅读次数:
291
http://www.cnblogs.com/wunaozai/p/3900134.htmlhttp://www.cnblogs.com/wunaozai/p/3900169.htmlhttp://www.cnblogs.com/wunaozai/p/3900454.htmlhttp://www.c...
分类:
其他好文 时间:
2014-12-14 15:50:05
阅读次数:
149
#coding: utf-8#title..href...str0='blabla《论电影的七个元素》——关于我对电…'import urllib.requestimport timeurl=['']*350page=1link=1while page东望洋 我们主要是想提取出中间绿色部分的...
分类:
编程语言 时间:
2014-12-10 22:40:22
阅读次数:
382