反爬技术: 1. UA反爬:携带ua,构建有效ua池;2. Ip限制:限制同一ip的访问频率,download_delay =8,代理ip;3. 数据藏在js脚本:一般使用re提取数据;4. ajax请求(动态数据):可以使用selenium或者pypepeer,但是效率太低,影响机器性能, 推荐直 ...
分类:
其他好文 时间:
2019-11-16 12:40:46
阅读次数:
68
到目前为止都在讨论如何链接两个元素的绑定。但在数据驱动的应用程序中,更常见的情况是创建从不可见的对象中提取数据绑定表达式。唯一的要求是希望显示的信息必须存储在公有的属性中。WPF数据绑定基础结构不能获取私有信息或共有字段。 当绑定到非元素对象时,需要放弃Binding.ElementName属性,并 ...
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库. 1.prettify()方法:将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行。 输出结果: 2.基本操作 结果: <p class="123">喜欢捕捉 ...
分类:
其他好文 时间:
2019-11-09 17:11:00
阅读次数:
90
02 特征工程和文本特征提取 数据集的构成 数据存放形式 1. CSV 文件 2. mysql: 性能瓶颈,读取速度; 格式不符合机器学习的格式 3. pandas:读取工具 4. numpy为什么读取速度快: 动态语言 全局解释性锁 GIL : 释放了 (GIL数据安全),真正的多线程 可用的数据 ...
分类:
其他好文 时间:
2019-11-09 15:53:23
阅读次数:
127
一、背景: 由于项目需要,参考了多篇相关车道线检测论文与源码,设计了一套Tensorflow版车道线检测功能。 二、基本结构: 该模型主要由以下部分组成: 1、数据源:包括所有原始数据,分组后的数据; 2、数据预处理:包括数据的准备,数据的导入,数据的提取,数据的分组(训练与测试); 3、配置文件: ...
分类:
其他好文 时间:
2019-11-06 18:22:25
阅读次数:
191
前言 在HttpRunner中,我们可通过extract提取数据,当响应结果为 JSON 结构,可使用 content 结合 . 运算符的方式,如 content.code ,用起来十分方便,但如果响应结果为 text/html 结构时,便不能这么用了。 这时候,我们能不能使用正则表达式来提取呢?答 ...
分类:
Web程序 时间:
2019-11-05 21:17:41
阅读次数:
260
挖掘建模 经过数据探索于数据预处理,得到了可以直接建模的数据..根据挖掘目标和数据形式可以建立分类与预测,聚类分析,关联规则,时序模式和偏差检测等模型.帮助企业提取数据汇总蕴含得商业价值,提高企业得竞争力. 分类和预测问题得两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数 ...
分类:
其他好文 时间:
2019-10-28 20:44:19
阅读次数:
142
Beautiful Soup简介(简称bs4) 它是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式,节省工作时间 所有对象可以归纳为4种: Tag:标签对象,例如<p class=”title”><b>yoyoketang< ...
分类:
编程语言 时间:
2019-10-26 22:38:03
阅读次数:
75
认识 sklearn 官网地址: https://scikit learn.gor/stable/ 从2007年发布以来, scikit learn已成为重要的Python机器学习库, 简称sklearn, 支持包括 分类, 回归, 降维和聚类 等机器学习算法, 还包括了 特征提取, 数据处理, 模 ...
分类:
其他好文 时间:
2019-10-26 00:53:35
阅读次数:
100
原文链接:https://www.cnblogs.com/zhaof/p/6898138.html 在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程 爬虫的基本流程 发起请求通过HTTP库向目标站点发起请求,也就是发送一个Req ...
分类:
编程语言 时间:
2019-10-25 09:26:50
阅读次数:
84