grep text file 在文件中搜索文件 -i 忽略大小写 -n 显示所在行号 -v颠倒(所有不包含的) -r递归(此时file为目录名) grep -i text filename rgrep 等效 grep -r grep -E text file 使用正则表达式搜索 -E egrep 等 ...
分类:
系统相关 时间:
2020-07-28 13:52:47
阅读次数:
92
聚焦爬虫:爬取页面中指定的页面内容 - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储 数据解析分类: -正则 -bs4 -xpath(***) 数据解析原理概述 https://book.apeland.cn/details/78/ - 解析的局部的文本内容都会在标签之间 ...
分类:
其他好文 时间:
2020-07-28 10:13:43
阅读次数:
76
初次接触正则表达式的网友出了感觉它有些繁琐,还会有一种深不可测的感觉。其实正则表达式就是描述字符排列模式的一种自定义的语法规则名,在 PHP 给我们提供的系统函数中,使用这种模式对字符串进行匹配、查找、替换及分割等操作。它的应用非常之广泛。比如常见的使用正则表达式去验证用户在表单中提交的用户名密码以 ...
分类:
Web程序 时间:
2020-07-27 13:38:57
阅读次数:
133
1-自动化管理电脑文件及文件夹 一、输出目录下所有文件及文件夹 1、获取当前运行目录 import os print(os.getcwd()) 2、关于路径中的斜杠(/)和反斜杠(\) - windows中采用反斜杠(\)作为文件夹之间的分隔符 - Mac和Linux中采用斜杠(/)作为文件夹之间的 ...
分类:
其他好文 时间:
2020-07-26 23:21:24
阅读次数:
132
CrawlSpider一直无法进入回调函数的 碰到的两个坑: 1、正则表达式写的不对 start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1'] link = LinkExtractor(allo ...
分类:
其他好文 时间:
2020-07-26 01:52:52
阅读次数:
85
= :精确匹配(必须全部相等) ~ :大小写敏感 ~* :忽略大小写 ^~ :只需匹配uri部分,不匹配正则表达式。 @ :内部服务跳转 匹配顺序: = > ^~ > ~* > /document/ > / request / :A request /index.html :B request /d ...
分类:
其他好文 时间:
2020-07-26 01:00:55
阅读次数:
62
正则表达式 一说规则我已经知道你很晕了,现在就让我们先来看一些实际的应用。在线测试工具 http://tool.chinaz.com/regex/ 正则表达式测试工具 正则表达式本身也和python没有什么关系,就是匹配字符串内容的一种规则。 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用 ...
分类:
编程语言 时间:
2020-07-26 00:48:23
阅读次数:
76
python 网页解析器 1、常见的python网页解析工具有:re正则匹配、python自带的html.parser模块、第三方库BeautifulSoup(重点学习)以及lxm库。 2、常见网页解析器分类 (1)模糊匹配 :re正则表达式即为字符串式的模糊匹配模式; (2)结构化解析: Beat ...
分类:
编程语言 时间:
2020-07-26 00:29:13
阅读次数:
83
用正则表达式,去除无效字符非常简单。让我们看一个例子 const str = "https://en.wikipedia.org/" str.replace(/[<>|:"*?\\/]+/g, '') // => "httpsen.wikipedia.org" [] 称为字符类,JS 会把字符串与方 ...
分类:
其他好文 时间:
2020-07-26 00:22:37
阅读次数:
73
<div class="dadian_i_i_news_text" v-html="reMove(item.content)"></div> reMove: function(content) { return content.replace(/<\/?[^>]*>|(\n|\t|\r)|(\s)/ ...
分类:
其他好文 时间:
2020-07-26 00:14:59
阅读次数:
62