码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫——网页上的字符按照我的想法输出

时间:2020-03-27 10:38:53      阅读:80      评论:0      收藏:0      [点我收藏+]

标签:plain   class   学习python   lin   imp   ons   span   key   输出   

最近学习Python爬虫,"明明是按照步骤做,怎么我会出现好多的问题?"

引言:在网页之中,将爬取的内容输出展示出来,但是往往会出现很多的格式的问题,

如 s = “\n\n\n\n\n\n\n\n  正经的内容\n\n\n\ 又是内容   \n 不要的  \n”

如何将上面不要的字符删除或者提取出需要的呢?

1、提取出需要 正经的内容\n\n\n\ 又是内容   \n 不要的

s.text[8:-2]; 就是取出第8个字符,到倒数第二个字符。

2、删除左边的 \n

s.rstrip(‘\n‘);

3、删除右边的 字符

s.lstrip(‘\n‘)

4、删除两边的字符

s.strip(‘\n‘).strip(‘ ‘); 删除两边的换行以及空格

5、删除特定的字符

s.replace(‘不要的‘, ‘a‘);将“不要的”部分内容,用a代替

import re

# 去除\r\n不要的字符

 

re.sub(‘[\r\n不要的字符]‘, ‘‘, s)  

 

Python爬虫——网页上的字符按照我的想法输出

标签:plain   class   学习python   lin   imp   ons   span   key   输出   

原文地址:https://www.cnblogs.com/sherlocksweet/p/12579486.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!