贴吧爬取 写代码前,构思需要的功能块;写代码时,把各个功能模块名提前写好 初始化 初始化必要参数,完成基础设置 爬取百度贴吧lol吧:爬取地址中的get参数须传递(可以指定不同主题的贴吧和页码) 主题名 初始网址 请求头 生成网址 生成每一页的路由地址 根据列表生成式生成多个页面的地址 下载 get ...
分类:
其他好文 时间:
2018-09-21 20:24:02
阅读次数:
236
百度贴吧-中国好声音评论爬爬 跑完了成果图 csv文档中效果 上方生成的csv文件通过txt记事本打开另存为ANIS编码方式,然后在通过csv打开就不会再乱码了,解决csv打开乱码问题相关可以参考博文: ...
分类:
其他好文 时间:
2018-09-19 17:22:24
阅读次数:
188
继续推销GTM76。饭高茂:《代数几何》第一章。几乎零起点的好书。最近好像贴吧里还是有些同志不知道学代数几何从哪开始,我是从这开始的,觉得不错。我一般很喜欢跟别人介绍经验,原因有二:一,智商较低,不会对苛求其他人。二,我一般看不下去的书就不看了,所以推销这本书,不是因为我只看过这本,而是我看GTM5 ...
分类:
其他好文 时间:
2018-09-18 00:22:14
阅读次数:
476
lxml库 lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。 lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。 lxml pytho ...
分类:
其他好文 时间:
2018-09-17 16:13:13
阅读次数:
157
照着教程改,在C:\Program Files里找到“Microsoft SQL Server”文件夹,右键属性—高级—取消勾选“可以存档文件夹”—确定—应用。 然后没有用。但是,我终于在Google上看到了解决的方法,sql贴吧一位大佬解决的: 注意了!!!! C:\Program Files ( ...
分类:
其他好文 时间:
2018-09-14 16:00:05
阅读次数:
351
import requests,re,timeheader ={ "Cookie":"登陆过账号后的cookie 必须填写", "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Geck ...
分类:
编程语言 时间:
2018-09-03 02:20:34
阅读次数:
161
先反思一下……这两天感觉除了coding,没有很好地去学习专业课。心神不定 于是,就想看下硅谷,来提升一下自己的coding执行力…… 然后,我就在看剧的时候,看到了这么一张图:‘ 然后嘛…… 我就想这些个二进制数是个什么意思…… 我一开始以为是bcd码,后来去贴吧查了下,就是单纯的二进制码转Asc ...
分类:
其他好文 时间:
2018-08-27 22:32:25
阅读次数:
233
点击这里产看更多请添加链接描述作为一名高校检测老师“学术不端网”,今天帮着本校研究生毕业论文知网查重时,无意中发现知网检测系统的检测范围中多了一个“互联网资源(包含贴吧等论坛资源)”这个细节信息。这一信息说明了知网又在更新了,更说明了知网检测系统在逐步完善,让抄袭无处可藏!更警示了大学生们学术论文不能抄袭,贴吧论坛等互联网资源一样也不能抄袭。学校知网查重时互联网上的东西都可以查出来,除非是特别新的
分类:
其他好文 时间:
2018-08-27 18:27:19
阅读次数:
180
# coding=utf-8 import requests import re from requests_html import HTMLSession import pandas as pd import time session = HTMLSession() headers = { 'Us... ...
分类:
其他好文 时间:
2018-08-17 11:15:57
阅读次数:
179