GNEv0.1正式发布:4行代码开发新闻网站通用爬虫摄影:产品经理GNE比羊肉面还香!GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的HTML,输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色
分类:
Web程序 时间:
2020-12-08 12:05:08
阅读次数:
8
为aiohttp爬虫注入灵魂摄影:产品经理与产品经理在苏州的小生活听说过异步爬虫的同学,应该或多或少听说过aiohttp这个库。它通过Python自带的async/await实现了异步爬虫。使用aiohttp,我们可以通过requests的api写出并发量匹敌Scrapy的爬虫。我们在aiohttp的官方文档上面,可以看到它给出了一个代码示例,如下图所示:我们现在稍稍修改一下,来看看这样写爬虫,运
分类:
Web程序 时间:
2020-12-08 12:03:47
阅读次数:
9
Kafka里面的信息是如何被消费的?摄影:产品经理跟着产品经理去苏州吃面作为一个爬虫工程师,Kafka对你而言就是一个消息队列,你只需要掌握如何向里面写入数据,以及如何读取数据就可以了。请谨记:使用Kafka很容易,但对Kafka集群进行搭建、维护与调优很麻烦。Kafka集群需要有专人来维护,不要以为你能轻易胜任这个工作。”本文,以及接下来的几篇针对Kafka的文章,我们面向的对象都是爬虫工程师或
分类:
其他好文 时间:
2020-12-08 12:03:19
阅读次数:
3
为什么每一个爬虫工程师都应该学习Kafka摄影:产品经理与产品经理环游世界的瞬间这篇文章不会涉及到Kafka的具体操作,而是告诉你Kafka是什么,以及它能在爬虫开发中扮演什么重要角色。一个简单的需求假设我们需要写一个微博爬虫,老板给的需求如下:开发爬虫对你来说非常简单,于是三下五除二你就把爬虫开发好了:接下来开始做报警功能,逻辑也非常简单:再来看看统计关键词的功能,这个功能背后有一个网页,会实时
分类:
其他好文 时间:
2020-12-08 12:02:43
阅读次数:
2
unity3d + photon + grpc + nodejs + postgis/postgresql 游戏服务器设计 游戏类型:MMORPG 如果想使用grpc替换photon完成通信(长链接替换成短连接),可参考此博客: Unity + Grpc + protobuf + C# 使用流程详解 ...
分类:
数据库 时间:
2020-12-07 12:31:14
阅读次数:
10
1、下载nodejs Linux版本,注意本教程是.tar.xz格式的。https://nodejs.org/dist/v8.11.3/node-v8.11.3-linux-x64.tar.xz 2、在根目录下建立deploy文件夹并复制进去,(目的就是找个地方放一下node包,也可以是你自己的文件 ...
分类:
Web程序 时间:
2020-12-05 10:47:48
阅读次数:
9
服务器的代码如下,还有一些基础概念 /** * 概念: * ip和端口主要是为了区分服务器的运用的操作 * ipv4的格式 [0-255] xxxx.xxxx.xxxx.xxxx * ipv6的格式 [0-0xffff] 8个xxxx * 可靠:tcp * 不可靠:udp * * tcp可靠的原因 ...
分类:
Web程序 时间:
2020-12-03 11:45:22
阅读次数:
11
使用的库 bs4 requests pymongo fastapi uvicorn 爬取ip 网络上搜索一下有很多提供HTTP代理的网站,直接使用BeautifulSoup将IP爬下来。 html =requests.get(url).text bs =BeautifulSoup(html,'htm ...
分类:
编程语言 时间:
2020-12-02 12:09:56
阅读次数:
6
let express=require('express') let app=express() let indexRouter=require('./routes/index') let usersRouter=require('./routes/user') app.use('/index',i ...
分类:
其他好文 时间:
2020-12-02 12:09:22
阅读次数:
4
NodeJS连接MongoDB数据库 连接数据库的js文件【我将其命名为(connect.js)】 // 引入mongoose第三方模块 const mongoose = require('mongoose'); // 连接数据库 // 第一个要写数据库的地址及其名字 // 还有, 这是一个独立的模 ...
分类:
数据库 时间:
2020-12-02 12:04:32
阅读次数:
10