搜索关键字：移动互联网产品指标分析，搜索到31553个结果！码迷,mamicode.com！

一日一技：大幅度提高requests的访问速度

一日一技：大幅度提高requests的访问速度摄影：产品经理与产品经理环游世界我做了一个垃圾信息过滤的HTTP接口。现在有一千万条消息需要经过这个接口进行垃圾检测。一开始我的代码是这样的：importrequestsmessages=[‘第一条‘,‘第二条‘,‘第三条‘]formessageinmessages:resp=requests.post(url,json={‘msg‘:message}

分类：其他好文时间：2020-12-08 12:06:49 阅读次数：3

一日一技：如何用递归函数写出2**n - 1?

一日一技：如何用递归函数写出2**n-1?摄影：产品经理实验室的年会下午茶已知n为正整数，写一个递归函数计算。在Python里面要计算非常简单：>>>defcalc(n):...return2**n-1...>>>calc(10)1023运行效果如下图所示：现在，需要写一个递归函数来计算的值。如果要计算，那么这个递归函数非常简单：defcalc(n):ifn&g

分类：其他好文时间：2020-12-08 12:06:28 阅读次数：3

一日一技：如何判断某个汉字是不是在字体库中

一日一技：如何判断某个汉字是不是在字体库中摄影：产品经理下厨：kingname我们喜欢从网上下载各种各样的中文字体，但这些字体一般只设计了常用汉字，遇到生僻字时就会变成系统默认字体。如下图所示为方正静蕾简体，没有“龍鑨”两个汉字：现在，我手上有10000个汉字，我如何快速确定哪些汉字在这个字体库中呢？为了解决这个问题，我们需要安装Python的一个第三方库：fontTools首先我们来安装它：py

分类：其他好文时间：2020-12-08 12:06:08 阅读次数：4

一日一技：实现有过期时间的LRU缓存

一日一技：实现有过期时间的LRU缓存摄影：产品经理下厨：kingname在一日一技：实现函数调用结果的LRU缓存一文中，我们提到Python自带的LRU缓存lru_cache。通过这个装饰器可以非常轻松地实现缓存。现在我们考虑下面这个应用场景：MongoDB中有100对id-用户名的对应关系，我从Redis中持续不断读取id，如果id能在MongoDB中找到对应关系，那么就把对应的用户名打印出来。

分类：其他好文时间：2020-12-08 12:05:48 阅读次数：5

一日一技：为什么年代久远的 Python 项目里面那么多默认参数？

一日一技：为什么年代久远的Python项目里面那么多默认参数？摄影：产品经理蜡烛上面的跑马灯在写Python代码的时候，大家可能会在不知不觉中使用一些设计范式。我们来看两个例子。假设有一个类People：classPeople:def__init__(self,name,age,sex):self.name=nameself.age=ageself.sex=sexdefdance(self):pr

分类：编程语言时间：2020-12-08 12:05:35 阅读次数：6

GNE v0.1正式发布：4行代码开发新闻网站通用爬虫

GNEv0.1正式发布：4行代码开发新闻网站通用爬虫摄影：产品经理GNE比羊肉面还香！GNE（GeneralNewsExtractor）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色

分类：Web程序时间：2020-12-08 12:05:08 阅读次数：8

你经常看到却经常忽视的__init__.py有什么用？

你经常看到却经常忽视的init.py有什么用？摄影：产品经理有了它，乐高已经不香了Python初学者在阅读一些Python开源项目时，常常会看到一个叫做init.py的文件。下图为著名的第三方库requests的源代码：那么init.py有什么用呢？本文介绍它的两个用途。精简导入路径假设我们有两个文件main.py与writer.py，他们所在的文件结构如下图所示：main.py在DocParse

分类：其他好文时间：2020-12-08 12:04:29 阅读次数：3

为 aiohttp 爬虫注入灵魂

为aiohttp爬虫注入灵魂摄影：产品经理与产品经理在苏州的小生活听说过异步爬虫的同学，应该或多或少听说过aiohttp这个库。它通过Python自带的async/await实现了异步爬虫。使用aiohttp，我们可以通过requests的api写出并发量匹敌Scrapy的爬虫。我们在aiohttp的官方文档上面，可以看到它给出了一个代码示例，如下图所示：我们现在稍稍修改一下，来看看这样写爬虫，运

分类：Web程序时间：2020-12-08 12:03:47 阅读次数：9

Kafka 里面的信息是如何被消费的？

Kafka里面的信息是如何被消费的？摄影：产品经理跟着产品经理去苏州吃面作为一个爬虫工程师，Kafka对你而言就是一个消息队列，你只需要掌握如何向里面写入数据，以及如何读取数据就可以了。请谨记：使用Kafka很容易，但对Kafka集群进行搭建、维护与调优很麻烦。Kafka集群需要有专人来维护，不要以为你能轻易胜任这个工作。”本文，以及接下来的几篇针对Kafka的文章，我们面向的对象都是爬虫工程师或

分类：其他好文时间：2020-12-08 12:03:19 阅读次数：3

为什么每一个爬虫工程师都应该学习 Kafka

为什么每一个爬虫工程师都应该学习Kafka摄影：产品经理与产品经理环游世界的瞬间这篇文章不会涉及到Kafka的具体操作，而是告诉你Kafka是什么，以及它能在爬虫开发中扮演什么重要角色。一个简单的需求假设我们需要写一个微博爬虫，老板给的需求如下：开发爬虫对你来说非常简单，于是三下五除二你就把爬虫开发好了：接下来开始做报警功能，逻辑也非常简单：再来看看统计关键词的功能，这个功能背后有一个网页，会实时

分类：其他好文时间：2020-12-08 12:02:43 阅读次数：2