一:分析网站 目标站和目标数据目标地址:http://maoyan.com/board/4?offset=20目标数据:目标地址页面的电影列表,包括电影名,电影图片,主演,上映日期以及评分。 二:上代码 (1):导入相应的包 (2):分析网页 通过检查发现需要的内容位于网页中的<dd>标签内。通过翻 ...
分类:
其他好文 时间:
2018-04-06 22:33:33
阅读次数:
340
今天有小朋友说想看一下猫眼TOP100的爬取数据,要TOP100的名单,让我给发过去,其实很简单,先来看下目标网站: 建议大家都用谷歌浏览器: 这是我们要抓取的内容,100个数据,很少 我们看一下页面结构 100部电影分十个页码,也就是一页10个电影,抓取方式为10页循环抓取 先看下代码: 引入模块 ...
分类:
Web程序 时间:
2018-02-10 11:22:30
阅读次数:
208
前段时间做了一个关于豆瓣电影的爬虫,之后又写了一个陈奕迅歌词的词云制作,于是我想不如做一个关于豆瓣高分电影导演的词云试试,于是有了接下来这篇随笔。 首先,我需要知道豆瓣top100电影详情页面的url,以便爬取对应导演。在豆瓣电影top250界面 在得到top100电影详情界面的url之后,需要对这 ...
分类:
其他好文 时间:
2017-10-17 19:00:40
阅读次数:
254
spider.py 1 # -*- coding:utf-8 -*- 2 import requests 3 import re 4 import json 5 import codecs 6 from requests.exceptions import RequestException 7 fr ...
分类:
其他好文 时间:
2017-10-10 13:26:04
阅读次数:
185
1. 在google浏览器中输入maoyan.com, 点击榜单top100. 2.观察分页路由,构造分页url = 'http://maoyan.com/board/4?offset=' + str(offset) 3.卡发者选项,查看排行的电影信息,我们要爬取电影的排行(index), 图片的u ...
分类:
其他好文 时间:
2017-10-07 18:38:03
阅读次数:
262
8 月 12 日,阿拉丁数据统计平台发布了国内第一份小程序 TOP100 榜单,摩拜单车成为全榜第一! 该榜单数据来源于阿拉丁小程序统计平台检测、合作、如有赞等,并经过企业电话调研和实地走访企业等校准,选取人气、搜索、使用、分享四大指标来衡量一款小程序的活跃度。 目前阿拉丁收录了超过 10000 个 ...
分类:
微信 时间:
2017-08-15 18:14:51
阅读次数:
506
【来自天善智能】:https://edu.hellobi.com/course/156/play/lesson/2453 崔大师的代码看着就是舒服。。。。 ...
分类:
编程语言 时间:
2017-08-09 20:06:52
阅读次数:
262
本榜单包括 2015 年开源中国新收录的 5977 款开源软件中,依据软件本身的关注度、活跃程度进行排名前 100 名的软件。从这份榜单中也许能够了解到最新业界的趋势。 1、SwitchyOmega 项目简单介绍:SwitchyOmega 是 SwitchySharp 的新版本号。这是一个 Chro ...
分类:
其他好文 时间:
2017-06-30 20:54:32
阅读次数:
380