requests+lxml+xpath爬取电影天堂

时间：2019-10-21 20:40:37 阅读：185 评论：0 收藏：0 [点我收藏+]

1.导入相应的包

import requests
from lxml import etree

2.原始ur

url="https://www.dytt8.net/html/gndy/dyzz/list_23_1.html"

技术图片

我们要爬取的是最新电影，在该界面中，我们发现，具体的信息存储在每个名字的链接中，因此我们要获取所有电影的链接才能得到电影的信息。同时我们观察url，发现

list_23_1，最后的1是页面位于第几页。右键点击其中一个电影的名字-检查。

技术图片

我们发现，其部分连接位于具有class="tbspan"的table的<b>中，首先建立一个函数，用来得到所有的链接：

#用于补全url
base_url="https://www.dytt8.net"
def get_domain_urls(url):
    response=requests.get(url=url,headers=headers)
    text=response.text
    html=etree.HTML(text)
        #找到具有class="tbspan"的table下的所有a下面的href里面的值
    detail_urls=html.xpath("//table[@class=‘tbspan‘]//a/@href")
        #将url进行补全
    detail_urls=map(lambda url:base_url+url,detail_urls)
    return detail_urls

我们输出第1页中的所有url结果：

url="https://www.dytt8.net/html/gndy/dyzz/list_23_1.html"
for i in get_domain_urls(url):
    print(i)

技术图片

requests+lxml+xpath爬取电影天堂

标签：部分 ade com 天堂 nbsp http href def mic

原文地址：https://www.cnblogs.com/xiximayou/p/11715810.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行