python爬虫（十七）电影天堂爬虫1

时间：2020-03-02 01:16:51 阅读：113 评论：0 收藏：0 [点我收藏+]

标签：www user pre request mozilla inf http ble safari

电影天堂里面的

技术图片

要爬取这个页面里所有的电影信息，每个电影信息都在另一个html里，先在这里页面里把这些电影的url爬取出来

# 电影天堂爬虫
from lxml import etree

import  requests
# 一个网址头
BASE_DOMAIN="https://www.dytt8.net"   
url="https://www.dytt8.net/html/gndy/dyzz/list_23_1.html"
headers={
    ‘User-Agent‘:"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
response=requests.get(url,headers=headers)

text=response.text

html=etree.HTML(text) detail_urls=html.xpath("//table[@class=‘tbspan‘]//a/@href") for detail_url in detail_urls: print(BASE_DOMAIN+detail_url)

结果：

技术图片

python爬虫（十七）电影天堂爬虫1

标签：www user pre request mozilla inf http ble safari

原文地址：https://www.cnblogs.com/zhaoxinhui/p/12392920.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

python爬虫（十七） 电影天堂爬虫1

python爬虫（十七）电影天堂爬虫1