2022年 11月 5日

python爬取动态页面

一、动态页面
  1. 概述:在页面中执行某些动作,如翻页、点击等,页面的url不变,对这种类型的页面爬取。

  2. 原理:动态页面的数据的获取主要有两种(就我目前了解到的),

(1)网页先将数据请求放在某个<script></script>中,分页展示;

(2)页面通过ajax请求获取数据。

二、方法
  1. 如何判断是哪种?

(1)打开控制台的网络部分,:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RivKJ3PT-1638716999333)(D:\大学\项目\NFT\学习文档\img\img2)]

(2)再次触发事件,比如说点击下一页,观察是否接收新的数据包

在这里插入图片描述

(3)出现的话就是原理的第二种方式,查看数据包的详细信息:

在这里插入图片描述

(4)打开请求标头的url,访问url就可以进入数据页面,按照常规的爬取方式爬取就行,可以根据它的响应头设置相关的参数反爬。可以根据该url的结构爬取多个事件的数据

(5)如果(2)中没有接收到新的网络包,证明是原理(1)的方式,在页面中找到数据所在的<script></script>标签解析即可。