品易云推流 关闭
文章详情页
文章 > 代理ip > 为什么爬虫时页面加载不完全

为什么爬虫时页面加载不完全

头像

小妮浅浅

2021-05-13 10:38:263593浏览 · 0收藏 · 0评论

一、原因分析

如果页面没有完全加载,首先想到的可能性有两种

(1)部分数据在网页加载中由js动态写入,即首次请求中部分数据传递给js,js在前端处理后显示在页面上

(2)网页数据采用异步加载,爬取网页时没有加载一部分数据。

基于scrapy是成熟的爬虫框架的考虑,我认为第一种情况应该不会出现。

二、加载不全的解决

(1)正则表达式

(2)BeautifulSoup

使用 BeautifulSoup 的第一步是将己下载的 HTML 内容解析为 soup 文档 。由于大多数网页都不具备良好的 HTML 格式,因此 Beautiful Soup 需要对其实际格式进行确定。

(3)使用Lxml

以上就是爬虫时页面加载不完全的原因分析,需要我们对爬取数据的流程和爬虫的应用有比较好的掌握。爬虫的使用是离不开代理ip的参与,如果大家想测试使用下,可以尝试品易云http代理ip,免费测试包含各种类ip资源,调用IP量!更多常见问题解决:ip

(推荐操作系统:windows7系统、Python 3.9.1、DELL G3电脑。)

关注

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

底部广告图