为什么爬虫时页面加载不完全-Python学习网

为什么爬虫时页面加载不完全

小妮浅浅

2021-05-13 10:38:263593浏览 · 0收藏 · 0评论

一、原因分析

如果页面没有完全加载，首先想到的可能性有两种

（1）部分数据在网页加载中由js动态写入，即首次请求中部分数据传递给js，js在前端处理后显示在页面上

（2）网页数据采用异步加载，爬取网页时没有加载一部分数据。

基于scrapy是成熟的爬虫框架的考虑，我认为第一种情况应该不会出现。

二、加载不全的解决

（1）正则表达式

（2）BeautifulSoup

使用 BeautifulSoup 的第一步是将己下载的 HTML 内容解析为 soup 文档。由于大多数网页都不具备良好的 HTML 格式，因此 Beautiful Soup 需要对其实际格式进行确定。

（3）使用Lxml

以上就是爬虫时页面加载不完全的原因分析，需要我们对爬取数据的流程和爬虫的应用有比较好的掌握。爬虫的使用是离不开代理ip的参与，如果大家想测试使用下，可以尝试品易云http代理ip，免费测试包含各种类ip资源，调用IP量！更多常见问题解决：ip

（推荐操作系统：windows7系统、Python 3.9.1、DELL G3电脑。）

关注公众号，随时随地在线学习

本教程部分素材来源于网络，版权问题联系站长!

热门课程查看全部