品易云推流 关闭
文章 > 其他 > 怎么写爬虫

怎么写爬虫

爬虫

头像

小妮浅浅

2021-05-06 10:02:00930浏览 · 0收藏 · 0评论

(推荐操作系统:windows7系统、Python 3.9.1、DELL G3电脑。)

1、写爬虫流程

(1)明确爬取的数据需求。

(2)进行抓包分析、逆向、加密分析等操作。

(3)使用快速demo的方法实现。

(4)测试各种反爬虫门槛和方式。

2、实例

首先打开fiddler,打开百度在主页上输入fiddler这个关键词,然后单击搜索。

用fiddler抓住以下结构的httpraw,即原始请求,将以上请求写成python代码。

GET https://www.baidu.com/s?ie=utf-8&csq=1&pstg=20&mod=2&isbd=1&cqid=9c6a3121000073bd&istc=592&ver=0AptTQACOOLaje7bpKWCmO9W0LB-WyGVC93&chk=5ecfd530&isid=a343397400007821&ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=fiddler&fenlei=256&oq=fiddler&rsv_pq=a343397400007821&rsv_t=57b6eYcLSDA8QE1p50WhwfAEQ6DtQ2BjyjKulr6zpWMePo92BtEjK2Tabqw&rqlang=cn&rsv_dl=tb&rsv_enter=0&rsv_btype=t&bs=fiddler&f4s=1&_ck=3068.1.2.62.01837158203125.33.00523567199707.723.44&rsv_isid=31262_1420_31669_21113_31254_31673_31464_30824_26350&isnop=0&rsv_stat=-2&rsv_bp=1 HTTP/1.1
Host: www.baidu.com
Connection: keep-alive
Accept: */*
is_xhr: 1
X-Requested-With: XMLHttpRequest
is_referer: https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=fiddler&fenlei=256&oq=fiddler&rsv_pq=9cbfb72f00001a0b&rsv_t=ca35LmlDAlpp4wImuJMR9NXBcQut4VBFAYJaDEjaUVL19Y2IA%2FL9haMBOS0&rqlang=cn&rsv_dl=tb&rsv_enter=0&rsv_btype=t
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36
Sec-Fetch-Site: same-origin
Sec-Fetch-Mode: cors
Sec-Fetch-Dest: empty
Referer: https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=fiddler&fenlei=256&oq=fiddler&rsv_pq=a343397400007821&rsv_t=57b6eYcLSDA8QE1p50WhwfAEQ6DtQ2BjyjKulr6zpWMePo92BtEjK2Tabqw&rqlang=cn&rsv_dl=tb&rsv_enter=0&rsv_btype=t
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9
Cookie: BAIDUID=0EC9FE012CA3639152BDD3AB753EE226:FG=1; BIDUPSID=0EC9FE012CA3639152BDD3AB753EE226; PSTM=1561388885; BD_UPN=12314353; BD_HOME=1; H_PS_PSSID=31262_1420_31669_21113_31254_31673_31464_30824_26350; delPer=0; BD_CK_SAM=1; PSINO=7; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_PS_645EC=edcey0GmKppNfE6VNPwsilvMBjt9b1TPJA9ddNKrvMZHcUYM9O6D6VydSqg

以上就是写爬虫的方法,虽然我们有很多爬虫类型对数据进行获取,最主要的还是掌握核心的爬虫步骤,大家学会后也赶快练习下吧。爬虫使用时经常会用到代理ip,如果大家想测试使用下,可以尝试品易云http代理ip,免费测试包含各种类ip资源,无限调用IP量!更多常见问题解决:ip

关注公众号

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

底部广告图 底部广告图按钮