技术文章 > Python技术 >  Python爬虫 > 正文

python使用BeautSoup库爬取豆瓣电影

宋雪维

一、python爬虫BeautSoup库简介

BeautifulSoup是将复杂HTML文档转换成一个复杂的树形结构,每个节点都是python对象。

BeautifulSoup四种对象

1、tag

2、NavigableString

3、BeautifulSoup

4、Comment

二、BeautSoup库爬取豆瓣电影

1、使用原理

from bs4 import BeautifulSoup
import re

file = open("./bs4使用.html","rb")#笔者已经事先在bs4使用.html文件夹里写入了指定网页的代码源
#file.write()
html = file.read().decode("utf-8")
bs = BeautifulSoup(html,"html.parser")#html.parser是解析器
print(bs.title)
print("****")
print(bs.title.string) #只打印里面的东西 即字符串

2、提取豆瓣电影指定内容

print(bs.a)
print(bs.head)
print(type(bs.head)) #Tag 标签及其内容:只能拿到第一个

3、文档遍历,使用正则表达式搜索

#文档遍历

print(bs.head.contents)
print(bs.head.contents[1])

#文档的搜索
#字符串过滤:会查找与字符串完全匹配的内容
t_list = bs.find_all("a") #标签必须为a,才输出

#正则表达式搜索:使用search()方法来匹配内容
t_list = bs.find_all(re.compile("a")) #只要包含a这个字母,就都输出
免费视频教程
本教程部分素材来源于网络,版权问题联系站长!
相关文章
  python爬取今日热榜数据到txt文件
  Python爬取百度搜索风云榜实时热点.
  《你好,李焕英》票房破三十亿了!用Python抓取电影票房的数据!你贡献了一部分吗?
  使用python制作查q绑程序
  Python 的 collections 模块强化数据结构
  python中pyqt5复选框怎么用?
相关视频章节
  python初认识
  五分钟装好Python解释器
  写下你第一个Python程序
  ipython魔术命令
视频教程分类