文章 > 爬虫实战 > python爬虫爬取新闻的简单实现

python爬虫爬取新闻的简单实现

Python爬虫

头像

宋雪维

2021-03-11 20:09:37829浏览 · 0收藏 · 0评论

1、爬虫思路:

定义编码形式并引入模块;

请求新闻网站URL,获取其text文本并解析;

通过select选择器定位解析文件指定的元素,返回一个列表并遍历;

获取相关内容。

2、具体实现

第一步:使用UTF-8编码形式定义文件(避免一些编码错误导致中文乱码),并引入相关模块。

# coding:utf-8
# 引入相关模块
import requests
from bs4 import BeautifulSoup
url = "http://news.qq.com/"

第二步:请求新闻网站URL,获取其text文本

wbdata = requests.get(url).text

第三步:解析获取到的文本

soup = BeautifulSoup(wbdata,'lxml')

第四步:通过select选择器定位解析文件指定的元素,返回一个列表

从解析文件中通过select选择器定位指定的元素,返回一个列表
news_titles = soup.select("div.text > em.f14 > a.linkto")

第五步:遍历返回的列表

for n in news_titles:

第六步:获取新闻标题及信息

 # 提取出标题和链接信息
    title = n.get_text()
    link = n.get("href")
    data = {
        '标题':title,
        '链接':link
    }
    print(data)

以上就是python爬虫爬取新闻的简单实现,大家可以尝试看看哦~更多python爬虫学习推荐:python爬虫教程

(推荐操作系统:windows7系统、Python 3.9.1,DELL G3电脑。)

关注公众号

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

底部广告图 底部广告图按钮