【爬虫实战用python爬今日头条热榜TOP50榜单！

2023年 9月 22日开发运维大白菜程序猿

一、爬取目标

您好！我是@马哥python说，一名10年程序猿。

今天分享一期爬虫案例，爬取的目标是：今日头条热榜的榜单数据。

打开今日头条首页，在页面右侧会看到头条热榜，如下：
爬取目标

爬取以上6个关键字段，含：

热榜排名,热榜标题,热度值,热榜标签,热榜分类,热榜链接。

开发者模式分析：
开发者分析

二、爬取结果

爬取结果截图：
部分数据

三、代码讲解

首先，导入需要用到的库：

import requests
import pandas as pd
import re

定义一个请求头：（爬取目标较简单，一个User-agent即可）

# 请求头
h1 = {
	'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Safari/605.1.15',
}

定义请求地址：

url = 'https://www.toutiao.com/hot-event/hot-board/?origin=toutiao_pc'

用requests发送请求：

# 发送请求
response = requests.get(url, headers=h1)

查看响应码并以json方式接收返回数据：

# 查看响应码
print(r.status_code)
# 接收返回数据
json_data = r.json()

定义一些空列表，用于存放数据：

title_list = []  # 热榜标题
value_list = []  # 热度值
url_list = []  # 热榜链接
category_list = []  # 热榜分类
label_list = []  # 热榜标签

以”热榜标题”字段为例：

for data in json_data['data']:
	# 热榜标题
	title = data['Title']
	print('热榜标题：', title)
	title_list.append(title)

其中，热榜链接比较特殊，接口中返回的url很长，形如：
某个热榜链接

可以看到，url中从?往后，都是不必要的请求参数。

所以，用正则表达式把?后面的全部删掉，提取出id，再进行拼接url，如下：

# 正则表达式提取出链接id

url3 = re.search(r"(?


                        
                                    版权声明：
                    作者：大白菜程序猿
                    链接：https://www.mryunwei.com/397515.html
                    文章版权归作者所有，未经允许请勿转载。
                            
                                                
                                                
                                
                    
                    
                        上一篇
                        通用规则引擎——Rush（一）可以自定义的规则引擎，告别发版，快速配置
                    
                
                                                
                    
                    
                        下一篇
                        JDK21你可以不用，新特性还是要了解的


        


    
    
                                    相关文章
    

            
    
                
            
                
            
            
                PHP + Go 双语言融合：我在生产项目中实现的架构方案
                2026-04-20
            
        
                
            
                
            
            
                国际通用语种代号表（ISO 639）中文版
                2025-09-18
            
        
                
            
                
            
            
                如何让 code-server 使用 vscode 官方插件仓库
                2025-09-18
            
        
                
            
                
            
            
                内网专用轻量级 SOCKS5 代理实现（nodejs ）
                2025-09-18
            
        
                
            
                
            
            
                Nginx 启用 HTTP/3 配置教程（含排障）
                2025-09-18
            
        
                
            
                
            
            
                使用分块传输编码突破CDN限制上传大文件
                2025-09-16


                                
                            
                    
            
                
                    
                
                
                    大白菜程序猿
                
            
            这个人很懒，什么都没有留下～

            

            
                
                    本月创作热力图
                    
                        少
                        
                            
                            
                            
                            
                        
                        多
                    
                
                
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                                            
                                    
            

            
                
                作者好文
                
                作者发言
            

            
                
                    
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                            
                
                
                    
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                                    
                                
                                
                            
                                            
                
            
        
        
文章榜
        
            1
            
            
                Linux平台mysql开启远程登录
            
        
                
            2
            
                
            
            
                CentOS命令ifconfig及CentOS命令行翻页
                                系统运维
                            
        
                
            3
            
                
            
            
                CentOS如何安装MySQL
                                系统运维
                            
        
                
            4
            
                
            
            
                phpMyadmin修复MySQL数据库，操作使用教程
                                数据运维
                            
        
                
            5
            
                
            
            
                怎么查看Win10的激活状态？
                                系统运维