猫眼网是一个非常受欢迎的电影网站,网站上有大量的电影数据,包括电影名称、演员阵容、电影时长、票房等信息。我们可以利用 Python 爬虫技术从猫眼网上爬取这些数据,并将其存储到 MySQL 数据库中。以下是具体的步骤:
1.需要安装相关的 Python 爬虫库
import requests
from lxml import etree
import pymysql
2.连接 MySQL 数据库
# 打开数据库连接
db = pymysql.connect("localhost", "root", "password", "test")
3.爬取猫眼网电影数据
def get_data():
# 请求猫眼网电影排行数据
response = requests.get('https://maoyan.com/board/4')
# 解析 HTML
tree = etree.HTML(response.text)
# 获取电影名称、电影主演、上映时间、评分和封面链接
movie_names = tree.xpath('//div[@class="movie-item-info"]/p[@class="name"]/a/@title')
movie_stars = tree.xpath('//p[@class="star"]/text()')
release_dates = tree.xpath('//p[@class="releasetime"]/text()')
movie_scores = tree.xpath('//p[@class="score"]/i[@class="integer"]/text()')
cover_urls = tree.xpath('//div[@class="movie-item"]//img/@src')
return zip(movie_names, movie_stars, release_dates, movie_scores, cover_urls)
4.将数据保存到 MySQL 数据库中
# 使用游标执行 SQL 语句
cursor = db.cursor()
# SQL 插入语句
sql = "INSERT INTO movies(name, stars, release_date, score, cover_url)
VALUES(%s, %s, %s, %s, %s)"
# 循环插入数据
for data in get_data():
cursor.execute(sql, data)
# 提交到数据库执行
db.commit()
以上就是将爬取到的猫眼网电影数据存储到 MySQL 数据库中的全部步骤。这样我们就能够将猫眼网的电影数据进行持久化,方便日后使用。