Xpath 进行爬虫开发:基本概念、语法、实战

2023年 7月 12日 35.8k 0

1. 开发前的准备

前面我们介绍的 XPath 基本的语法和基本操作,下面我们通过 lxml 库,来熟悉一下 XPath 的使用。

首先,我们需要一个测试文件,文件如下,文件名为 xpath_test.xml:




python item
java item
C item
java item
java item
java item



2. 基本语法

2.1 节点之间的关系

  • 父节点:每个元素都有一个父亲节点;
  • 子节点:每个元素节点可以有零个,一个或者多个父亲节点;
  • 兄弟节点:相同父亲节点的节点;
  • 先辈节点:一个元素的父亲节点的父亲节点;
  • 后辈节点:一个元素的子节点的子节点。

表达式基本语法

表达式

功能简介

node

选取node下面的所有的节点

/node

斜杠是代表绝对路径,这个表达式语法的意思就是选择根上的node

//node

选择所有的node的节点,与XML的位置无关

.

选择当前节点

选择当前节点的父亲节点

node/child

选取node子节点的所有的child元素

node//child

选取所有后备节点的chiid信息

//@href

选取所有的href的属性

2.2 谓语与通配符

表达式

功能简介

/books/python[1]

选取books子元素中的第一个python元素

/books/python[last()]

选取books子元素中的最后一个元素

/books/python[position()

相关文章

JavaScript2024新功能:Object.groupBy、正则表达式v标志
PHP trim 函数对多字节字符的使用和限制
新函数 json_validate() 、randomizer 类扩展…20 个PHP 8.3 新特性全面解析
使用HTMX为WordPress增效:如何在不使用复杂框架的情况下增强平台功能
为React 19做准备:WordPress 6.6用户指南
如何删除WordPress中的所有评论

发布评论