XPath 是用于在 XML/HTML 中定位节点的查询语言,核心语法包括绝对路径(/)与相对路径(//)、属性筛选(如 @type='text')、文本匹配(text())、位置索引([3])及 contains() 等函数,结合 Chrome 控制台和 Selenium 可高效完成元素定位。
XPath 是用来在 XML 或 HTML 文档中定位节点的查询语言,网页抓取、自动化测试(如 Selenium)和浏览器开发者工具里经常用到。掌握几个核心语法,就能快速定位元素,不用死记硬背全部规则。
最简单的 XPath 就是用 / 和 // 区分绝对与相对路径:
下的直接子 (相对路径,更常用、更健壮)
-
//a[@href]:找到所有带
href 属性的 标签
用属性精准定位:比 class 或 id 更灵活
光靠标签名太宽泛,加属性条件才是日常主力用法:
-
//input[@type='text']:找 type 值为 text 的 input 元素
-
//button[contains(@class, 'submit')]:class 属性包含 "submit"(适合 class 多值如
class="btn submit primary")
-
//*[starts-with(@id, 'user_')]:id 以 "user_" 开头的任意元素
-
//img[@alt and not(@src)]:有 alt 属性但没 src 属性的图片(常用于检测缺失资源)
文本内容和位置筛选:处理重复结构很实用
当多个元素长得一样,就得靠文字或顺序区分:
-
//li[text()='首页']:文字完全等于“首页”的列表项
-
//span[contains(text(), '价格')]/following-sibling::em:先找到含“价格”的 span,再选它后面同级的
-
(//div[@class='item'])[3]:取第 3 个 class 为 item 的 div(括号不能少,否则
//div[@class='item'][3] 含义不同)
-
//tr[td/text()='张三']/td[2]:在某行中第一列是“张三”的表格行,取该行第二列
小技巧和避坑提醒
实际写 XPath 时,这几个点不注意就容易白忙活:
- 属性值带空格或特殊字符?用单引号包住整个值,比如 //a[@title='编辑 用户']
- HTML 中 class 名经常动态生成(如
加哈希),优先用 contains(@class, 'btn') 而不是 @class='btn'
- Chrome 控制台里按 Ctrl+F(或 Cmd+F)可直接在 Elements 面板里试 XPath,匹配到的节点会高亮
- Selenium 中用
find_element(By.XPATH, "..."),注意 Python 字符串里反斜杠要双写或用原始字符串 r"//div[@data-id='100']"
基本上就这些。用熟了 //、@attr、contains()、text() 和位置索引,90% 的定位需求都能解决。不需要一次学完所有函数,边用边查反而记得牢。