# БИБЛИОТЕКА Статистика Требования в проектах Redmine Управление Критическая цепь Стейкхолдеры Информация Социальные связи Экономика и общество Саморазвитие Логика, интеллект Системная инженерия Сумма технологии ТЕСТИРОВАНИЕ Книги и ссылки QA и QC Этапы тестирования Тест план Тестовые случаи Баг-репорт Метрики Уровни тестирования Виды тестирования Шаблоны документов XPATH Безопасность Нагрузочное Android Автоматизация Selenium WebDriver Генератор ИНН и т.п. РАЗРАБОТКА Ресурсы Цикл разработки ПО Continuous Integration OOP - базис Frontend HTTP/REST основы Apache web-server Регулярные выражения git Javascript Perl Python Ruby Rust Полезности в Windows LINUX Ресурсы права, юзеры и группы crontab IP tables SSH консоль (терминал) tips & tricks useful apps БАЗЫ ДАННЫХ SQL MongoDB
Эта страница:
- XPATH и с чем его едят
Ещё в этом разделе:
ТЕСТИРОВАНИЕ XPATH Безопасность Нагрузочное Android Автоматизация Selenium WebDriver Генератор ИНН и т.п.
Другие разделы:
# MONGO DB SQL РАЗРАБОТКА БИБЛИОТЕКА LINUX ТЕСТИРОВАНИЕ
Xpath
XPATH и с чем его едят

статья "Примеры xpath-запросов к html"

Спецификация XPath 1.0

Xpath — это язык запросов к элементам xml или xhtml документа. Также как SQL, xpath является декларативным языком запросов. Чтобы получить интересующие данные, необходимо всего лишь создать запрос, описывающий эти данные. Всю "чёрную" работу за вас выполнит интерпретатор языка xpath.

Выражения XPath создаются с помощью операторов и специальных символов, приведённых в следующей таблице:

/ Оператор "дочерний элемент": выбирает непосредственные дочерние элементы коллекции, указанной слева.
Если этот оператор пути стоит в начале шаблона, будут выбраны дочерние элементы корневого узла.
// Рекурсивный спуск; поиск заданного элемента на любой глубине.
Если этот оператор пути стоит в начале шаблона, рекурсивный спуск будет вестись из корневого узла.
. Указывает текущий контекст.
.. Родитель текущего узла контекста.
* Символ-шаблон; выбирает все элементы независимо от их имени.
@ Атрибут; префикс имени атрибута.
@* Символ-шаблон атрибута; выбирает все атрибуты независимо от имени.
: Разделитель пространства имени; отделяет префикс пространства имени от собственно имени элемента или атрибута.
( ) Группирует операции для явного задания порядка их выполнения.
[ ] Применяет шаблон фильтра.
[ ] Оператор индекса; используется для индексирования коллекции.
+ Выполняет сложение.
- Выполняет вычитание.
div Выполняет деление с плавающей запятой по стандарту IEEE 754.
* Выполняет умножение.
mod Возвращает остаток от деления по модулю.
last() Возвращает последний элемент коллекции.
Например, ul/li/div/p[last()] возвратит последние параграфы для каждого узла списка ul
text() Возвращает текстовое содержание элемента.
Например, .//a[text() = 'Archive'] получает все ссылки с текстом "Archive".

В следующей таблице показан приоритет операторов сравнения и логических операторов (от высокого к низкому):
Очерёдность Операторы Описание
1 ( ) Группирование
2 [ ] Фильтры
3 / // Операции с путями
4 < <= > >= Сравнения.
Например,
ul/li[position() > 2] - элементы списка, начиная с 3-го номера
ul/li[position() <= 2] - элементы списка, начиная с 2го номера и менеее
5 = != Сравнения
6 | Объединение
7 not() Логическое НЕ
8 And Логическое И
9 Or Логическое ИЛИ

Приоритет операций (от высокого к низкому) определяется согласно следующей таблице:
Очерёдность Символ Написание
1 ( ) Группирование
2 [ ] Фильтры
3 / // Операции с путями

Оператор группирования, (), применим только для выражения пути верхнего уровня. Например,(//author/degree | //author/name) — допустимая операция группирования, а //author/(degree | name) — недопустимая.

Операторы шаблонов фильтра ([]) имеют более высокий приоритет, чем операторы пути (/ и //). Например, выражение //comment()[3] выбирает все комментарии с индексом, равным 3, связанные с родительским элементом комментария в любом месте документа. Оно отличается от выражения (//comment())[3], выбирающего третий комментарий из множества всех комментариев, связанных с родительским элементом. Первое выражение может вернуть несколько комментариев, а второе — только один.

Эти операторы и специальные символы подробно описаны в данном руководстве.



Операторы пути

С помощью операторов пути (/ и //) можно описать коллекцию элементов определенного типа. Эти операторы принимают в качестве аргументов коллекцию "с левой стороны", из которой производится выбор, и коллекцию "с правой стороны" как инструкцию, указывающую, какие элементы нужно выбирать. Оператор "дочерний элемент" (/) производит выбор из непосредственных дочерних элементов левой коллекции, в то время как оператор "потомок" (//) производит выбор из всех потомков коллекции левой стороны. Оператор // можно рассматривать как подстановку для одного или нескольких уровней иерархии.

Следует заметить, что операторы пути изменяют контекст по мере выполнения запроса. Соединив несколько операторов пути, можно просмотреть все дерево документа.

Примеры:
Выражение Ссылается на
author/first-name Все элементы <first-name> внутри элемента <author> текущего узла контекста.
bookstore//title Все элементы <title> на первом или более глубоких уровнях элемента <bookstore> (потомки произвольного уровня). Обратите внимание на отличие от следующего шаблона:bookstore/*/title.
bookstore//book/excerpt//emph Все элементы <emph> в любом месте внутри элементов <excerpt>, дочерних по отношению к элементам <book>, находящимся в любом месте внутри элемента <bookstore>.
.//title Все элементы <title> на первом или более глубоких уровнях текущего контекста. Обратите внимание, что только в этой ситуации требуется нотация с использованием точек.


Символ-шаблон

Элемент можно использовать, не указывая его имя, с помощью коллекции символов-шаблонов (*). Коллекция* означает все элементы, являющиеся дочерними для текущего контекста, независимо от имени тега.

Примеры:
Выражение Ссылается на
author/* Все дочерние элементы элементов <author>.
book/*/last-name Все элементы <last–name>, являющиеся "внуками" элементов <book>.
*/* Все элементы-внуки текущего контекста.
my:book Элемент <book> из пространства имен my.
my:* Все элементы из пространства имен my.


Атрибуты

В языке XPath имена атрибутов включают символ @. Атрибуты и дочерние элементы обрабатываются одинаково, и эти два типа считаются эквивалентными везде, где это возможно.

Атрибуты не могут содержать дочерних элементов, поэтому применение операторов пути к атрибутам порождает синтаксические ошибки. Кроме того, к атрибутам нельзя применять индексы, поскольку их порядок по определению не задан.

Примеры:
Выражение Ссылается на
@style Атрибут style контекста текущего элемента
price/@exchange Атрибут exchange элементов <price> в текущем контексте
book/@style Атрибут style всех элементов <book>

Следующий пример содержит ошибку, поскольку у атрибута не может быть дочерних элементов: price/@exchange/total


Поиск нескольких атрибутов

Все атрибуты элемента можно получить с помощью метода @*. Это может быть полезно для приложений, рассматривающих атрибуты как поля записи.

Примеры:
Выражение Ссылается на
@* Все атрибуты текущего узла контекста.
@my:* Все атрибуты из пространства имен my. Сюда не входят неуточненные атрибуты, принадлежащие элементам из пространства имен my.