Как найти список всех материалов сайта с годом в названии

В работе с сайтами есть много рутинных задач, исполнения которых можно легко ускорить, если немного понимать как работать с данными. Рассмотрим простой пример — допустим у нас есть задача выбрать все материалы с сайта, в названии которых есть год.

Задачу конечно же можно решить запросом в базу данных сайта или потратить пару часов и сделать это все вручную, но мне нравятся варианты попроще.

Разделим задачу на 2 подзадачи:

  1. Получить весь список материалов из сайта
  2. Отфильтровать только те, в названии которых есть год

Получаем список всех материалов

Для этого перейдем в карту сайта и с помощью XQuery получим весь список материалов. Для этого нужно установить расширение XPath Helper в Chrome.

xpath

Теперь мы можем легко вытянуть список материалов:

  1.  Ctrl + Shift + X — активация расширеня XPath Helper
  2.  Удерживая Shift, выбираем один из материалов

xpath1

        3. Немного поправив запрос — получаем весь список материалов

xpath2

       4. Ctrl + A — копируем содержимое поля и вставляем в Notepad++

Фильтрация по нужной фразе

Теперь нам нужно оставить только те строки, в которых есть год. Для этого:

  1. Заходим в режим поиска/замены в Notepad++ : » Ctrl + H «
  2. С помощью регулярного выражения находим строки, которые не содержат цифры «201» (признак года).
  3. Заменяем их на пустые строки
  4. Удаляем пустые строки

regexp

regexp1

regexp2

В итоге за минуту работы у нас есть список нужных нам материалов