Как найти список всех материалов сайта с годом в названии
В работе с сайтами есть много рутинных задач, исполнения которых можно легко ускорить, если немного понимать как работать с данными. Рассмотрим простой пример — допустим у нас есть задача выбрать все материалы с сайта, в названии которых есть год.
Задачу конечно же можно решить запросом в базу данных сайта или потратить пару часов и сделать это все вручную, но мне нравятся варианты попроще.
Разделим задачу на 2 подзадачи:
- Получить весь список материалов из сайта
- Отфильтровать только те, в названии которых есть год
Получаем список всех материалов
Для этого перейдем в карту сайта и с помощью XQuery получим весь список материалов. Для этого нужно установить расширение XPath Helper в Chrome.
Теперь мы можем легко вытянуть список материалов:
- Ctrl + Shift + X — активация расширеня XPath Helper
- Удерживая Shift, выбираем один из материалов
3. Немного поправив запрос — получаем весь список материалов
4. Ctrl + A — копируем содержимое поля и вставляем в Notepad++
Фильтрация по нужной фразе
Теперь нам нужно оставить только те строки, в которых есть год. Для этого:
- Заходим в режим поиска/замены в Notepad++ : » Ctrl + H «
- С помощью регулярного выражения находим строки, которые не содержат цифры «201» (признак года).
- Заменяем их на пустые строки
- Удаляем пустые строки
В итоге за минуту работы у нас есть список нужных нам материалов
Leave a Comment