Введение
grep
— одна из самых полезных и мощных команд Linux для обработки файлов. grep
ищет в одном или нескольких входных файлах строки, соответствующие регулярному выражению, и записывает каждую соответствующую строку в стандартный вывод.
В этой статье мы рассмотрим основы использования регулярных выражений в GNU-версии grep
, которая доступна по умолчанию в большинстве операционных систем Linux.
Grep регулярное выражение
Регулярное выражение или регулярное выражение — это шаблон, который соответствует ряду строк. Шаблон состоит из операторов, конструирует буквенные символы и метасимволы, которые имеют особое значение. GNU grep
поддерживает три синтаксиса регулярных выражений: базовый, расширенный и совместимый с Perl.
В своей простейшей форме, когда тип регулярного выражения не указан, grep
интерпретирует шаблоны поиска как базовые регулярные выражения. Чтобы интерпретировать шаблон как расширенное регулярное выражение, используйте параметр -E
(или --extended-regexp
).
В реализации GNU grep
нет функциональной разницы между базовым и расширенным синтаксисом регулярных выражений. Единственное отличие состоит в том, что в основных регулярных выражениях метасимволы ?
, +
, {
, |
, (
, и )
интерпретируются как буквенные символы. Чтобы сохранить особое значение метасимволов при использовании основных регулярных выражений, перед символами должна стоять обратная косая черта ( \
). Мы объясним значение этих и других метасимволов позже.
Как правило, вы всегда должны заключать регулярное выражение в одинарные кавычки, чтобы избежать интерпретации оболочки и расширения метасимволов.
Поиск буквальных символов (литеральные совпадения)
Самое простое использование команды grep
— это поиск буквального символа или последовательности символов в файле. Например, чтобы отобразить все строки, содержащие строку «bash» в /etc/passwd
, нужно выполнить следующую команду:
grep bash /etc/passwd
Вывод должен выглядеть так:
root:x:0:0:root:/root:/bin/bash
noviello:x:1000:1000:noviello:/home/noviello:/bin/bash
В этом примере строка «bash» — это простое регулярное выражение, состоящее из четырех буквенных символов. Это говорит grep
искать строку, в которой сразу за буквой «b» следуют «a», «s» и «h».
По умолчанию команда grep чувствительна к регистру. Это означает, что прописные и строчные символы рассматриваются как разные. Чтобы игнорировать чувствительность к регистру при поиске, используйте параметр -i
(или --ignore-case
).
Важно отметить, что grep
ищет шаблон поиска как строку, а не слово. Итак, если вы искали «gnu», grep
также напечатает строки, в которых «gnu» встроен в более крупные слова, такие как «cygnus» или «magnum».
Если строка поиска содержит пробелы, она должна быть заключена в одинарные или двойные кавычки:
grep "Gnome Display Manager" /etc/passwd
Анкеровка
Якоря — это метасимволы, которые позволяют указать, где в строке должно быть найдено совпадение.
Символ ^
(курсор) соответствует пустой строке в начале строки. В следующем примере строка «linux» будет соответствовать, только если она находится в начале строки.
grep '^linux' file.txt
Символ $
(доллар) соответствует пустой строке в начале строки. Чтобы найти строку, заканчивающуюся строкой «linux», вы должны использовать:
grep 'linux$' file.txt
Вы также можете построить регулярное выражение, используя оба якоря. Например, чтобы найти строки, содержащие только «linux», запустите:
grep '^linux$' file.txt
Другой полезный пример — шаблон ^$
, который соответствует всем пустым строкам.
Соответствие одному символу
Символ .
(точка) — это метасимвол, который соответствует любому одиночному символу. Например, чтобы найти что-либо, начинающееся с «nov» с двумя средними символами и заканчивающееся строкой «llo», используйте следующий шаблон:
grep 'nov..llo' file.txt
Скобочные выражения
Выражения со скобками позволяют сопоставить группу символов, заключив их в квадратные скобки []
. Например, чтобы найти строки, содержащие «принять» или «акцент», вы можете использовать следующее выражение:
grep 'acce[np]t' file.txt
Если первый символ внутри скобок является точкой вставки ^
, grep найдет любой одиночный символ, не заключенный в скобки. Следующий шаблон будет соответствовать любой комбинации строк, начинающихся с «co», за которой следует любая буква, кроме «l», за которой следует «la», например «coca», «cobalt» и т. д., но не будет соответствовать строкам, содержащим «cola». ":
grep 'co[^l]a' file.txt
Вместо того, чтобы помещать символы один за другим, вы можете указать диапазон символов в круглых скобках. Выражение диапазона строится путем указания первого и последнего символов диапазона, разделенных дефисом. Например, [aa]
эквивалентно [abcde]
, а [1-3]
эквивалентно [123]
.
Следующее выражение соответствует каждой строке, начинающейся с заглавной буквы:
grep '^[AZ]' file.txt
grep
также поддерживает предопределенные классы символов, заключенные в круглые скобки. В следующей таблице показаны некоторые из наиболее распространенных классов символов:
квантификатор | Классы персонажей |
---|---|
[:alnum:] | Буквенно-цифровые символы. |
[:alpha:] | Алфавитные символы. |
[:blank:] | Пробел и вкладка. |
[:digit:] | Цифры. |
[:lower:] | Строчные буквы. |
[:upper:] | Заглавные буквы. |
Полный список всех классов символов см. в руководстве по Grep.
квантификаторы
Квантификаторы позволяют указать количество вхождений элементов, которые должны присутствовать, чтобы произошло совпадение. В следующей таблице показаны квантификаторы, поддерживаемые GNU grep
:
квантификатор | Описание |
---|---|
* | Совпадение с предыдущим элементом ноль или более раз. |
? | Совпадение с предыдущим элементом ноль или один раз. |
+ | Совпадение с предыдущим элементом один или несколько раз. |
{n} | Совпадение с предыдущим элементом ровно n раз. |
{n,} | Совпадение с предыдущим элементом не менее n раз. |
{,m} | Совпадение с предыдущим элементом не более m раз. |
{n,m} | Совпадение с предыдущим элементом от n до m раз. |
Символ *
(звездочка) соответствует предыдущему элементу ноль или более раз. Следующая команда найдет «право», «правильно», «ссправо» и так далее:
grep 's*right'
Ниже приведен более сложный шаблон, который соответствует всем строкам, начинающимся с заглавной буквы и заканчивающимся точкой с запятой. Регулярное выражение .*
соответствует любому числу или любому символу:
grep -E '^[AZ].*[.,]$' file.txt
Характер ?
(вопросительный знак) делает предыдущий элемент необязательным и может найти только одно совпадение. Следующее будет соответствовать как «яркому», так и «правильному». Характер ?
ему предшествует обратная косая черта (экранирование), потому что мы используем базовые регулярные выражения:
grep 'b\?right' file.txt
Вот то же регулярное выражение, использующее расширенное регулярное выражение:
grep -E 'b?right' file.txt
Символ +
(плюс) соответствует предыдущему элементу один или несколько раз. Следующее будет соответствовать "sright" и "ssright", но не "right":
grep -E 's+right' file.txt
Фигурные скобки {}
позволяют указать точное число, верхний или нижний предел или диапазон вхождений, которые должны произойти, чтобы произошло совпадение.
Следующее соответствует всем целым числам, имеющим от 3 до 9 цифр:
grep -E '[[:digit:]]{3,9}' file.txt
Чередование
Термин чередование представляет собой простое «ИЛИ». Оператор чередования |
(pipe) позволяет указать несколько возможных совпадений, которые могут быть литеральными строками или наборами выражений. Этот оператор имеет самый низкий приоритет среди всех операторов регулярных выражений.
В приведенном ниже примере мы ищем все вхождения слов fatal
, error
и critical
в файле ошибок Nginx:
grep 'fatal\|error\|critical' /var/log/nginx/error.log
Если вы используете расширенное регулярное выражение, оператор |
не должен экранироваться, как показано ниже:
grep -E 'fatal|error|critical' /var/log/nginx/error.log
Группировка
Группировка — это функция регулярных выражений, позволяющая группировать шаблоны и использовать их как единый элемент ссылки. Группы создаются с помощью круглых скобок ()
.
При использовании базовых регулярных выражений перед скобками должна стоять обратная косая черта ( \
).
Следующий пример соответствует как «бесстрашному», так и «менее». Квантификатор ?
делает группу (fear)
необязательной:
grep -E '(fear)?less' file.txt
Специальные выражения обратной косой черты
GNU grep
включает в себя несколько метасимволов, состоящих из обратной косой черты, за которой следует обычный символ. В следующей таблице показаны некоторые из наиболее распространенных специальных выражений обратной косой черты:
Выражение | Описание |
---|---|
\b | Сопоставьте границу слова. |
\< | Совпадение с пустой строкой в начале слова. |
\> | Совпадение с пустой строкой в конце слова. |
\w | Сопоставьте слово. |
\s | Сопоставьте пробел. |
Следующий шаблон будет соответствовать отдельным словам "abject" и "object". Он не будет соответствовать словам, если включен в более крупные слова:
grep '\b[ao]bject\b' file.txt
Вывод
Регулярные выражения используются в текстовых редакторах, языках программирования и инструментах командной строки, таких как grep
, sed
и awk
. Знание того, как создавать регулярные выражения, может быть очень полезным при поиске текстовых файлов, написании скриптов или фильтрации вывода команд.