Портал для веб-мастера

Инструменты для Бизнеса

Вход пользователей
Поиск статей
WoWeb.ru » Статьи » Программирование для Web » PERL/CGI

Регулярные выражения
Регулярные выражения Perl - мощный инструмент для поиска и обработки текста, в то же время позволяющий реализовать в одной строке программного кода довольно сложные операции.

В качестве примера можно привести такую задачу: нужно заменить в какой-либо строке все знаки "+" на пробелы. В воплощении на C это выглядело бы так:

void PlusToSpace(char *str) { 	register int i; 	for (i=0;str[i];i++) 		if(str[i]=='+') 			str[i]=' '; 	} 

На Perl же эта задача выполняется гораздо быстрее:

$str=~tr/+/ /; 

Именно это и дает Perl'у преимущество перед программами, например, на C, в применении в web-области.

Формат выражения выглядит так:

/pattern/ 
где pattern и представляет собой маску, состоящую из любых элеменов из этого списка:

/pattern/ Соответствие
x? ноль или один символ 'x'
x* ноль или больше символов 'x'
x+ один или больше символов 'x'
.* ноль или больше любых символов
.+ один или больше любых символов
{m} M символов
[] символы, заключенные в []
[^] символы, кроме заключенных в []
[0-9] любая цифра от '0' до '9'
[a-z] любая буква от 'a' до 'z'
[^0-9] любой символ, не находящийся между '0' и '9'
[^a-z] любой символ, не находящийся между 'a' и 'z'
/^.../ первый символ в строке
/...$/ последний символ в строке
\d одна цифра, то же, что и [0-9]
\d+ одна или больше цифр, то же, что и [0-9]+
\D одна не-цифра, то же, что и [0-9]
\D+ одна или больше не-цифр, то же, что и [0-9]+
\w один alphanumeric символ (латинская буква или цифра), то же, что и [a-zA-Z0-9]
\w+ один или больше alphanumeric-символов, то же, что и [a-zA-Z0-9]+
\W один не-alphanumeric символ, то же что и [^a-zA-Z0-9]
\W+ один или больше не-alphanumeric символ, то же что и [^a-zA-Z0-9]+
\s один space символ (пробел, табуляция, новая строка), то же что и [\n\t\r\f]
\s+ один или больше space символов, то же что и [\n\t\r\f]
\S один не-space символ, то же что и [^\n\t\r\f]
\S+ один или больше не-space символов, то же что и [^\n\t\r\f]+
a|b|c 'a' или 'b' или 'c'
abc подстрока "abc"
(pattern) () запоминает группу символов, присваивая их переменным $1, $2 и т.д. См. примеры.
/pattern/i игнорировать регистр букв

Это, конечно, не понять с первого раза, поэтому вот примеры:

Пример Описание
$str=~/perl/; проверяет, есть ли в строке $str подстрока "perl"
$str=~/^perl/; проверяет, начинается ли строка с подстроки "perl"
$str=~/perl$/; проверяет, заканчивается ли строка на подстроку "perl"
$str=~/c|g|i/; проверяет, содержит ли строка символ 'c' или 'g' или 'i'
$str=~/cg{2,4}i/; проверяет, содержит ли строка символ 'c', следующие сразу за ним 2-4 символа 'g', за которыми следует символ 'i'
$str=~/cg*i/; проверяет, содержит ли строка символ 'c', слудующие за ним 0 или больше символа 'g', за которыми следует символ 'i'
$str=~/c..i/; проверяет, содержит ли строка символ 'c', и символ 'i', разделенные двумя любыми буквами
$str=~/[cgi]/; проверяет, содержит ли строка один из символов 'c', 'g' или 'i'
$str=~/\d/; проверяет, содержит ли строка цифру
$str=~/\W/; проверяет, содержит ли строка символы, не являющиеся буквами латинского алфавита и цифрами

Использование regular expressions

=~ (проверка соответствия строки маске)

Этот оператор выполняет функцию, схожую c функцией оператора ==, сравнивая переменную, содержащую строку с маской.

Пример 1:

	$string="I love cgi"; 	if($string=~/cgi/) { 		print "верно"; 		} 

Пример 2:

	$string="chmod 755 test.cgi"; 	if($string=~/[a-z]+\s\d+\s.*/) { 		print "верно"; 		} # 'chmod' -- [a-z]+ - 1 или больше букв # ' ' -- \s - 1 пробел # '755' -- \d+ - 1 или больше цифр # ' ' -- \s - 1 пробел # 'test.cgi' -- .* - дальше идут любые символы 

Пример 3: проверка, e-mail адреса

	$string="billgates@microsoft.com"; 	if($string=~/\w+\@\w+\.\w+/) { 		print "верно"; 		} # 'billgates' -- \w+ - 1 или больше букв/цифр # '@' -- \@ - символ @ # 'microsoft' -- \w+ - 1 или больше букв/цифр # '.' -- \. - символ . # 'com' -- \w+ - 1 или больше букв/цифр 

!~ (проверка несоответствия строки маске)

Этот оператор является обратным оператору =~ (так же как != явл обратным по отношению к ==).

tr (перевод)

Аргументами этой функции эвляются две маски с одинаковым количеством элементов.

$string=tr/SEARCHLIST/REPLACELIST/; 

А занимается она тем, что заменяет элемент из SEARCHLIST соответствующим элементом из REPLACELIST.

Пример 1:

	$string="testing"; 	$string=~tr/et/ET; # Сейчас $string="TEsTing"; 	$string=~tr/a-z/A-Z/; # А сейчас $string="TESTING"; 

Пример 2:

	$string="I+like+CGI"; 	$string~tr/+/ /; # Сейчас $string="I Like CGI"
 

s (замена)

Эта функция заменяет часть строки, соответствующую PATTERN на REPLACE.

$string=s/PATTERN/REPLACE/eg; 

Где 'e' и 'g' - необязательные параметры:

  • g - заменяет все встречающиеся части строка, соответствующие PATTERN. Если этот параметр опущен - заменяет только первое соответствие.
  • e - означает что REPALCE является выражением, а не просто строкой (в REPLACE содержатся переменные)

Пример 1:

	$string="i:love:perl"; 	$string=~s/:/*/; # now $string="i*love:perl" 	$string=~s/:/*/; # now $string="i*love*perl" 	$string=~s/*/+/g; # now $string="i+love+perl" 	$string=~s/+/ /g; # now $string="i love perl" 	$string=~s/perl/cgi/; # now $string="i love cgi" 

Пример 2:

	$string="i love perl"; 	$string=~s/(love)/<$1>/; # теперь $string="i  perl" # Сдесь первое найденное слово "love" # присваевается переменной $1 

Пример 3:

	$string="www22cgi44"; 	$string=~s/(\d+)/$1*3/eg; #сейчас $string="www66cgi132"; # Параметр 'e' показывает # что $1*2 - вычисление, а не просто строка 

/pattern/

Работу этой функции поясняют примеры:

Пример 1

 $string="chmod 711 cgi"; $string=~/(\w+)\s+(\d+)/; 
  • (\w+) соответствует любому количуству букв. Соотвествие, найденное в строке будет присвоено переменной $1.
  • \s+ соответствует любому количуству пробелов.
  • (\d+) соответствует любому количуству цифр. Соотвествие, найденное в строке будет присвоено переменной $2.

Теперь $1="chmod", $2="711"

Пример 2:

	$string="chmod 711 cgi"; 	@list=split(/\s+/,$string); # разбить строку $string, 	 # используя пробелы 	 # в качестве разделителей 

Получим массив:

 @list=("chmod","711","cgi"); 
Добавлена: 2003-12-22
Источник статьи · Просмотров: 3134 · Рейтинг: 0.0

Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Категории раздела
Flash
Apache
WWW
PhotoShop
Веб-дизайн
Раскрутка и реклама
Базы данных
3D графика
Хостинг
Истории веб-мастеров
Web-технологии
Сетевая безопасность
Программирование для Web
Операционные системы

Новые статьи
Лучшие статьи
Популярные статьи
Комментируемые статьи
Разделы сайта
Скрипты
Статьи
Шрифты
Флэш исходники
HTML шаблоны
Партнерки
Клипарты
Смайлы
Фоны
Гифы
Иконки
Опрос сайта
Есть ли у вас свой сайт?
Всего ответов: 141619
Наша кнопка
WoWeb.ru - портал для веб-мастера