perl中grep的详细用法

最近一直在学习perl语言,下面介绍下如果和在perl编程中使用强大的grep函数。
1. Grep函数
grep有2种表达方式:

grep BLOCK LIST
grep EXPR, LIST

BLOCK表示一个code块,通常用{}表示;EXPR表示一个表达式,通常是正则表达式。原文说EXPR可是任何东西,包括一个或多个变量,操作符,文字,函数,或子函数调用。
LIST是要匹配的列表。
grep对列表里的每个元素进行BLOCK或EXPR匹配,它遍历列表,并临时设置元素为$_。在列表上下文里,grep返回匹配命中的所有元素,结果也是个列表。在标量上下文里,grep返回匹配命中的元素个数。
2. Grep 和 loops

open FILE "<myfile" or die "Can't open myfile: $!";
print grep /terrorism|nuclear/i, <FILE>;

这里打开一个文件myfile,然后查找包含terrorism或nuclear的行。<FILE>返回一个列表,它包含了文件的完整内容。可能你已发现,如果文件很大的话,这种方式很耗费内存,因为文件的所有内容都拷贝到内存里了。
当然你也可以使用loop(循环)来完成:

while ($line = <FILE>;) {
if ($line =~ /terrorism|nuclear/i) { print $line }
}

上述code显示,loop可以完成grep能做的任何事情。那为什么还要用grep呢?答案是grep更具perl风格,而loop是C风格的。
更好的解释是:(1)grep让读者更显然的知道,你在从列表里选择某元素;(2)grep比loop简洁。
一点建议:如果你是perl新手,那就规矩的使用loop比较好;等你熟悉perl了,就可使用grep这个有力的工具。
3.几个grep的示例

1. 统计匹配表达式的列表元素个数

$num_apple = grep /^apple$/i, @fruits;

在标量上下文里,grep返回匹配中的元素个数;在列表上下文里,grep返回匹配中的元素的一个列表。
所以,上述code返回apple单词在@fruits数组中存在的个数。因为$num_apple是个标量,它强迫grep结果位于标量上下文里。
2. 从列表里抽取唯一元素

@unique = grep { ++$count{$_} < 2 }
qw(a b a c d d e f g f h h);
print "@unique\n";

上述code运行后会返回:a b c d e f g h
即qw(a b a c d d e f g f h h)这个列表里的唯一元素被返回了。为什么会这样呀?让我们看看:
%count是个hash结构,它的key是遍历qw()列表时,逐个抽取的列表元素。++$count{$_}表示$_对应的hash值自增。在这个比较上下文里,++$count{$_}与$count{$_}++的意义是不一样的哦,前者表示在比较之前,就将自身值自增1;后者表示在比较之后,才将自身值自增1。所以,++$count{$_} < 2 表示将$count{$_}加1,然后与2进行比较。$count{$_}值默认是undef或0。所以当某个元素a第一次被当作hash的关键字时,它自增后对应的hash值就是1,当它第二次当作hash关键字时,对应的hash值就变成2了。变成2后,就不满足比较条件了,所以a不会第2次出现。
所以上述code就能从列表里唯一1次的抽取元素了。
2. 抽取列表里精确出现2次的元素

@crops = qw(wheat corn barley rice corn soybean hay
alfalfa rice hay beets corn hay);
@duplicates = grep { $count{$_} == 2 }
grep { ++$count{$_} >; 1 } @crops;
print "@duplicates\n";

运行结果是:rice
这里grep了2次哦,顺序是从右至左。首先grep { ++$count{$_} >; 1 } @crops;返回一个列表,列表的结果是@crops里出现次数大于1的元素。
然后再对产生的临时列表进行grep { $count{$_} == 2 }计算,这里的意思你也该明白了,就是临时列表里,元素出现次数等于2的被返回。
所以上述code就返回rice了,rice出现次数大于1,并且精确等于2,明白了吧? 🙂
3. 在当前目录里列出文本文件

@files = grep { -f and -T } glob '* .*';
print "@files\n";

glob返回一个列表,它的内容是当前目录里的任何文件,除了以’.’开头的。{}是个code块,它包含了匹配它后面的列表的条件。这只是grep的另一种用法,其实与 grep EXPR,LIST 这种用法差不多了。-f and -T 匹配列表里的元素,首先它必须是个普通文件,接着它必须是个文本文件。据说这样写效率高点哦,因为-T开销更大,所以在判断-T前,先判断-f了。
4. 选择数组元素并消除重复

@array = qw(To be or not to be that is the question);
@found_words =
grep { $_ =~ /b|o/i and ++$counts{$_} < 2; } @array;
print "@found_words\n";

运行结果是:To be or not to question
{}里的意思就是,对@array里的每个元素,先匹配它是否包含b或o字符(不分大小写),然后每个元素出现的次数,必须小于2(也就是1次啦)。
grep返回一个列表,包含了@array里满足上述2个条件的元素。
5. 从二维数组里选择元素,并且x<y

# An array of references to anonymous arrays
@data_points = ( [ 5, 12 ], [ 20, -3 ],
[ 2, 2 ], [ 13, 20 ] );
@y_gt_x = grep { $_->;[0] < $_->;[1] } @data_points;
foreach $xy (@y_gt_x) { print "$xy->;[0], $xy->;[1]\n" }

运行结果是:
5, 12
13, 20
这里,你应该理解匿名数组哦,[]是个匿名数组,它实际上是个数组的引用(类似于C里面的指针)。
@data_points的元素就是匿名数组。例如:

foreach (@data_points){
print $_->;[0];}

这样访问到匿名数组里的第1个元素,把0替换成1就是第2个元素了。
所以{ $_->;[0] < $_->;[1] }就很明白了哦,它表示每个匿名数组的第一个元素的值,小于第二个元素的值。
而grep { $_->;[0] < $_->;[1] } @data_points; 就会返回满足上述条件的匿名数组列表。

perl的unless控制结构的用法

在perl的if控制结构中,只有当条件表达式为真时才执行某块代码。如果想让程序块在条件为假时才执行,此时可以把if改成unless

unless ($fred =~ /^([A-Z_]\w*$/i) {
print "The value of \$fred doesn't look like a Perl identifier name. \n";
}

使用unless意味着,要么条件为真,要么执行某块代码。这就好像使用if控制结构来判断相反的条件。另一种说法是它类似于独立的else子句。也就是说,当看不懂某个unless语句时,可以用如下的if语句来代替:

if ($fred =~ /^([A-Z_]\w*$/i) {
//什么都不做
} else {
print "The value of \$fred doesn't look like a Perl identifier name. \n";
}

如此操作与运行效率高低无关,两种写法应该会被统译成相同的内部字节码。另外一个改写的方法,就是以取反操作符!来否定条件:

if ( ! ($fred =~ /^([A-Z_]\w*$/i) ) {
print "The value of \$fred doesn't look like a Perl identifier name. \n";
}

通常应该选择最容易理解的方法来写代码,因为这通常对于维护程序员来说也是最容易理解的。如果用if来表达最合适,那么就这么写也行。但是更多的情况下使用unless能使你的表达更加自然。
unless附带的else子句
其实哪怕是在unless结构中也可以使用else语句,虽然支持这样的语法,但是可能会导致困惑:

#!/usr/bin/perl -w
unless ($mon =~ /^Feb/) {
print "This month has at least thirty days.\n";
} else {
print "Do you see what's going on here?\n";
}
#如果用if语句我们可以写成这样:
if ($mon =~ /^Feb/) {
print "Do you see what's going on here?\n";
} else {
print "This month has at least thirty days.\n";
}

perl基础语法解析:Perl数组和列表用法

本文和大家重点讨论一下Perl语法中Perl数组和列表,列表是包含在括号里的一序列的值,可以为任何数值,也可为空,如:(1,5.3,”hello”,2),空列表:()。
Perl数组和列表简介
一、列表
列表是包含在括号里的一序列的值,可以为任何数值,也可为空,如:(1,5.3,”hello”,2),空列表:()。
注:只含有一个数值的列表(如:(43.2))与该数值本身(即:43.2)是不同的,但它们可以互相转化或赋值。
列表例:

(17,$var,"astring")
(17,26<<2)
(17,$var1+$var2)
($value,"Theansweris$value")

二、Perl数组–列表的存储
列表存贮于Perl数组变量中,与简单变量不同,Perl数组变量以字符”@”打头,如:

@array=(1,2,3);

注:
(1)Perl数组变量创建时初始值为空列表:()。
(2)因为PERL用@和$来区分Perl数组变量和简单变量,所以同一个名字可以同时用于Perl数组变量和简单变量,如:

$var=1;
@var=(11,27.1,"astring");

但这样很容易混淆,故不推荐。
1、Perl数组的存取
对Perl数组中的值通过下标存取,第一个元素下标为0。试图访问不存在的Perl数组元素,则结果为NULL,但如果给超出Perl数组大小的元素赋值,则Perl数组自动增长,原来没有的元素值为NULL。如:

@array=(1,2,3,4);
$scalar=$array[0];
$array[3]=5;#now@arrayis(1,2,3,5)
$scalar=$array[4];#now$scalar=null;
$array[6]=17;#now@arrayis(1,2,3,5,"","",17)
Perl数组间拷贝
@result=@original;

用Perl数组给列表赋值

@list1=(2,3,4);
@list2=(1,@list1,5);#@list2=(1,2,3,4,5)

Perl数组对简单变量的赋值

(1)@array=(5,7,11);
($var1,$var2)=@array;#$var1=5,$var2=7,11被忽略
(2)@array=(5,7);
($var1,$var2,$var3)=@array;#$var1=5,$var2=7,$var3=""(null)

从标准输入(STDIN)给变量赋值

$var=<STDIN>;
@array=<STDIN>;#^D为结束输入的符号

2、字符串中的方括号和变量替换
“$var[0]”为Perl数组@var的第一个元素。
“$var\[0]”将字符”[“转义,等价于”$var”.”[0]”,$var被变量替换,[0]保持不变。
“${var}[0]”亦等价于”$var”.”[0]”。
“$\{var}”则取消了大括号的变量替换功能,包含文字:${var}.
3、列表范围:

(1..10)=(1,2,3,4,5,6,7,8,9,10)
(2,5..7,11)=(2,5,6,7,11)
(3..3)=(3)

用于实数

(2.1..5.3)=(2.1,3.1,4.1,5.1)
(4.5..1.6)=()

用于字符串

("aaa".."aad")=("aaa","aab","aac","aad")
@day_of_month=("01".."3

1″)
可包含变量或表达式
($var1..$var2+5)
小技巧:

$fred="Fred";
print(("Hello,".$fred."!\n")x2);

其结果为:
Hello,Fred!
Hello,Fred!
4、Perl数组的输出:
(1)@array=(1,2,3);
print(@array,”\n”);
结果为:123
(2)@array=(1,2,3);
print(“@array\n”);
结果为:123
5、列表/Perl数组的长度
当Perl数组变量出现在预期简单变量出现的地方,则PERL解释器取其长度。
@array=(1,2,3);
$scalar=@array;#$scalar=3,即@array的长度
($scalar)=@array;#$scalar=1,即@array第一个元素的值
注:以Perl数组的长度为循环次数可如下编程:

$count=1;
while($count<=@array){
print("element$count:$array[$count-1]\n");
$count++;
}

6、子Perl数组

@array=(1,2,3,4,5);
@subarray=@array[0,1];#@subarray=(1,2)
@subarray2=@array[1..3];#@subarray2=(2,3,4)
@array[0,1]=("string",46);#@array=("string",46,3,4,5)now
@array[0..3]=(11,22,33,44);#@array=(11,22,33,44,5)now
@array[1,2,3]=@array[3,2,4];#@array=(11,44,33,5,5)now
@array[0..2]=@array[3,4];#@array=(5,5,"",5,5)now

可以用子Perl数组形式来交换元素:
@array[1,2]=@array[2,1];
7、有关Perl数组的库函数
(1)sort–按字符顺序排序

@array=("this","is","a","test");
@array2=sort(@array);#@array2=("a","is","test","this")
@array=(70,100,8);
@array=sort(@array);#@array=(100,70,8)now

(2)reverse–反转Perl数组

@array2=reverse(@array);
@array2=reversesort(@array);

(3)chop–Perl数组去尾
chop的意义是去掉STDIN(键盘)输入字符串时最后一个字符–换行符。而如果它作用到Perl数组上,则将Perl数组中每一个元素都做如此处理。

@list=("rabbit","12345","quartz");
chop(@list);#@list=("rabbi","1234","quart")now

(4)join/split–连接/拆分
join的第一个参数是连接所用的中间字符,其余则为待连接的字符Perl数组。

$string=join("","this","is","a","string");#结果为"thisisastring"
@list=("words","and");
$string=join("::",@list,"colons");#结果为"words::and::colons"
@array=split(/::/,$string);#@array=("words","and","colons")now