十分钟上手正则表达式 上篇

 更新时间:2021-12-17 12:00:37   作者:佚名   我要评论(0)

目录一、正则表达式的定义:二、正则表达式的类型三、定义 BRE 模式3.1 纯文本3.2 特殊字符3.3 锚字符3.3.1 锁定在行首3.3.2 锁定在行尾3.3.

一、正则表达式的定义:

正则表达式是你所定义的 模式模板 ( pattern template ), Linux 工具可以用它来过滤文本。 Linux工具(比如sed 编辑器或 gawk 程序)能够在处理数据时使用正则表达式对数据进行模式匹配。如果数据匹配模式,它就会被接受并进一步处理;如果数据不匹配模式,它就会被滤掉。

正则表达式模式匹配数据:

正则表达式模式利用通配符来描述数据流中的一个或多个字符。 Linux 中有很多场景都可以 使用通配符来描述不确定的数据。【*】号在我们工作中就比较常用。

示例说明:

a.*参数会让ls命令只列出名字以a开头的文件。文件名中a之后可以有任意多个字符(包括什么也没有)。ls命令会读取目录中所有文件的信息,但只显示跟通配符匹配的文件的信息。

二、正则表达式的类型

使用正则表达式最大的问题在于有不止一种类型的正则表达式。 Linux 中的不同应用程序可能会用不同类型的正则表达式。这其中包括编程语言(Java 、 Perl 和 Python )、 Linux 实用工具(比 如sed 编辑器、 gawk 程序和 grep 工具)以及主流应用(比如 MySQL 和 PostgreSQL 数据库服务器)。正则表达式是通过正则表达式引擎( regular expression engine )实现的。正则表达式引擎是一套底层软件,负责解释正则表达式模式并使用这些模式进行文本匹配。

两种流行的正则表达式引擎:

  • POSIX基础正则表达式(basic regular expression,BRE)引擎
  • POSIX扩展正则表达式(extended regular expression,ERE)引擎

POSIX BRE引擎通常出现在依赖正则表达式进行文本过滤的编程语言中。它为常见模式提供了高级模式符号和特殊符号,比如匹配数字、单词以及按字母排序的字符。awk程序用ERE引擎来处理它的正则表达式模式。

说明:

由于实现正则表达式的方法太多,很难用一个简洁的描述来涵盖所有可能的正则表达式。后面会结合sed和awk演示最常见的正则表达式。

三、定义 BRE 模式

最基本的 BRE模式是匹配数据流中的文本字符。下面会演示如何在正则表达式中定义文本以及会得到什么样的结果。

3.1 纯文本

演示说明:

模式定义了一个单词 test 。 sed 编辑器和 gawk 程序脚本用它们各自的 print 命令打印出匹配该正则表达式模式的所有行。由于echo 语句在文本字符串中包含了单词 test ,数据流文本能够匹配所定义的正则表达式模式,编辑器能显示该行。

正则表达式是区分大小写的:

演示说明:

第一次尝试没能匹配成功,因为 this 在字符串中并不都是小写,而第二次尝试在模式中使 用大写字母,所以能正常输出。

在正则表达式中,你不用写出整个单词。只要定义的文本出现在数据流中,正则表达式就能 够匹配。

演示说明:

数据流中的文本是 books ,在数据中含有正则表达式 book ,因此正则表达式模式跟数据匹配。

在正则表达式中,空格和其他的字符并没有什么区别。

演示说明:

空格的出现无法和文本内容匹配。

如果在正则表达式中定义了空格,那么它必须出现在数据流中。甚至可以创建匹配多个连续空格的正则表达式模式。

演示说明:

单词间有两个空格的行匹配正则表达式模式。

3.2 特殊字符

正则表达式识别的特殊字符包括:

.*[]^${}\+?|()

如果要用某个特殊字符作为文本字符,就必须 转义 。在转义特殊字符时,你需要在它前面加一个特殊字符反斜杠(\)来告诉正则表达式引擎应该将接下来的字符当作普通的文本字符。

示例说明:

查找文本中的美元符,只要在它前面加个反斜线。

3.3 锚字符

默认情况下,当指定一个正则表达式模式时,只要模式出现在数据流中的任何地方,它就能匹配。有两个特殊字符可以用来将模式锁定在数据流中的行首或行尾。

3.3.1 锁定在行首

脱字符( ^ )定义从数据流中文本行的行首开始的模式。如果模式出现在行首之外的位置,正则表达式模式则无法匹配。 要用脱字符,就必须将它放在正则表达式中指定的模式前面。

脱字符会在每个由换行符决定的新数据行的行首检查模式。

示例解说:

只要模式出现在新行的行首,脱字符就能够发现它。

演示说明:

脱字符出现在正则表达式模式的尾部,sed编辑器会将它当作普通字符来匹配。

注意:

如果指定正则表达式模式时只用了脱字符,就不需要用反斜线来转义。但如果在模式中先指定了脱字符,随后还有其他一些文本,那么必须在脱字符前用转义字符。

3.3.2 锁定在行尾

跟在行首查找模式相反的就是在行尾查找。特殊字符美元符( $ )定义了行尾锚点。将这个特殊字符放在文本模式之后来指明数据行必须以该文本模式结尾。

3.3.3 组合锚点

在一些常见情况下,可以在同一行中将行首锚点和行尾锚点组合在一起使用。在第一种情况中,假定你要查找只含有特定文本模式的数据行。

示例说明:

匹配文本中以test开头和以test结尾的行

将两个锚点直接组合在一起,之间不加任何文本,这样过滤出数据流中的空白行。

示例说明:

定义的正则表达式模式会查找行首和行尾之间什么都没有的那些行。由于空白行在两个换行符之间没有文本,刚好匹配了正则表达式模式。sed 编辑器用删除命令 d 来删除匹配该正则表达式模式的行,因此删除了文本中的所有空白行。

3.4 点号字符

特殊字符点号用来匹配除换行符之外的任意单个字符。它必须匹配一个字符,如果在点号字符的位置没有字符,那么模式就不成立。

示例解说:

这个例子很具有说明性的,为什么第一行无法匹配,而第二行和第三行就可以。第四行有点复杂。注意, 我们匹配了at,但在at前面并没有任何字符来匹配点号字符。其实是有的!在正则表达式中, 空格也是字符,因此at前面的空格刚好匹配了该模式。第五行证明了这点,将at放在行首就不 会匹配该模式了。

3.5 字符组

使用方括号来定义一个字符组。方括号中包含所有你希望出现在该字符组中的字符。然后可以在模式中使用整个组,就跟使用其他通配符一样。

示例说明:

匹配这个模式的单词只有 cat 和 hat 。还要注意以 at 开头的行也没有匹配。字符组中必须有个字符来匹配相应的位置。

在不太确定某个字符的大小写时,字符组会非常有用。如下示例:

字符组不必只含有字母,也可以在其中使用数字。

示例说明:

这个正则表达式模式匹配了任意含有数字 0 、 1 、 2 或 3 的行。含有其他数字以及不含有数字的 行都会被忽略掉。

示例说明:

正则表达式模式可见于数据流中文本的任何位置。经常有匹配模式的字符之外的其他字符。如果要确保只匹配五位数,就必须将匹配的字符和其他字符分开,要么用空格,要么像这 个例子中这样,指明它们就在行首和行尾。

3.6 排除型字符组

在正则表达式模式中,也可以反转字符组的作用。可以寻找组中没有的字符,而不是去寻找组中含有的字符。要这么做的话,只要在字符组的开头加个脱字符。

示例说明:

使用排除型字符组,正则表达式模式会匹配 c 或 h 之外的任何字符以及文本模式。由于空格字 符属于这个范围,它通过了模式匹配。但即使是排除,字符组仍然必须匹配一个字符,所以以 at开头的行仍然未能匹配模式。

3.7 区间

示例说明:

新的模式 [c-h]at 匹配了首字母在字母 c 和字母 h 之间的单词。这种情况下,只含有单词 at 的行将无法匹配该模式。

示例说明:

该字符组允许区间a~c、h~m中的字母出现在at文本前,但不允许出现d~g的字母。

3.8 特殊的字符组

除了定义自己的字符组外, BRE 还包含了一些特殊的字符组,可用来匹配特定类型的字符。

  • [[:alpha:]] 匹配任意字母字符,不管是大写还是小写
  • [[:alnum:]] 匹配任意字母数字字符0~9、A~Z或a~z
  • [[:blank:]] 匹配空格或制表符
  • [[:digit:]] 匹配0~9之间的数字
  • [[:lower:]] 匹配小写字母字符a~z
  • [[:print:]] 匹配任意可打印字符
  • [[:punct:]] 匹配标点符号
  • [[:space:]] 匹配任意空白字符:空格、制表符、NL、FF、VT和CR
  • [[:upper:]] 匹配任意大写字母字符A~Z

示例说明:

使用特殊字符组可以很方便地定义区间。可以用 [[:digit:]] 来代替区间 [0-9] 。

3.9 星号【*】

在字符后面放置星号表明该字符必须在匹配模式的文本中出现 0 次或多次。

到此这篇关于十分钟上手正则表达式 上篇的文章就介绍到这了,更多相关正则表达式 入门内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:
  • 深入浅出正则表达式中的边界\b和\B
  • 十分钟上手正则表达式 下篇
  • Python正则表达式保姆式教学详细教程
  • 正则表达式常见的4种匹配模式小结
  • 轻松掌握正则表达式findall()函数详解

相关文章

  • 十分钟上手正则表达式 上篇

    十分钟上手正则表达式 上篇

    目录一、正则表达式的定义:二、正则表达式的类型三、定义 BRE 模式3.1 纯文本3.2 特殊字符3.3 锚字符3.3.1 锁定在行首3.3.2 锁定在行尾3.3.
    2021-12-17
  • php双向队列实例讲解

    php双向队列实例讲解

    1、双向队列是指一种具有队列和栈的性质的数据结构。 2、双向队列中的元素可以从两端弹出,其限定插入和删除操作在表的两端进行。 双向队列就
    2021-12-17
  • 聊聊PHP中die()和sleep()函数的用法

    聊聊PHP中die()和sleep()函数的用法

    在上一篇《聊聊PHP中删除字符串的逗号和尾部斜杠的方法》给大家介绍了PHP删除字符串中的逗号以及尾部斜杠的方法,感兴趣的朋友可以去学习了解
    2021-12-17
  • php实现自动生成验证码的实例讲解

    php实现自动生成验证码的实例讲解

    现在验证码在表单中的应用越来越多了,但是如果用js来实现总觉得不太方便,因此使用php来实现下,在此记录下。 当然,我们也可以封装成一个函
    2021-12-17
  • 十分钟上手正则表达式 下篇

    十分钟上手正则表达式 下篇

    目录一、正则表达式常用符号1.1 问号【?】1.2 加号【+】1.3 花括号{}1.4 管道符号【|】1.5 小括号()二、正则表达式实战示例示例1:示例2:
    2021-12-17
  • 深入浅出正则表达式中的边界\b和\B

    深入浅出正则表达式中的边界\b和\B

    目录边界单词\b 单词边界 \B 非单词边界 举列总结正则表达式中: \b 表示单词边界 \B 表示非单词边界,应理解为(非单词)边界,
    2021-12-17
  • ????????????????????????????????????

    ????????????????????????????????????

    ?????????? (.*?) import re a = '456qwe789rty123abc' re=re.findall('456(.*?)789',a) print(re) ????????????????????????4
    2021-12-17
  • 36个正则表达式(开发效率提高80%)

    36个正则表达式(开发效率提高80%)

    目录写在前面1、整数2、正整数3、负整数4、数字5、正数(正整数 + 0)6、负数(负整数 + 0)7、浮点数8、正浮点数9、负浮点数10、浮点数11、
    2021-12-17
  • SSM框架整合JSP中集成easyui前端ui项目开发示例详解

    SSM框架整合JSP中集成easyui前端ui项目开发示例详解

    目录前言EasyUI下载与配置页面美化运行结果总结与问题前言 前端的UI框架很多,如bootsrap、layui、easyui等,这些框架提供了大量控件供开发人
    2021-12-17
  • 家里电费太高 特惠93折电费接口正式上线

    家里电费太高 特惠93折电费接口正式上线

    说到这大家可能不是很相信,这都很正常,因为这块的市场还很大,需要深耕,用的人少,一般用的人都是对这块熟悉的人,他们都在把这块市场当作副业自己创业赚钱,现在已经有
    2021-12-09

最新评论