95 捕获子串

编辑日期: 2024-11-28 文章阅读: 次

95 捕获子串

今天以我写过的《Python 60天》专栏中的一段文字，提取出里面的链接为例，阐述提取子串的实用性。先贴上文字(有删减改动)，将这段文字赋值给变量 urls：

urls = """
基于 Python 的包更是枝繁叶茂，遍地开花，“Tiobe 编程语言排行榜”最新统计显示 Python 是增长最快的语言。

![image-20200131192231967](https://chat-ex.com/assets/7584886525.png)

接下来，与大家，还有远在美国做 AI 博士后研究的 Alicia，一起开始我们的 60 天 Python 探索之旅吧。

所有的这些考虑，都是为了让大家在短时间内掌握 Python 技术栈，多一个生存的本领。拿到理想的 Offer 后，早日过上自己想要的生活。

让我们开始吧。

如下，按照是否为静态/动态语言，弱类型/强类型两个维度，

总结常用的语言分类。

![image-20200205155429583](https://chat-ex.com/assets/4947886526.png) ### 四大基本语法
"""

你可能很快写出如下的正则表达式：

pat = r'https:.*'

然后导入re模块，使用findall方法找出所有匹配：

import re
result = re.findall(pat,urls)
print(result)

运行结果显示如下，观察发现2个匹配，但是每个匹配链接都包括冗余字符，因此匹配错误：

['https://images.gitbook.cn
/2020-02-05-014719.png)',

'https://images.gitbook.cn
/2020-02-05-080211.png) ### 四大基本语法']

我们再稍微优化原正则表达式为：

pat = r'https:.*\)'

打印结果显示如下，结果确实好一点，但是依然包括右括号，结果还是错误的：

['https://images.gitbook.cn/
2020-02-05-014719.png)', 

'https://images.gitbook.cn/
2020-02-05-080211.png)']

所以掌握提取子串的技能就很重要，实现提取子串也很简单，只需把想要返回的子串加上一对括号就行，如下所示：

pat = r'(https:.*)\)'

此时返回结果完全正确，无任何多余字符。想要返回的子串外面添加一对括号还有个专业叫法：捕获或分组。

上一个例子下一个例子

Site Views: Visitors:

AI之家

🔥AI副业赚钱星球

点击下面图片查看

🔥ChatGPT-4在线使用

Python和AI在线练习

AI之家教程

95 捕获子串

95 捕获子串