文章詳情頁

Python正則表達式高級使用方法匯總

瀏覽：22日期：2022-07-20 15:14:09

正則表達式是一個以簡單直觀的方式匹配指定文本信息從而達到查找、替換等操作的目的。正則表達式以其簡單而高效的特點使得其在數據分析和數據驗證方面應用廣泛。

對于簡單的正則表達式可以直接百度之，這里重點引薦下‘特殊’操作。

1.非貪婪模式 - {x,y}?

非貪婪模式是指在使用正則匹配時，盡可能少的匹配（默認是貪婪模式，即：盡可能多的匹配）。例：

>>> re.search(r’[d]{2,5}?’,’091234568’)

<_sre.SRE_Match object; span=(0, 2), match=’09’>

在這里{2,5}?匹配只是匹配2-5個[d]時只要滿足2（最少的）個就好，在看看貪婪模式：

>>> re.search(r’[d]{2,5}’,’091234568’)<_sre.SRE_Match object; span=(0, 5), match=’09123’>

這時候，匹配2-5個[d]時，默認匹配最多的5個。

注意：貪婪和非貪婪模式的區別就是重復操作符后有沒有？字符

2.分組

正則表達式提供了一個機制將表達式分組，匹配的結果也將按照表達式單獨分組。例：

>>> m = re.search(r’(d{3})-(d{5})’,’029-25642’)>>> m.group()’029-25642’>>> m.groups()(’029’, ’25642’)>>> m.group(2)’25642’

可以通過m.groups()看到分組匹配結果，通過m.group(index)查看具體編號的分組結果（編號從1開始，0是完整的匹配）。那分組有什么用呢，好像也沒什么特殊的含義，不急，下面會用到。

3.引用分組（回溯） - N

有這么一種情況，比如假設我要找出一個html文本中的所有<a></a>標簽，怎么辦？試試這樣：

>>> re.search(r’<(w+)>.+</(w+)>’,’<a>this is a demo</e>’)<_sre.SRE_Match object; span=(0, 21), match=’<a>this is a demo</e>’>

奇怪的事情來了，為什么<a></e>被匹配成功了，顯然結果并不是想要的，那怎么才能只匹配<a></a>而過濾掉其他的呢（比如<a></e>）？答案就是引用分組，例：

>>> re.search(r’<(w+)>.+</1>’,’<a>this is a demo</e><p>demo two</p>’)<_sre.SRE_Match object; span=(21, 36), match=’<p>demo two</p>’>

這里1是關鍵，意思就是當前位置匹配的結果需要和第一個分組匹配的結果一致，或者說第一個分組的匹配結果期望在這里再次出現。以此類推。該方法最多只能匹配前99個分組。

4.分組命名 - (?P<name>.*)

分組命名最開始由python引入，比如Django路由中會用到。分組命名的好處是方便，直接使用名字比編號要簡單而且不會變化，例：

>>> m = re.search(r’(?P<first_name>d{3})-(?P<second_name>d{4})’,’029-8967’)>>> m.group(’first_name’)’029’>>> m.groupdict() {’first_name’: ’029’, ’second_name’: ’8967’}

當然，命名分組仍然是編號分組，依然可以使用編號進行查找分組。

5.先行斷言 - X(?!Y)、X(?=Y)

假設有這么一種情況，要查找所有163信箱的文本，也就是@163.com結尾的所有email賬號信息，也就是說不要@163.com這部分，但是其還要參與匹配。這就用到了先行斷言，也即基于之后的內容是否存在接收或拒絕一個匹配，而不需要接下來的內容作為匹配的一部分。例：

>>> re.search(r’h(?!e)’,’hello home!’)<_sre.SRE_Match object; span=(6, 7), match=’h’>

h(?!e)表示匹配h，而且h后面不能是e，此處匹配成功的是home，但是只返回h

>>> re.search(r’h(?=e)’,’hello home!’)<_sre.SRE_Match object; span=(0, 1), match=’h’>

h(?=e)表示匹配he，此處匹配成功的是hello，但是只返回h

6.標記

不區分大小寫：re.IGNORECASE（簡寫re.I）-使得正則表達式不區分大小寫點匹配換行符：re.DOTALL（簡寫re.S）-使得 . 符號可以匹配換行符多行模式：re.MULTILINE（簡寫re.M）-使得^$字符可以匹配任意行的開始與結束詳細模式：re.VERBOSE（簡寫re.X）-使得正則表達式可以換行書寫，且可以加入注釋調試模式：re.DEBUG-將調試信息輸出到sys.stderr 使用多個標記時，使用|分隔，如re.S|re.M

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：python能自學嗎下一條：新手常見Python錯誤及異常解決處理方案

相關文章：

1. 解決Python 進程池Pool中一些坑2. Python如何讀寫CSV文件3. php網絡安全中命令執行漏洞的產生及本質探究4. 三個不常見的 HTML5 實用新特性簡介5. 無線標記語言(WML)基礎之WMLScript 基礎第1/2頁6. ajax請求添加自定義header參數代碼7. php測試程序運行速度和頁面執行速度的代碼8. Python獲取抖音關注列表封號賬號的實現代碼9. python利用os模塊編寫文件復制功能——copy()函數用法10. Python使用jupyter notebook查看ipynb文件過程解析

排行榜

					
					Python如何讀寫CSV文件
Python使用jupyter notebook查看ipynb文件過程解析
解決Python 進程池Pool中一些坑
IntelliJ IDEA調整字體大小的方法
docker容器調用yum報錯的解決辦法
php測試程序運行速度和頁面執行速度的代碼
php網絡安全中命令執行漏洞的產生及本質探究
IntelliJ IDEA 2020最新激活碼(親測有效，可激活至 2089 年)
無線標記語言(WML)基礎之WMLScript 基礎第1/2頁
IntelliJ IDEA 2021.1 首個 Beta 版本發布
IntelliJ Idea 2020.1 正式發布,官方支持中文（必看）