亚洲精品国产精品乱码不99按摩,久久69精品久久久久久久电影好,欧美精品日韩一区

作者：畢來生
微信：878799579

正則表達(dá)式
本節(jié)我們看一下正則表達(dá)式的相關(guān)用法，正則表達(dá)式是處理字符串的強(qiáng)大的工具，它有自己特定的語法結(jié)構(gòu)，有了它，實(shí)現(xiàn)字符串的檢索、替換、匹配驗(yàn)證都不在話下。

當(dāng)然對于爬蟲來說，有了它，我們從HTML里面提取我們想要的信息就非常方便了。

實(shí)例引入
說了這么多，可能我們對它到底是個(gè)什么還是比較模糊，下面我們就用幾個(gè)實(shí)例來感受一下正則表達(dá)式的用法。

我們打開開源中國提供的正則表達(dá)式測試工具h(yuǎn)ttp://tool.oschina.net/regex/，打開之后我們可以輸入待匹配的文本，然后選擇常用的正則表達(dá)式，就可以從我們輸入的文本中得出相應(yīng)的匹配結(jié)果了。

例如我們在這里輸入待匹配的文本如下：

Hello, my phone number is 010-87234567 and email is cqc@bilaisheng.com, and my website is http://bilaisheng.com.
這段字符串中包含了一個(gè)電話號碼和一個(gè)電子郵件，接下來我們就嘗試用正則表達(dá)式提取出來。

我們在網(wǎng)頁中選擇匹配Email地址，就可以看到在下方出現(xiàn)了文本中的Email。如果我們選擇了匹配網(wǎng)址URL，就可以看到在下方出現(xiàn)了文本中的URL。是不是非常神奇？

其實(shí)，在這里就是用了正則表達(dá)式匹配，也就是用了一定的規(guī)則將特定的文本提取出來。比如電子郵件它開頭是一段字符串，然后是一個(gè)@符號，然后就是某個(gè)域名，這是有特定的組成格式的。另外對于URL，開頭是協(xié)議類型，然后是冒號加雙斜線，然后是域名加路徑。

對于URL來說，我們就可以用下面的正則表達(dá)式匹配：

[a-zA-z]+:// ¹ *
如果我們用這個(gè)正則表達(dá)式去匹配一個(gè)字符串，如果這個(gè)字符串中包含類似URL的文本，那就會(huì)被提取出來。

這個(gè)正則表達(dá)式看上去是亂糟糟的一團(tuán)，其實(shí)不然，這里面都是有特定的語法規(guī)則的。比如a-z代表匹配任意的小寫字母，s表示匹配任意的空白字符，*就代表匹配前面的字符任意多個(gè)，這一長串的正則表達(dá)式就是這么多匹配規(guī)則的組合，最后實(shí)現(xiàn)特定的匹配功能。

寫好正則表達(dá)式后，我們就可以拿它去一個(gè)長字符串里匹配查找了，不論這個(gè)字符串里面有什么，只要符合我們寫的規(guī)則，統(tǒng)統(tǒng)可以找出來。那么對于網(wǎng)頁來說，如果我們想找出網(wǎng)頁源代碼里有多少URL，就可以用匹配URL的正則表達(dá)式去匹配，就可以得到源碼中的URL了。

在上面我們說了幾個(gè)匹配規(guī)則，那么正則表達(dá)式的規(guī)則到底有多少？那么在這里把常用的匹配規(guī)則總結(jié)一下：

模式描述
w匹配字母數(shù)字及下劃線
W匹配非字母數(shù)字及下劃線
s匹配任意空白字符，等價(jià)于 [tnrf].
S匹配任意非空字符
d匹配任意數(shù)字，等價(jià)于 [0-9]
D匹配任意非數(shù)字
A匹配字符串開始
Z匹配字符串結(jié)束，如果是存在換行，只匹配到換行前的結(jié)束字符串
z匹配字符串結(jié)束
G匹配最后匹配完成的位置
n匹配一個(gè)換行符
t匹配一個(gè)制表符
^匹配字符串的開頭
$匹配字符串的末尾。
.匹配任意字符，除了換行符，當(dāng)re.DOTALL標(biāo)記被指定時(shí)，則可以匹配包括換行符的任意字符。
[...]用來表示一組字符,單獨(dú)列出：[amk] 匹配 'a'，'m'或'k'
² 不在[]中的字符： ³ 匹配除了a,b,c之外的字符。
*匹配0個(gè)或多個(gè)的表達(dá)式。
+匹配1個(gè)或多個(gè)的表達(dá)式。
?匹配0個(gè)或1個(gè)由前面的正則表達(dá)式定義的片段，非貪婪方式
{n}精確匹配n個(gè)前面表達(dá)式。
{n, m}匹配 n 到 m 次由前面的正則表達(dá)式定義的片段，貪婪方式
a|b匹配a或b
( )匹配括號內(nèi)的表達(dá)式，也表示一個(gè)組

可能完了之后就有點(diǎn)暈暈的了把，不用擔(dān)心，下面我們會(huì)詳細(xì)講解下一些常見的規(guī)則的用法。怎么用它來從網(wǎng)頁中提取我們想要的信息。

Python中使用
其實(shí)正則表達(dá)式不是Python獨(dú)有的，它在其他編程語言中也可以使用，但是Python的re庫提供了整個(gè)正則表達(dá)式的實(shí)現(xiàn)，利用re庫我們就可以在Python中使用正則表達(dá)式來，在Python中寫正則表達(dá)式幾乎都是用的這個(gè)庫。

下面我們就來了解下它的用法。

match()
在這里首先介紹第一個(gè)常用的匹配方法，match()方法，我們向這個(gè)方法傳入要匹配的字符串以及正則表達(dá)式，就可以來檢測這個(gè)正則表達(dá)式是否匹配字符串了。

match()方法會(huì)嘗試從字符串的起始位置匹配正則表達(dá)式，如果匹配，就返回匹配成功的結(jié)果，如果不匹配，那就返回None。

我們用一個(gè)實(shí)例來感受一下：

          
            import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())
print(result.span())

運(yùn)行結(jié)果：

          
            41
<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)

在這里我們首先聲明了一個(gè)字符串，包含英文字母、空白字符、數(shù)字等等內(nèi)容，接下來我們寫了一個(gè)正則表達(dá)式^Hellosdddsd{4}sw{10}來匹配這個(gè)長字符串。

開頭的^是匹配字符串的開頭，也就是以Hello開頭，然后s匹配空白字符，用來匹配目標(biāo)字符串的空格，d匹配數(shù)字，三個(gè)d匹配123，然后再寫一個(gè)s匹配空格，后面還有4567，我們其實(shí)可以依然用四個(gè)d來匹配，但是這么寫起來比較繁瑣，所以在后面可以跟{4}代表匹配前面的字符四次，也就是匹配四個(gè)數(shù)字，這樣也可以完成匹配，然后后面再緊接一個(gè)空白字符，然后w{10}匹配10個(gè)字母及下劃線，正則表達(dá)式到此為止就結(jié)束了，我們注意到其實(shí)并沒有把目標(biāo)字符串匹配完，不過這樣依然可以進(jìn)行匹配，只不過匹配結(jié)果短一點(diǎn)而已。

我們調(diào)用match()方法，第一個(gè)參數(shù)傳入了正則表達(dá)式，第二個(gè)參數(shù)傳入了要匹配的字符串。

打印輸出一下結(jié)果，可以看到結(jié)果是SRE_Match對象，證明成功匹配，它有兩個(gè)方法，group()方法可以輸出匹配到的內(nèi)容，結(jié)果是Hello 123 4567 World_This，這恰好是我們正則表達(dá)式規(guī)則所匹配的內(nèi)容，span()方法可以輸出匹配的范圍，結(jié)果是(0, 25)，這個(gè)就是匹配到的結(jié)果字符串在原字符串中的位置范圍。

通過上面的例子我們可以基本了解怎樣在Python中怎樣使用正則表達(dá)式來匹配一段文字。

匹配目標(biāo)

剛才我們用了match()方法可以得到匹配到的字符串內(nèi)容，但是如果我們想從字符串中提取一部分內(nèi)容怎么辦呢？就像最前面的實(shí)例一樣，從一段文本中提取出郵件或電話號等內(nèi)容。

在這里可以使用()括號來將我們想提取的子字符串括起來，()實(shí)際上就是標(biāo)記了一個(gè)子表達(dá)式的開始和結(jié)束位置，被標(biāo)記的每個(gè)子表達(dá)式會(huì)依次對應(yīng)每一個(gè)分組，我們可以調(diào)用group()方法傳入分組的索引即可獲取提取的結(jié)果。

下面我們用一個(gè)實(shí)例感受一下：

          
            import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld', content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

依然是前面的字符串，在這里我們想匹配這個(gè)字符串并且把其中的1234567提取出來，在這里我們將數(shù)字部分的正則表達(dá)式用()括起來，然后接下來調(diào)用了group(1)獲取匹配結(jié)果。

運(yùn)行結(jié)果如下：

          
            <_sre.SRE_Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)

可以看到在結(jié)果中成功得到了1234567，我們獲取用的是group(1)，與group()有所不同，group()會(huì)輸出完整的匹配結(jié)果，而group(1)會(huì)輸出第一個(gè)被()包圍的匹配結(jié)果，假如正則表達(dá)式后面還有()包括的內(nèi)容，那么我們可以依次用group(2)、group(3)等來依次獲取。

通用匹配

剛才我們寫的正則表達(dá)式其實(shí)比較復(fù)雜，出現(xiàn)空白字符我們就寫s匹配空白字符，出現(xiàn)數(shù)字我們就寫d匹配數(shù)字，工作量非常大，其實(shí)完全沒必要這么做，還有一個(gè)萬能匹配可以用，也就是. ，.可以匹配任意字符(除換行符)， 又代表匹配前面的字符無限次，所以它們組合在一起就可以匹配任意的字符了，有了它我們就不用挨個(gè)字符地匹配了。

所以接著上面的例子，我們可以改寫一下正則表達(dá)式。

          
            import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result)
print(result.group())
print(result.span())

在這里我們將中間的部分直接省略，全部用.*來代替，最后加一個(gè)結(jié)尾字符串就好了，運(yùn)行結(jié)果如下：

          
            <_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)

可以看到group()方法輸出了匹配的全部字符串，也就是說我們寫的正則表達(dá)式匹配到了目標(biāo)字符串的全部內(nèi)容，span()方法輸出(0, 41)，是整個(gè)字符串的長度。

因此，我們可以在使用.*來簡化正則表達(dá)式的書寫。

貪婪匹配與非貪婪匹配

在使用上面的通用匹配.*的時(shí)候可能我們有時(shí)候匹配到的并不是想要的結(jié)果，我們看下面的例子：

          
            import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))

在這里我們依然是想獲取中間的數(shù)字，所以中間我們依然寫的是(d+)，數(shù)字兩側(cè)由于內(nèi)容比較雜亂，所以兩側(cè)我們想省略來寫，都寫. ，最后組成^He. (d+).*Demo$，看樣子并沒有什么問題，我們看下運(yùn)行結(jié)果：

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7
奇怪的事情發(fā)生了，我們只得到了7這個(gè)數(shù)字，這是怎么回事？

這里就涉及一個(gè)貪婪匹配與非貪婪匹配的原因了，貪婪匹配下，. 會(huì)匹配盡可能多的字符，我們的正則表達(dá)式中. 后面是d+，也就是至少一個(gè)數(shù)字，并沒有指定具體多少個(gè)數(shù)字，所以.*就盡可能匹配多的字符，所以它把123456也匹配了，給d+留下一個(gè)可滿足條件的數(shù)字7，所以d+得到的內(nèi)容就只有數(shù)字7了。

但這樣很明顯會(huì)給我們的匹配帶來很大的不便，有時(shí)候匹配結(jié)果會(huì)莫名其妙少了一部分內(nèi)容。其實(shí)這里我們只需要使用非貪婪匹配匹配就好了，非貪婪匹配的寫法是.*?，多了一個(gè)?，那么它可以達(dá)到怎樣的效果？我們再用一個(gè)實(shí)例感受一下：

          
            import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))

在這里我們只是將第一個(gè). 改成了. ?，轉(zhuǎn)變?yōu)榉秦澙菲ヅ淦ヅ洹＝Y(jié)果如下：

          
            <_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567

很好，這下我們就可以成功獲取1234567了。原因可想而知，貪婪匹配是盡可能匹配多的字符，非貪婪匹配就是盡可能匹配少的字符，. ?之后是d+用來匹配數(shù)字，當(dāng). ?匹配到Hello后面的空白字符的時(shí)候，再往后的字符就是數(shù)字了，而d+恰好可以匹配，那么這里. ?就不再進(jìn)行匹配，交給d+去匹配后面的數(shù)字。所以這樣，. ?匹配了盡可能少的字符，d+的結(jié)果就是1234567了。

所以說，在做匹配的時(shí)候，字符串中間我們可以盡量使用非貪婪匹配來匹配，也就是用. ?來代替. ，以免出現(xiàn)匹配結(jié)果缺失的情況。

但這里注意，如果匹配的結(jié)果在字符串結(jié)尾，.*?就有可能匹配不到任何內(nèi)容了，因?yàn)樗鼤?huì)匹配盡可能少的字符，例如：

          
            import re

content = 'http://weibo.com/comment/kEraCN'
result1 = re.match('http.*?comment/(.*?)', content)
result2 = re.match('http.*?comment/(.*)', content)
print('result1', result1.group(1))
print('result2', result2.group(1))

運(yùn)行結(jié)果：

result1
result2 kEraCN
觀察到. ?沒有匹配到任何結(jié)果，而. 則盡量匹配多的內(nèi)容，成功得到了匹配結(jié)果。

所以在這里好好體會(huì)一下貪婪匹配和非貪婪匹配的原理，對后面寫正則表達(dá)式非常有幫助。

修飾符

正則表達(dá)式可以包含一些可選標(biāo)志修飾符來控制匹配的模式。修飾符被指定為一個(gè)可選的標(biāo)志。

我們用一個(gè)實(shí)例先來感受一下：

          
            import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content)
print(result.group(1))

和上面的例子相仿，我們在字符串中加了個(gè)換行符，正則表達(dá)式也是一樣的來匹配其中的數(shù)字，看一下運(yùn)行結(jié)果：

          
            AttributeError Traceback (most recent call last)

            
               in 
              
                ()
 ? ? ?5 '''
 ? ? ?6 result = re.match('^He.*?(\d+).*?Demo$', content)
----> 7 print(result.group(1))

AttributeError: 'NoneType' object has no attribute 'group'

運(yùn)行直接報(bào)錯(cuò)，也就是說正則表達(dá)式?jīng)]有匹配到這個(gè)字符串，返回結(jié)果為None，而我們又調(diào)用了group()方法所以導(dǎo)致AttributeError。

那我們加了一個(gè)換行符為什么就匹配不到了呢？是因?yàn)?匹配的是除換行符之外的任意字符，當(dāng)遇到換行符時(shí)，.*?就不能匹配了，所以導(dǎo)致匹配失敗。

那么在這里我們只需要加一個(gè)修飾符re.S，即可修正這個(gè)錯(cuò)誤。

          
            result = re.match('^He.*?(\d+).*?Demo$', content, re.S)

在match()方法的第三個(gè)參數(shù)傳入re.S，它的作用是使.匹配包括換行符在內(nèi)的所有字符。

運(yùn)行結(jié)果：

這個(gè)re.S在網(wǎng)頁匹配中會(huì)經(jīng)常用到，因?yàn)镠TML節(jié)點(diǎn)經(jīng)常會(huì)有換行，加上它我們就可以匹配節(jié)點(diǎn)與節(jié)點(diǎn)之間的換行了。

另外還有一些修飾符，在必要的情況下也可以使用：

修飾符描述
re.I使匹配對大小寫不敏感
re.L做本地化識別（locale-aware）匹配
re.M多行匹配，影響 ^ 和 $
re.S使 . 匹配包括換行在內(nèi)的所有字符
re.U根據(jù)Unicode字符集解析字符。這個(gè)標(biāo)志影響 w, W, b, B.
re.X該標(biāo)志通過給予你更靈活的格式以便你將正則表達(dá)式寫得更易于理解。

在網(wǎng)頁匹配中較為常用的為re.S、re.I。

轉(zhuǎn)義匹配

我們知道正則表達(dá)式定義了許多匹配模式，如.匹配除換行符以外的任意字符，但是如果目標(biāo)字符串里面它就包含.我們改怎么匹配？

那么這里就需要用到轉(zhuǎn)義匹配了，我們用一個(gè)實(shí)例來感受一下：

          
            import re

content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com', content)
print(result)

當(dāng)遇到用于正則匹配模式的特殊字符時(shí)，我們在前面加反斜線來轉(zhuǎn)義一下就可以匹配了。例如.我們就可以用.來匹配，運(yùn)行結(jié)果：

          
            <_sre.SRE_Match object; span=(0, 17), match='(百度)www.baidu.com'>

可以看到成功匹配到了原字符串。

以上是寫正則表達(dá)式常用的幾個(gè)知識點(diǎn)，熟練掌握上面的知識點(diǎn)對后面我們寫正則表達(dá)式匹配非常有幫助。

search()
我們在前面提到過match()方法是從字符串的開頭開始匹配，一旦開頭不匹配，那么整個(gè)匹配就失敗了。

我們看下面的例子：

          
            import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo', content)
print(result)

在這里我們有一個(gè)字符串，它是以Extra開頭的，但是正則表達(dá)式我們是以Hello開頭的，整個(gè)正則表達(dá)式是字符串的一部分，但是這樣匹配是失敗的，也就是說只要第一個(gè)字符不匹配整個(gè)匹配就不能成功，運(yùn)行結(jié)果如下：

None
所以match()方法在我們在使用的時(shí)候需要考慮到開頭的內(nèi)容，所以在做匹配的時(shí)候并不那么方便，它適合來檢測某個(gè)字符串是否符合某個(gè)正則表達(dá)式的規(guī)則。

所以在這里就有另外一個(gè)方法search()，它在匹配時(shí)會(huì)掃描整個(gè)字符串，然后返回第一個(gè)成功匹配的結(jié)果，也就是說，正則表達(dá)式可以是字符串的一部分，在匹配時(shí)，search()方法會(huì)依次掃描字符串，直到找到第一個(gè)符合規(guī)則的字符串，然后返回匹配內(nèi)容，如果搜索完了還沒有找到，那就返回None。

我們把上面的代碼中的match()方法修改成search()，再看下運(yùn)行結(jié)果：

          
            <_sre.SRE_Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>
1234567

這樣就得到了匹配結(jié)果。

所以說，為了匹配方便，我們可以盡量使用search()方法。

下面我們再用幾個(gè)實(shí)例來感受一下search()方法的用法。

首先這里有一段待匹配的HTML文本，我們接下來寫幾個(gè)正則表達(dá)式實(shí)例來實(shí)現(xiàn)相應(yīng)信息的提取。

          
            html = '''
            
              
 ? ?
              
                經(jīng)典老歌
              
              
 ? ?
              
                
 ? ? ? ?經(jīng)典老歌列表
 ? ?
              
              
 ? ?
              
                
 ? ? ? ?
                
                  一路上有你
                
                
 ? ? ? ?
                
                  
 ? ? ? ? ? ?
                  
                    滄海一聲笑
                  
                  
 ? ? ? ?
                
                
 ? ? ? ?
                
                  
 ? ? ? ? ? ?
                  
                    往事隨風(fēng)
                  
                  
 ? ? ? ?
                
                
 ? ? ? ?
                
                  
                    光輝歲月
                  
                
                
 ? ? ? ?
                
                  
                    記事本
                  
                
                
 ? ? ? ?
                
                  
 ? ? ? ? ? ?
                  
                    
                    但愿人長久
                  
                  
 ? ? ? ?
                

                
 ? ?
              

            

            '''

日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python3之正則表達(dá)式詳解

經(jīng)典老歌

經(jīng)典老歌

喜歡就關(guān)注我吧