從學(xué)習(xí)Python至今,發(fā)現(xiàn)很多時(shí)候是將Python作為一種工具。特別在文本處理方面,使用起來更是游刃有余。
說到文本處理,那么正則表達(dá)式必然是一個(gè)絕好的工具,它能將一些繁雜的字符搜索或者替換以非常簡(jiǎn)潔的方式完成。
我們?cè)谔幚砦谋镜臅r(shí)候,或是查詢抓取,或是替換.
一.查找
如果你想自己實(shí)現(xiàn)這樣的功能模塊,輸入某一個(gè)ip地址,得到這個(gè)ip地址所在地區(qū)的詳細(xì)信息.
然后你發(fā)現(xiàn)http://ip138.com 可以查出很詳細(xì)的數(shù)據(jù)
但是人家沒有提供api供外部調(diào)用,但是我們可以通過代碼模擬查詢?nèi)缓髮?duì)結(jié)果進(jìn)行抓取.
通過查看這個(gè)相應(yīng)頁(yè)面的源碼,我們可以發(fā)現(xiàn),結(jié)果是放在三個(gè)
中的
?
??????? ?
???
?
??????? ?
???
?
?
??????? ?
???
?
??????? ?
?
???
?
??????? ?
???
ip138.com IP查詢(搜索IP地址的地理位置) |
您查詢的IP:121.0.29.231 |
|
如果您發(fā)現(xiàn)查詢結(jié)果不詳細(xì)或不正確,請(qǐng)使用
IP數(shù)據(jù)庫(kù)自助添加
功能進(jìn)行修正
? ??????? |
IP地址或者域名: |
如果你了解正則表達(dá)式你可能會(huì)寫出
正則表達(dá)式
(?<=
這里使用了前瞻:lookahead 后顧: lookbehind,這樣的好處就是匹配的結(jié)果中就不會(huì)包含html的li標(biāo)簽了.
如果你對(duì)自己寫的正則表達(dá)式不是很自信的話,可以在一些在線或者本地的正則測(cè)試工具進(jìn)行一些測(cè)試,以確保正確.
接下來的工作就是如果用Python實(shí)現(xiàn)這樣的功能,首先我們得將正則表達(dá)式表示出來:
r"(?<=
?Python中字符串前面加上前導(dǎo)r這個(gè)字符,代表這個(gè)字符串是R aw String(原始字符串),也就是說Python字符串本身不會(huì)對(duì)字符串中的字符進(jìn)行轉(zhuǎn)義.這是因?yàn)檎齽t表達(dá)式也有轉(zhuǎn)義字符之說,如果雙重轉(zhuǎn)義的話,易讀性很差.
這樣的串在Python中我們把它叫做"regular expression pattern"
如果我們對(duì)pattern進(jìn)行編譯的話
prog = re.compile(r"(?<=
我們便可以得到一個(gè)正則表達(dá)式對(duì)象regular expression object,通過這個(gè)對(duì)象我們可以進(jìn)行相關(guān)操作.
比如
result=prog.match(string)?
##這個(gè)等同于?
result=re.match(r"(?<=
##但是如果這個(gè)正則需要在程序匹配多次,那么通過正則表達(dá)式對(duì)象的方式效率會(huì)更高?
接下來就是查找了,假設(shè)我們的html結(jié)果已經(jīng)以html的格式存放在text中,那么通過
result_list = re.findall(r"(?<=
便可以取得所需的結(jié)果列表.
二.替換
使用正則表達(dá)式進(jìn)行替換非常的靈活.
比如之前我在閱讀Trac這個(gè)系統(tǒng)中wiki模塊的源代碼的時(shí)候,就發(fā)現(xiàn)其wiki語(yǔ)法的實(shí)現(xiàn)就是通過正則替換進(jìn)行的.
在使用替換的時(shí)候會(huì)涉及到正則表達(dá)式中的Group分組的概念.
假設(shè)wiki語(yǔ)法中使用!表示轉(zhuǎn)義字符即感嘆號(hào)后面的功能性字符會(huì)原樣輸出,粗體的語(yǔ)法為
寫道
'''這里顯示為粗體'''
?那么有正則表達(dá)式為
r"(?P
? 這里的?P
? 下面是替換時(shí)的情景,其中sub函數(shù)的第一個(gè)參數(shù)是pattern,第二個(gè)參數(shù)可以是字符串也可以是函數(shù),如果是字符串的話,那么就是將目標(biāo)匹配的結(jié)果替換成指定的結(jié)果,而如果是函數(shù),那么函數(shù)會(huì)接受一個(gè)match object的參數(shù),并返回替換后的字符串,第三個(gè)參數(shù)便是源字符串.
result = re.sub(r"(?P
每當(dāng)匹配到一個(gè)三單引號(hào),replace函數(shù)便運(yùn)行一次,可能這時(shí)候需要一個(gè)全局變量記錄當(dāng)前的三單引號(hào)是開還是閉,以便添加相應(yīng)的標(biāo)記.
在實(shí)際的trac wiki的實(shí)現(xiàn)的時(shí)候,便是這樣通過一些標(biāo)記變量,來記錄某些語(yǔ)法標(biāo)記的開閉,以決定replace函數(shù)的運(yùn)行結(jié)果.
--------------------
示例
一. 判斷字符串是否是全部小寫
代碼
# -*- coding: cp936 -*-
import re?
s1 = 'adkkdk'
s2 = 'abc123efg'
an = re.search('^[a-z]+$', s1)
if an:
??? print 's1:', an.group(), '全為小寫'
else:
??? print s1, "不全是小寫!"
an = re.match('[a-z]+$', s2)
if an:
??? print 's2:', an.group(), '全為小寫'
else:
??? print s2, "不全是小寫!"
結(jié)果
?
究其因
1. 正則表達(dá)式不是python的一部分,利用時(shí)需要引用re模塊
2. 匹配的形式為: re.search(正則表達(dá)式, 帶匹配字串)或re.match(正則表達(dá)式, 帶匹配字串)。兩者區(qū)別在于后者默認(rèn)以開始符(^)開始。因此,
re.search('^[a-z]+$', s1) 等價(jià)于 re.match('[a-z]+$', s2)
3. 如果匹配失敗,則an = re.search('^[a-z]+$', s1)返回None
group用于把匹配結(jié)果分組
例如
import re
a = "123abc456"
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0)?? #123abc456,返回整體
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1)?? #123
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2)?? #abc
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3)?? #456
1)正則表達(dá)式中的三組括號(hào)把匹配結(jié)果分成三組
group() 同group(0)就是匹配正則表達(dá)式整體結(jié)果
group(1) 列出第一個(gè)括號(hào)匹配部分,group(2) 列出第二個(gè)括號(hào)匹配部分,group(3) 列出第三個(gè)括號(hào)匹配部分。
2)沒有匹配成功的,re.search()返回None
3)當(dāng)然鄭則表達(dá)式中沒有括號(hào),group(1)肯定不對(duì)了。
二.? 首字母縮寫詞擴(kuò)充
具體示例
FEMA?? Federal Emergency Management Agency
IRA??? Irish Republican Army
DUP??? Democratic Unionist Party
FDA??? Food and Drug Administration
OLC??? Office of Legal Counsel
分析
縮寫詞 FEMA
分解為 F*** E*** M*** A***
規(guī)律 ? 大寫字母 + 小寫(大于等于1個(gè))+ 空格
參考代碼
import re
def expand_abbr(sen, abbr):
??? lenabbr = len(abbr)
??? ma = ''
??? for i in range(0, lenabbr):
??????? ma += abbr[i] + "[a-z]+" + ' '
??? print 'ma:', ma
??? ma = ma.strip(' ')
??? p = re.search(ma, sen)
??? if p:
??????? return p.group()
??? else:
??????? return ''
print expand_abbr("Welcome to Algriculture Bank China", 'ABC')
結(jié)果
問題
上面代碼對(duì)于例子中的前3個(gè)是正確的,但是后面的兩個(gè)就錯(cuò)了,因?yàn)榇髮懽帜搁_頭的詞語(yǔ)之間還夾雜著小寫字母詞
規(guī)律
大寫字母 + 小寫(大于等于1個(gè))+ 空格 + [小寫+空格](0次或1次)
參考代碼
import re
def expand_abbr(sen, abbr):
??? lenabbr = len(abbr)
??? ma = ''
??? for i in range(0, lenabbr-1):
??????? ma += abbr[i] + "[a-z]+" + ' ' + '([a-z]+ )?'
??? ma += abbr[lenabbr-1] + "[a-z]+"
??? print 'ma:', ma
??? ma = ma.strip(' ')
??? p = re.search(ma, sen)
??? if p:
??????? return p.group()
??? else:
??????? return ''
print expand_abbr("Welcome to Algriculture Bank of China", 'ABC')
技巧
中間的 小寫字母集合+一個(gè)空格,看成一個(gè)整體,就加個(gè)括號(hào)。要么同時(shí)有,要么同時(shí)沒有,這樣需要用到?,匹配前方的整體。
三. 去掉數(shù)字中的逗號(hào)
具體示例
在處理自然語(yǔ)言時(shí)123,000,000如果以標(biāo)點(diǎn)符號(hào)分割,就會(huì)出現(xiàn)問題,好好的一個(gè)數(shù)字就被逗號(hào)肢解了,因此可以先下手把數(shù)字處理干凈(逗號(hào)去掉)。
分析
數(shù)字中經(jīng)常是3個(gè)數(shù)字一組,之后跟一個(gè)逗號(hào),因此規(guī)律為:***,***,***
正則式
[a-z]+,[a-z]?
參考代碼3-1
import re
sen = "abc,123,456,789,mnp"
p = re.compile("\d+,\d+?")
for com in p.finditer(sen):
??? mm = com.group()
??? print "hi:", mm
??? print "sen_before:", sen
??? sen = sen.replace(mm, mm.replace(",", ""))
??? print "sen_back:", sen, '\n'
結(jié)果
技巧
使用函數(shù)finditer(string[, pos[, endpos]]) | re.finditer(pattern, string[, flags]):
搜索string,返回一個(gè)順序訪問每一個(gè)匹配結(jié)果(Match對(duì)象)的迭代器。?????
參考代碼3-2
sen = "abc,123,456,789,mnp"
while 1:
??? mm = re.search("\d,\d", sen)
??? if mm:
??????? mm = mm.group()
??????? sen = sen.replace(mm, mm.replace(",", ""))
??????? print sen
??? else:
??????? break
結(jié)果
延伸
這樣的程序針對(duì)具體問題,即數(shù)字3位一組,如果數(shù)字混雜與字母間,干掉數(shù)字間的逗號(hào),即把“abc,123,4,789,mnp”轉(zhuǎn)化為“abc,1234789,mnp”
思路
更具體的是找正則式“數(shù)字,數(shù)字”找到后用去掉逗號(hào)的替換
參考代碼3-3
sen = "abc,123,4,789,mnp"
while 1:
??? mm = re.search("\d,\d", sen)
??? if mm:
??????? mm = mm.group()
??????? sen = sen.replace(mm, mm.replace(",", ""))
??????? print sen
??? else:
??????? break
print sen
結(jié)果
四. 中文處理之年份轉(zhuǎn)換(例如:一九四九年--->1949年)
中文處理涉及到編碼問題。例如下邊的程序識(shí)別年份(****年)時(shí)
# -*- coding: cp936 -*-
import re
m0 =? "在一九四九年新中國(guó)成立"
m1 =? "比一九九零年低百分之五點(diǎn)二"
m2 =? '人一九九六年擊敗俄軍,取得實(shí)質(zhì)獨(dú)立'
def fuc(m):
??? a = re.findall("[零|一|二|三|四|五|六|七|八|九]+年", m)
??? if a:
??????? for key in a:
??????????? print key
??? else:
??????? print "NULL"
fuc(m0)
fuc(m1)
fuc(m2)
運(yùn)行結(jié)果
可以看出第二個(gè)、第三個(gè)都出現(xiàn)了錯(cuò)誤。
改進(jìn)――準(zhǔn)化成unicode識(shí)別
# -*- coding: cp936 -*-
import re
m0 =? "在一九四九年新中國(guó)成立"
m1 =? "比一九九零年低百分之五點(diǎn)二"
m2 = '人一九九六年擊敗俄軍,取得實(shí)質(zhì)獨(dú)立'
def fuc(m):
??? m = m.decode('cp936')
??? a = re.findall(u"[\u96f6|\u4e00|\u4e8c|\u4e09|\u56db|\u4e94|\u516d|\u4e03|\u516b|\u4e5d]+\u5e74", m)
??? if a:
??????? for key in a:
??????????? print key
??? else:
??????? print "NULL"
fuc(m0)
fuc(m1)
fuc(m2)
結(jié)果
識(shí)別出來可以通過替換方式,把漢字替換成數(shù)字。
參考
numHash = {}
numHash['零'.decode('utf-8')] = '0'
numHash['一'.decode('utf-8')] = '1'
numHash['二'.decode('utf-8')] = '2'
numHash['三'.decode('utf-8')] = '3'
numHash['四'.decode('utf-8')] = '4'
numHash['五'.decode('utf-8')] = '5'
numHash['六'.decode('utf-8')] = '6'
numHash['七'.decode('utf-8')] = '7'
numHash['八'.decode('utf-8')] = '8'
numHash['九'.decode('utf-8')] = '9'
def change2num(words):
??? print "words:",words
??? newword = ''
??? for key in words:
??????? print key
??????? if key in numHash:
??????????? newword += numHash[key]
??????? else:
??????????? newword += key
??? return newword
def Chi2Num(line):
??? a = re.findall(u"[\u96f6|\u4e00|\u4e8c|\u4e09|\u56db|\u4e94|\u516d|\u4e03|\u516b|\u4e5d]+\u5e74", line)
??? if a:
??????? print "------"
??????? print line
??????? for words in a:
??????????? newwords = change2num(words)
??????????? print words
??????????? print newwords
??????????? line = line.replace(words, newwords)
??? return line
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
