字符串在 Python 中是最簡單也是最常用的數據類型之一,在 CPython 中字符串的實現原理使用了一種叫做 Intern(字符串駐留)的技術來提高字符串效率。究竟什么是 intern 機制,這種機制又是通過什么方式來提高字符串效率的呢?希望這篇文章能夠拋磚引玉。
先來看一段代碼:
>>> s3 = "hello!" >>> s4 = "hello!" >>> s3 is s4 False >>> id(s3) 80325968L >>> id(s4) 80326048L
s3 和 s4 雖然值是一樣的,但確確實實是兩個不同的字符串對象,Python 會為它們倆各自分配一段內存空間,假設程序中存在大量值相同的字符串,系統就不得不為每個字符串重復地分配內存空間,顯然,對系統來說是一種無謂的資源浪費。為了解決這種問題,Python 引入了 intern 機制。
再來看:
>>> s3 = intern('hello!') >>> s4 = intern('hello!') >>> s3 is s4 True >>> id(s3) 80325968L >>> id(s4) 80325968L
intern 是 Python 中的一個內建函數,該函數的作用就是對字符串進行 intern 機制處理,處理后返回字符串對象。我們發現但凡是值相同的字符串經過 intern 機制處理之后,返回的都是同一個字符串對象,這種方式在處理大數據的時候無疑能節省更多的內存空間,系統無需為相同的字符串重復分配內存,對于值相同的字符串共用一個對象即可。
其實,實現 Intern 機制的方式非常簡單,就是通過維護一個字符串儲蓄池,這個池子是一個字典結構,如果字符串已經存在于池子中了就不再去創建新的字符串,直接返回之前創建好的字符串對象,如果之前還沒有加入到該池子中,則先構造一個字符串對象,并把這個對象加入到池子中去,方便下一次獲取,用偽代碼就可以描述為:
intern_pool = {} def intern(s): if s in intern_pool: return intern_pool[s] else: obj = PyStringObject(s) intern_pool[s] = obj return obj
在主流面向對象的編程語言中intern 機制對于處理字符串已經成為一種標配,通過 intern 機制可以提高字符串的處理效率,當然,解釋器內部很對 intern 機制的使用策略是有考究的,有些場景會自動使用 intern ,有些地方需要通過手動方式才能啟動。比如:
>>> s1 = "hello" >>> s2 = "hello" >>> s1 is s2 True >>> id(s1) 72320704L >>> id(s2) 72320704L
這段代碼就是 Python自動使用了intern機制的結果。
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
