摘要
數(shù)據(jù)分析與建模的時候大部分時間在數(shù)據(jù)準(zhǔn)備上,包括對數(shù)據(jù)的加載、清理、轉(zhuǎn)換以及重塑。pandas提供了一組高級的、靈活的、高效的核心函數(shù),能夠輕松的將數(shù)據(jù)規(guī)整化。這節(jié)主要對pandas合并數(shù)據(jù)集的merge函數(shù)進(jìn)行詳解。(用過SQL或其他關(guān)系型數(shù)據(jù)庫的可能會對這個方法比較熟悉。) 碼字不易,喜歡請點贊!!!
3.pd.merge()方法設(shè)置連接字段。
默認(rèn)參數(shù)how是inner內(nèi)連接,并且會按照相同的字段key進(jìn)行合并,即等價于on=‘key’。
也可以顯示的設(shè)置on=‘key’,這里也推薦這么做。
當(dāng)兩邊合并字段不同時,可以使用left_on和right_on參數(shù)設(shè)置合并字段。當(dāng)然這里合并字段都是key所以left_on和right_on參數(shù)值都是key。
4.pd.merge()方法設(shè)置連接方法。
主要包括inner(內(nèi)連接)、outer(外鏈接)、left(左連接)、right(右連接)。
參數(shù)how默認(rèn)值是inner內(nèi)連接,上面的都是采用內(nèi)連接,連接兩邊都有的值。
當(dāng)采用outer外連接時,會取并集,并用NaN填充。
外連接其實左連接和右連接的并集。左連接是左側(cè)DataFrame取全部數(shù)據(jù),右側(cè)DataFrame匹配左側(cè)DataFrame。(右連接right和左連接類似)
5.pd.merge()方法索引連接,以及重復(fù)列名命名。
pd.merge()方法可以通過設(shè)置left_index或者right_index的值為True來使用索引連接,例如這里df1使用data1當(dāng)連接關(guān)鍵字,而df2使用索引當(dāng)連接關(guān)鍵字。
從上面可以發(fā)現(xiàn)兩個DataFrame中都有key列,merge合并之后,pandas會自動在后面加上(_x,_y)來區(qū)分,我們也可以通過設(shè)置suffixes來設(shè)置名字。
姊妹篇:pandas.concat用法詳解!!!
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
