日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

python實(shí)現(xiàn)文本文件合并

系統(tǒng) 1689 0

python合并文本文件示例代碼。

python實(shí)現(xiàn)兩個(gè)文本合并

employee文件中記錄了工號(hào)和姓名

cat employee.txt:

            
100 Jason Smith
200 John Doe
300 Sanjay Gupta
400 Ashok Sharma


          

bonus文件中記錄工號(hào)和工資

cat bonus.txt:

            
100 $5,000
200 $500
300 $3,000
400 $1,250

          

要求把兩個(gè)文件合并并輸出如下, 處理結(jié)果:

            
400 ashok sharma $1,250

100 jason smith $5,000
200 john doe $500
300 sanjay gupta $3,000


          

這個(gè)應(yīng)該是要求用shell來(lái)寫的,但我的shell功底不怎么樣,就用python來(lái)實(shí)現(xiàn)了
注意,按題目的意思,在輸出文件中還需要按照姓名首字母來(lái)排序的

            
#! /usr/bin/env python
 
#coding=utf-8
fp01=open("bonus.txt","r")
a=[]
for line01 in fp01:
a.append(line01)
fp02=open("employee.txt","r")
fc02=sorted(fp02,key=lambda x:x.split()[1])
for line02 in fc02:
i=0
while line02.split()[0]!=a[i].split()[0]:
i+=1
print "%s %s %s %s" % (line02.split()[0],line02.split()[1],line02.split()[2],a[i].split()[1])
fp01.close()
fp02.close()

          

我們?cè)賮?lái)看一段同樣功能的 代碼

            
# coding gbk 
# 
# author: GreatGhoul 
# email : greatghoul@gmail.com 
# blog : http://greatghoul.javaeye.com 
  
import sys,os,msvcrt 
  
def join(in_filenames, out_filename): 
  out_file = open(out_filename, 'w+') 
    
  err_files = [] 
  for file in in_filenames: 
    try: 
      in_file = open(file, 'r') 
      out_file.write(in_file.read()) 
      out_file.write('\n\n') 
      in_file.close() 
    except IOError: 
      print 'error joining', file 
      err_files.append(file) 
  out_file.close() 
  print 'joining completed. %d file(s) missed.' % len(err_files) 
  print 'output file:', out_filename 
  if len(err_files) > 0: 
    print 'missed files:' 
    print '--------------------------------' 
    for file in err_files: 
      print file 
    print '--------------------------------' 
  
if __name__ == '__main__': 
  print 'scanning...' 
  in_filenames = [] 
  file_count = 0 
  for file in os.listdir(sys.path[0]): 
    if file.lower().endswith('[all].txt'): 
      os.remove(file) 
    elif file.lower().endswith('.txt'): 
      in_filenames.append(file) 
      file_count = file_count + 1 
  if len(in_filenames) > 0: 
    print '--------------------------------' 
    print '\n'.join(in_filenames) 
    print '--------------------------------' 
    print '%d part(s) in total.' % file_count 
    book_name = raw_input('enter the book name: ') 
    print 'joining...' 
    join(in_filenames, book_name + '[ALL].TXT') 
  else: 
    print 'nothing found.' 
  msvcrt.getch()
          

最后我們?cè)賮?lái)看一個(gè)小編遇到的情況:

今天匯編的時(shí)候在阿甘的博客里面看到了一部小說(shuō)《瘋狂的程序員》,于是網(wǎng)上搜了下準(zhǔn)備放到手機(jī)里閑時(shí)看看,無(wú)奈下載后發(fā)現(xiàn)是分章節(jié)的txt文本,一共有87個(gè)文件,考慮到閱讀起來(lái)不是很方便,于是想找個(gè)現(xiàn)成的工具合并txt文本。

結(jié)果嘗試了幾個(gè)工具后覺(jué)得合并效果都不給力啊,于是打算自己動(dòng)手。其實(shí)cmd的命令"type *.txt >> crazy-programmer.txt"還是很有效果的,然而合并后的txt文件卻十分龐大,所以我還是自己寫了一個(gè)腳本完成了合并。

說(shuō)明:由于我下載的87個(gè)txt文件的字符編碼格式都不統(tǒng)一,所以我用chardet模塊判斷字符編碼類型后再用codecs模塊的codecs.open功能解決了編碼問(wèn)題。如果直接用file的open打開txt文件的話,在UCS-2 Little Endian的編碼情況下,file.read()遇到中文的冒號(hào)(即“:”)后會(huì)無(wú)法讀取冒號(hào)以后的內(nèi)容,所以需要用codecs.open(path,'r',encoding)來(lái)解決。

如果還有問(wèn)題可以留言,代碼如下:

            
#!coding: cp936 
import codecs, chardet 
 
def fileopen(filename): 
  f = open(filename, 'r') 
  s = f.read() 
  if(chardet.detect(s)['encoding'] == 'UTF-16LE'): 
    f.close() 
    f = codecs.open(filename, 'r', 'utf-16-le')     
    data = f.read().encode('gb2312', 'ignore') 
    f.close() 
  elif(chardet.detect(s)['encoding'] == 'GB2312'): 
    data = s 
    f.close() 
  return data 
 
i = 1 
while i <=87: 
  if(i < 10): 
    filename = '0'+str(i)+'.txt' 
  else: 
    filename = str(i)+'.txt' 
  text = fileopen(filename) 
  file('crazy-p.txt', 'a+').write(text) 
  i = i+1 

          

其中,chardet模塊需要下載安裝,腳本還可以改進(jìn)以適應(yīng)更多種情況,我就懶了。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦?。?!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 牟定县| 文安县| 禹州市| 马龙县| 灌南县| 丹江口市| 日喀则市| 丰原市| 福鼎市| 日照市| 宁海县| 武义县| 静乐县| 都安| 广州市| 昌邑市| 行唐县| 留坝县| 光山县| 叶城县| 扶沟县| 綦江县| 宝清县| 洛川县| 大同县| 二连浩特市| 西和县| 建昌县| 武夷山市| 苍山县| 玉山县| 缙云县| 曲阳县| 专栏| 永和县| 贡觉县| 信丰县| 都安| 璧山县| 浑源县| 申扎县|