日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

python文本數(shù)據(jù)處理學(xué)習(xí)筆記詳解

系統(tǒng) 1695 0

最近越發(fā)感覺(jué)到限制我對(duì)Python運(yùn)用、以及讀懂別人代碼的地方,大多是在于對(duì)數(shù)據(jù)的處理能力。

其實(shí)編程本質(zhì)上就是數(shù)據(jù)處理,怎么把文本數(shù)據(jù)、圖像數(shù)據(jù),通過(guò)python讀入、切分等,變成一個(gè)N維矩陣,然后再帶入別人的模型,bingo~跑出來(lái)一個(gè)結(jié)果。結(jié)果當(dāng)然也是一個(gè)矩陣或向量的形式。

所以說(shuō),之所以對(duì)很多模型、代碼束手無(wú)策,其實(shí)還是沒(méi)有掌握好數(shù)據(jù)處理的“屠龍寶刀”,無(wú)法對(duì)海量數(shù)據(jù)進(jìn)行“庖丁解牛”般的處理。因此,我想以一個(gè)別人代碼中的一段為例,仔細(xì)琢磨文本數(shù)據(jù)處理的精妙之處,爭(zhēng)取能夠加深對(duì)這方面的運(yùn)用與理解。

1) 問(wèn)題描述

數(shù)據(jù):某個(gè)區(qū)域181天內(nèi)的訪客數(shù)據(jù),格式如下,第一列代表訪客的名稱,第二列代表這位訪客在181天內(nèi)到達(dá)這片區(qū)域的時(shí)刻:

python文本數(shù)據(jù)處理學(xué)習(xí)筆記詳解_第1張圖片

目的:將訪客數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并時(shí)間離散化,按照天 /周/小時(shí)處理為72624的三維矩陣。
也就是說(shuō),矩陣中的每一個(gè)值,代表該區(qū)域 周X、第幾周、幾點(diǎn) 的到訪人數(shù),如
[1,5,19]=100,代表第5周的周一晚上7點(diǎn)的人數(shù)為100。

2)難點(diǎn)

當(dāng)然是對(duì)我的難點(diǎn)。

2.1)怎么按行統(tǒng)計(jì)

2.2)怎么進(jìn)行時(shí)間離散化(存為天、周、時(shí)刻的矩陣)

3)代碼

            
import time
import numpy as np
import sys
import datetime
import pandas as pd
import os
#用字典查詢代替類型轉(zhuǎn)換,可以減少一部分計(jì)算時(shí)間
date2position = {}
datestr2dateint = {}
str2int = {}
for i in range(182):
 date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
 #print(i,":",date)
 date_int = int(date.__str__().replace("-", ""))
 date2position[date_int] = [i%7, i//7]
 datestr2dateint[str(date_int)] = date_int
#print(datestr2dateint)
#
for i in range(24):
 str2int[str(i).zfill(2)] = i
f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt")
#table = pd.read_csv(f, header=None,error_bad_lines=False)
table = pd.read_csv(f, header=None,sep='\t')

#print(table.shape)
#print(table.ix[1])
strings = table[1]
#print(strings)
init = np.zeros((7, 26, 24))
for string in strings:
 temp = []
 for item in string.split(','):
 temp.append([item[0:8], item[9:].split("|")])
 for date, visit_lst in temp:
 # x - 第幾周
 # y - 第幾天
 # z - 幾點(diǎn)鐘
 # value - 到訪的總?cè)藬?shù)
 # print(visit_lst)
 print(date)
 x, y = date2position[datestr2dateint[date]]
 for visit in visit_lst: # 統(tǒng)計(jì)到訪的總?cè)藬?shù)
  init[x][y][str2int[visit]] += 1
 #print(init[x][y][str2int[visit]])```
          

3.1)創(chuàng)建字典,時(shí)間離散化,節(jié)省時(shí)間

此處創(chuàng)建了三個(gè)字典,讓我們看一下代碼實(shí)現(xiàn)以及打印結(jié)果:

            
date2position = {}
datestr2dateint = {}
str2int = {}
for i in range(182):
 date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
 #print(i,":",date)
 date_int = int(date.__str__().replace("-", ""))
 date2position[date_int] = [i%7, i//7]
 datestr2dateint[str(date_int)] = date_int
for i in range(24):
 str2int[str(i).zfill(2)] = i
          

打印一下 date2position:

python文本數(shù)據(jù)處理學(xué)習(xí)筆記詳解_第2張圖片

打印一下 datestr2dateint:

python文本數(shù)據(jù)處理學(xué)習(xí)筆記詳解_第3張圖片

打印str2int:

可以看出,datestr2dateint是將str的日期,轉(zhuǎn)換為了int的日期。
而date2position 才是計(jì)算出的每一個(gè)具體的日期,代表了第幾周、第幾天。
str2int代表了一天中的24個(gè)時(shí)刻。

3.2)讀取文件,按行獲取字符串

注意到文本的分隔符為\t(區(qū)分用戶名與到訪信息的分割),于是采用

            
f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt")
#table = pd.read_csv(f, header=None,error_bad_lines=False)
table = pd.read_csv(f, header=None,sep='\t')
          

然后用strings讀取到訪信息,也就是table的第二列:

            
strings = table[1]
          

3.3)切分字符串

首先,strings為:

python文本數(shù)據(jù)處理學(xué)習(xí)筆記詳解_第4張圖片

可以看到每一行string,為一個(gè)用戶的到訪記錄,循環(huán)讀取。其中,不同日期的到訪是用“,”隔開(kāi),故要使用:

            
for string in strings:
 temp = []
 for item in string.split(','):
          

item就可以分開(kāi)每一個(gè)日期的到訪記錄了:

python文本數(shù)據(jù)處理學(xué)習(xí)筆記詳解_第5張圖片

其后,使用temp列表,每一行存儲(chǔ)日期和時(shí)刻。
如第一個(gè)item為 20181221&09|10|11|12|13|14|15
日期為 item[0:8],
時(shí)刻之間使用分隔符“|”隔開(kāi),故可以通過(guò)item[9:].split("|")得到。

            
temp.append([item[0:8], item[9:].split("|")])
          

打印一下temp為:

python文本數(shù)據(jù)處理學(xué)習(xí)筆記詳解_第6張圖片

所以需要用兩個(gè)數(shù)據(jù)分別存儲(chǔ)日期,以及時(shí)刻。
首先用來(lái)轉(zhuǎn)換成 周、天、時(shí)刻的72624矩陣(根據(jù)前面的轉(zhuǎn)換函數(shù))
其后根據(jù)這個(gè)矩陣,統(tǒng)計(jì)每一個(gè)位置的訪客數(shù)量

            
for date, visit_lst in temp:
 # x - 第幾周
 # y - 第幾天
 # z - 幾點(diǎn)鐘
 # value - 到訪的總?cè)藬?shù)
 # print(visit_lst)
 #print(date)
 x, y = date2position[datestr2dateint[date]]
 for visit in visit_lst: # 統(tǒng)計(jì)到訪的總?cè)藬?shù)
  init[x][y][str2int[visit]] += 1
          

這一段代碼很短,但著實(shí)是整個(gè)時(shí)間離散化實(shí)現(xiàn)的精髓所在。

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 姚安县| 阳高县| 徐水县| 苍梧县| 铁岭县| 乐昌市| 贺州市| 汝州市| 开封县| 渝中区| 恩施市| 铁岭市| 武汉市| 山丹县| 新丰县| 台南市| 什邡市| 延吉市| 宝坻区| 天全县| 旅游| 许昌市| 武定县| 尉犁县| 栾城县| 文安县| 高平市| 富蕴县| 米脂县| 天柱县| 类乌齐县| 东乡族自治县| 郸城县| 福清市| 敦化市| 阿克苏市| 广水市| 娱乐| 佛山市| 阜新| 祁东县|