河(hé)北(běi)水(shuǐ)德_石家(jiā)莊軟件(jiàn)開(kāi)發這(zhè)裡(lǐ)有(yǒu)一(yī)個(gè)簡單實用(yòng)的(de)清洗代碼集

這(zhè)裡(lǐ)有(yǒu)一(yī)個(gè)簡單實₩±α用(yòng)的(de)清洗代碼集

TIME: 2019-01-26

現(xiàn)實世界中的(de)數(shù)據通(tōng)常質量不(π≈£bù)高(gāo)，作(zuò)為(wèi)一(yī)名數(shù)據§±♣科(kē)學家(jiā)，有(yǒu)時(shí)也(yě)需要(yào)承≥£'擔一(yī)部分(fēn)數(shù)據清洗的(de)工πε(gōng)作(zuò)，這(zhè)要('Ωyào)求數(shù)據科(kē)學家(jiā)們應該能(¶•néng)夠在進行(xíng)數(shù)據分(fēn)析或建♣§β¶模工(gōng)作(zuò)之前執行(xíng)數(shπ↓✘©ù)據清洗步驟，從(cóng)而确保數(shù)據的(de↔∏ )質量最佳。

不(bù)過長(cháng)話(huà)短(duǎn)說(÷♣‍→shuō)，在數(shù)據科(kē)學領域工(gōng)作(zuò)了(l←βγ$e)很(hěn)長(cháng)一(yī)段時(←λshí)間(jiān)後，我切實感受到(dàoσ ‍)了(le)在進行(xíng)數(shù)‍ε 據分(fēn)析、可(kě)視(shì)化(huà)和(hé)建模工¥(gōng)作(zuò)之前，進行(xíng)數(shù)‍α據清洗工(gōng)作(zuò)是(shì)多(d&↕uō)麽痛苦。

不(bù)管你(nǐ)承不(bù)承認，數(shù)據清洗著(zhe)φ©"實不(bù)是(shì)一(yī)件(jiàn)簡單✘✔&的(de)任務，大(dà)多(duō)數(shù)情況下(x₽<ià)這(zhè)項工(gōng)作(zuò)是(shì)十分(f£• ēn)耗時(shí)而乏味的(de)，但↓≈ (dàn)它又(yòu)是(shì)十分(f♥≤ēn)重要(yào)的(de)。

如(rú)果你(nǐ)經曆過數(shù)據清洗的(de)過程，你(λ‌nǐ)就(jiù)會(huì)明(míng)白(bái)÷ ±我的(de)意思。而這(zhè)正是(shì)撰寫這(zhè)₽ φ₹篇文(wén)章(zhāng)的(de)目的(d∏¥e)——讓讀(dú)者更輕松地(dì)進行(xínσ↓←™g)數(shù)據清洗工(gōng)作(zuò)。

事(shì)實上(shàng)，我在不(bù)久前意識到(dà♠$↔£o)，在進行(xíng)數(shù)據清洗時(shí)，有(¥€™yǒu)一(yī)些(xiē)數(shù)據具有(yǒu)相(x©★♣εiàng)似的(de)模式。也(yě)正是(shì)從( cóng)那(nà)時(shí)起，我開(kāi)始整理★π₩•(lǐ)并編譯了(le)一(yī)些(xiē)數(shù)¥™α‌據清洗代碼(見(jiàn)下(xià)文(wén))，我認為(wèi)這(zh←‍®★è)些(xiē)代碼也(yě)适用(yòng)于其它的(d✘≠"©e)常見(jiàn)場(chǎng)景。

由于這(zhè)些(xiē)常見(jiàn)的(de)場(chǎng)♦♣景涉及到(dào)不(bù)同類型的(de≈✘)數(shù)據集，因此本文(wén)更加側重于展示和(hé)解<<釋這(zhè)些(xiē)代碼可(kě)以用(yòng)于完 '成哪些(xiē)工(gōng)作(zuò)，以便讀(dú)者更 ₽加方便地(dì)使用(yòng)它們。

我的(de)數(shù)據清洗小(xiǎo)工(gōng)具箱

在下(xià)面的(de)代碼片段中，數(shù)據清洗↔↓代碼被封裝在了(le)一(yī)些(xiē)函數(shù)中¥£♠，代碼的(de)目的(de)十分(fēn)直觀。你(nǐ)可(kě)以•↑♠÷直接使用(yòng)這(zhè)些(xiē)代碼，無需将它們嵌入到(d♠ ào)需要(yào)進行(xíng)少(shǎo)量參數∞∏(shù)修改的(de)函數(shù)中。

1. 删除多(duō)列數(shù)據

def drop_multiple_col(col_names≠✔_list, df):
&σ↕‌₽#39;''
AIM &nb sp; ->&nbs↓p;Drop multiple columnα ☆s based on theβ₽>★ir column names&n'÷✘bsp;
INPUT λ≠; -> List of c£✔olumn names,&nbs€>‍p;df
ε→÷OUTPUT -> upda♣♥✔ted df with ÷♦ γdropped columns &×♣nbsp;
------ σ♦
''₽≈9;
df.♠₩¥∏drop(col_names_list, axis=1,↕≈ inplace=True) π→
return★✘✘ df

有(yǒu)時(shí)，并不(bù)是(shì)所有(yǒu)列的(de)數σ<φ₹(shù)據都(dōu)對(duì)我們的(d↑→¥&e)數(shù)據分(fēn)析工(gōng)作(zuò)≈→σ有(yǒu)用(yòng)。因此，「df.←"'drop」可(kě)以方便地(dì)删掉你(nǐ)選定↕&&α的(de)列。

2. 轉換 Dtypes

def change_dtypes✘₩₹(col_int, col_float, df):&nb∑♣±γsp;
&nb↕sp;''' ✘↕
AIM &nb‍∑sp; -> Changing&nbs✔€σp;dtypes to save&↑¶↔nbsp;memory
INPUT&n™↕bsp; -> List of ↕¶$;column names (intπ₽, float), df&nbs∏±λ®p;
OUε"∏TPUT -> updated ♦®≠df with smaller&nbλ®&♦sp;memory &n¥∏® bsp;
-☆≈-----
''£∞9;
α£df[col_int] = df[col_iε©nt].astype('int32&#♣★39;)
df[col_fλ←loat] = df[colε$_float].astype('fl<÷oat32')

當我們面對(duì)更大(dà)的(de)數(shù)據集時(sh<§í)，我們需要(yào)對(duì)「dtypes」進行(xíng)轉換，φ↑從(cóng)而節省內(nèi)存。如(rú)果你(nǐ)有(‌↑∑×yǒu)興趣學習(xí)如(rú)何使用(yòng)「Pand♠<≤as」來(lái)處理(lǐ)大(dà)數(shù)據‍‌，我強烈推薦你(nǐ)閱讀(dú)「Why and How to Us♥¥e Pandas with Large Data」這(zhè)篇文(w©•én)章(zhāng)

(https://towardsdatascience.com/why-a↓∞"nd-how-to-use-pandasσ"-with-large-data-9594dda€≈2ea4c)。

3. 将分(fēn)類變量轉換為(wèi)數(shù)值變量

def convert_cat2nu >≤'m(df):
#&n ✘☆λbsp;Convert cate÷α→gorical variable to λ<±★;numerical variable
num_encod♥ e = {'col_1' :&n‌‌bsp;{'YES':1, 'NO&•✘™#39;:0},
‍→π§ &nb&∏sp; ✔ δ; 'col_2' &₹‍nbsp;: {'WON'δπ•♣:1, 'LOSE':0, 'DR↑&×AW':0}} ∑÷♠
&nb₩→δsp;df.replace(num_encode,&$₩∏nbsp;inplace=True) &n"∞&bsp;

有(yǒu)一(yī)些(xiē)機(jī)器(qì)學習(xí)模型λ€"要(yào)求變量是(shì)以數(sh↔σù)值形式存在的(de)。這(zhè)時(shí)，我們就(j<∞™>iù)需要(yào)将分(fēn)類變量轉‌↕ 換成數(shù)值變量然後再将它們作(zuò)為(wèi)模型的(de≤&¶±)輸入。對(duì)于數(shù)據可(kě)視(shì↑∑≥)化(huà)任務來(lái)說(shuō&↔♣ε)，我建議(yì)大(dà)家(jiā)保留<±γπ分(fēn)類變量，從(cóng)而讓可(kě)↑δ視(shì)化(huà)結果有(yǒu)更明(míng)确的♦ε(de)解釋，便于理(lǐ)解。

4. 檢查缺失的(de)數(shù)據

def check_missiλ¶ng_data(df):
# c><heck for any missi∞÷ng data in&‌₽nbsp;the df (display&nb<♣$±sp;in descending ord§>£∏er)
$↑return df.isnull().sum().sort_va♣ ₹♠lues(ascending=False)

如(rú)果你(nǐ)想要(yào)檢查每一(yī)列中有(✘→yǒu)多(duō)少(shǎo)缺失的(de)÷♥↕£數(shù)據，這(zhè)可(kě)能(né↔'ε£ng)是(shì)最快(kuài)的(de)方法。這(zhè)種≠×↔↔方法可(kě)以讓你(nǐ)更清楚地(dì)知(zπ φhī)道(dào)哪些(xiē)列有(yǒu)€•更多(duō)的(de)缺失數(shù)據，幫助你€₽™∞(nǐ)決定接下(xià)來(lái)在數(shù)據清洗和(hé)數(sh£∏₩ù)據分(fēn)析工(gōng)作(zuò)中應該采取怎樣的(de)行(<↓xíng)動。

5. 删除列中的(de)字符串

def remove_col_str(df★≈):
# remove±σ♥♠ a portion £•★';of string in&nb↑πγsp;a dataframe colu✔mn - col_1
★≠;# remove all the&nbsλε→p;characters after &#<♦ (including &am↔ ♦p;#) for column&≤αnbsp;- col_1&nbs₽↕p;
&n∑∞ ↕bsp;df['col_1'].re£←place(' &#.*', ®←δ'', regex=True,&n ™πbsp;inplace=True)&nbs®γ ☆p;

有(yǒu)時(shí)你(nǐ)可(kě)能(néng)π"會(huì)看(kàn)到(dào)一(yīλ"" )行(xíng)新的(de)字符，或在字符串列中看(kàn)到(dào)一↕☆™(yī)些(xiē)奇怪的(de)符号。你(nǐ)™✘•可(kě)以很(hěn)容易地(dì)使用(yòng) df['co≤↔ ∑l_1'].replace 來(lái)處理(lǐ)該問(wèn♣÷σ<)題，其中「col_1」是(shì)數(shù)據幀 df 中的(de✔&∞∞)一(yī)列。

6. 删除列中的(de)空(kōng)格

def remove_col_white_spac$∞Ω±e(df):
# remove&n≤←$bsp;white space at ∞γ§φthe beginning of ✔®;string
df[c∏♥"™ol] = df[col].str.lstrip₩¥()

當數(shù)據十分(fēn)混亂時(shí)，很(h ®ěn)多(duō)意想不(bù)到(dào)的(de)♣♣情況都(dōu)會(huì)發生(shēng)。在字符串的( β<&de)開(kāi)頭有(yǒu)一(yī)些(xiē₩α)空(kōng)格是(shì)很(hěn)常見×±©(jiàn)的(de)。因此，當你(nǐ)想要(yào)删除列中字符串開(k×σφāi)頭的(de)空(kōng)格時(shí)，這(zhè)種方法很 ♥✔(hěn)實用(yòng)。

7. 将兩列字符串數(shù)據(在一(yī)定條件>÷±(jiàn)下(xià))拼接起來(lái)∏↔ ™

def concat_col_str_condition(df):&φ¥€ nbsp;
#&nb§‌₩®sp;concat 2 columns&nbs™πp;with strings if&nδ¶bsp;the last 3 letδ£ters of the&nb€∞φ±sp;first column are α≠©;'pil'
mas♦'k = df['col_1&#§ ↑39;].str.endswith('pil&♦ελ #39;, na=False)&nb₽‍βsp;
col_new =&÷∑nbsp;df[mask]['col_1'] +β∑ df[mask]['col_2'] •>§;
co↔αl_new.replace('pil≤γΩ♥9;, ' '," ∞• regex=True, in£✘place=True) #&nb≤≤sp;replace the 'p±↔il' with emtpy s∏♣↑¥pace

當你(nǐ)希望在一(yī)定條件(jiàn)α♦Ω∏下(xià)将兩列字符串數(shù)據組合在一(≈ yī)起時(shí)，這(zhè)種方法很(≈<hěn)有(yǒu)用(yòng)。例如(rú)，你(nǐ)希望♥↔當第一(yī)列以某些(xiē)特定的(de)字母‍≈結尾時(shí)，将第一(yī)列和(hé)第♥±二列數(shù)據拼接在一(yī)起。根據你(nǐ)的(de)需要(yà★₹₹§o)，還(hái)可(kě)以在拼接工(gōng)作(zuò)完成後₹÷将結尾的(de)字母删除掉。

8. 轉換時(shí)間(jiān)戳(從(có$¶λng)字符串類型轉換為(wèi)日(rì≠‍)期「DateTime」格式)

def convert_str_da→‍₹‌tetime(df):
''∏&₽;'
INPUα★♦ T ->&nbs✔×✘p;df
OUTPUT -&g&♥‌Ωt; updated d₽§ f with new datetim$★≥≈e format δ ✘
------‍∞∞>
&n←±bsp;'''&nbε•σεsp;
df.insert(loc=2&∞, column='timestamp&#>★39;, value=pd.to_da£•tetime(df.transdate, form$© 'at='%Y-%m-%d %H:%M:%S.%f$'©₩'))

在處理(lǐ)時(shí)間(jiān)序列數(shù)據時(σ∏shí)，你(nǐ)可(kě)能(néng)↕≠≠會(huì)遇到(dào)字符串格式的(de)時(shí)間(jiān✔♣₽")戳列。這(zhè)意味著(zhe)我們可(kě)能(nénφ‌↑g)不(bù)得(de)不(bù)将字符串格式的(de)數(shù)據轉換δπ為(wèi)根據我們的(de)需求指定的(de)日(rì)期「d®™<atetime」格式，以便使用(yòng)這(zhè)些(xi ←×☆ē)數(shù)據進行(xíng)有(yǒu)意義的(de)分(fēn)析和($©hé)展示。

上(shàng)一(yī)篇：2019年(nián)Web應用(yòng)開(kāi)發的(de✔±)6大(dà)趨勢轉變！
下(xià)一(yī)篇：5G時(shí)代的(de)軟件(jiàn)開(kāi)發對(du ↓ ì)人(rén)類有(yǒu)什(shén)麽影(yǐng)響?

我們一(yī)直在路(lù)上(shàng)，& ™±隻為(wèi)更優質的(de)服務

這(zhè)裡(lǐ)有(yǒu)一(yī)個(gè)簡單實₩±α用(yòng)的(de)清洗代碼集