本科課程輔導(dǎo)
發(fā)布時(shí)間:2023-10-16 12:06
數(shù)據(jù)分析涉及各種清理、轉(zhuǎn)換、分析和創(chuàng)建數(shù)據(jù)模型的流程,以生成具體、有意義的信息。這些都有助于做出重要的實(shí)時(shí)業(yè)務(wù)決策。探索性數(shù)據(jù)分析對(duì)所有企業(yè)都很重要。它允許數(shù)據(jù)分析師在得出結(jié)論之前對(duì)數(shù)據(jù)進(jìn)行分析。它還能確保獲得的結(jié)果是有效的,并適用于業(yè)務(wù)成果和目標(biāo)。這篇關(guān)于探索性數(shù)據(jù)分析的文章提供了探索性數(shù)據(jù)分析(EDA)的關(guān)鍵步驟及類型。
探索性數(shù)據(jù)分析(EDA)是數(shù)據(jù)科學(xué)中機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型用于提取相關(guān)特征和趨勢(shì)的技術(shù)之一。因此,EDA 已成為數(shù)據(jù)科學(xué)工作者的一個(gè)重要里程碑。本文討論了 EDA 的概念、含義、工具和技術(shù),以便為希望開始數(shù)據(jù)科學(xué)職業(yè)生涯的初學(xué)者提供完整的信息。文章還列舉了經(jīng)常有效使用 EDA 推動(dòng)業(yè)務(wù)發(fā)展的行業(yè)。
數(shù)據(jù)科學(xué)領(lǐng)域在當(dāng)今的商業(yè)世界中非常重要,因?yàn)樗ㄟ^分析收集到的大量數(shù)據(jù),為做出重要的商業(yè)決策提供了許多機(jī)會(huì)。要深入了解數(shù)據(jù),就必須從各個(gè)角度對(duì)其進(jìn)行研究。高效的操作能夠做出有意義和有用的決策,因此,EDA 在數(shù)據(jù)科學(xué)中發(fā)揮著不可估量的作用。
探索性數(shù)據(jù)分析的總體目標(biāo)是產(chǎn)生有意義的見解,因此通常包括以下子目標(biāo):
識(shí)別和消除異常值;
確定時(shí)間和空間趨勢(shì);
確定與目標(biāo)相關(guān)的模式;
提出假設(shè)并通過實(shí)驗(yàn)進(jìn)行檢驗(yàn);
確定新的信息源.
數(shù)據(jù)挖掘分析的作用基于對(duì)上述目標(biāo)的利用。一旦制定了數(shù)據(jù),所進(jìn)行的分析將確定模式和趨勢(shì),這將有助于采取所需的適當(dāng)行動(dòng),以實(shí)現(xiàn)預(yù)期的業(yè)務(wù)目標(biāo)。由于我們希望每位經(jīng)理都能在特定的角色中執(zhí)行特定的任務(wù),因此我們希望適當(dāng)?shù)?EA 能夠?yàn)榕c特定業(yè)務(wù)決策相關(guān)的問題提供完整的答案。由于數(shù)據(jù)科學(xué)是關(guān)于建立預(yù)測(cè)模型的,因此模型必須考慮到最佳數(shù)據(jù)特征。這樣,EDA 就能確保有正確的模型和趨勢(shì)組件來訓(xùn)練模型,以實(shí)現(xiàn)正確的結(jié)果,如成功的配方。因此,在正確的數(shù)據(jù)上使用正確的工具執(zhí)行正確的 EDA 將有助于實(shí)現(xiàn)預(yù)期目標(biāo)。
?EDA 的關(guān)鍵要素是進(jìn)行 EDA 所涉及的主要步驟。它們是
1.數(shù)據(jù)收集
如今,在人類生活的各個(gè)領(lǐng)域,如健康、體育、工業(yè)、旅游等,都會(huì)以各種形式產(chǎn)生大量數(shù)據(jù)。所有企業(yè)都知道通過正確分析數(shù)據(jù)充分利用數(shù)據(jù)的重要性。然而,這取決于通過調(diào)查、社交媒體和客戶反饋從不同來源收集必要的數(shù)據(jù)。如果不收集足夠的相關(guān)數(shù)據(jù),就無法采取進(jìn)一步行動(dòng)。
2.發(fā)現(xiàn)并了解所有變量
在開始分析過程時(shí),首先要關(guān)注可提供大量信息的可用數(shù)據(jù)。這些數(shù)據(jù)包含不同特征或特質(zhì)的變量值,有助于理解它們并獲得有價(jià)值的見解。這需要首先確定影響結(jié)果的重要變量及其潛在影響。這一步對(duì)最終結(jié)果至關(guān)重要。 p
3.清理數(shù)據(jù)集
下一步是清理數(shù)據(jù)集,其中可能包含空值和無關(guān)信息。需要?jiǎng)h除這些信息,以便數(shù)據(jù)只包含與目標(biāo)相關(guān)且重要的值。這不僅能縮短時(shí)間,還能降低進(jìn)行評(píng)估所需的計(jì)算能力。預(yù)處理涉及到所有方面,如歸零、異常值檢測(cè)、異常檢測(cè)等。
4.確定相關(guān)變量
確定變量之間的相關(guān)性有助于找出某一變量與另一變量之間的關(guān)系。相關(guān)矩陣法可以清楚地顯示不同變量之間的相關(guān)性,進(jìn)而幫助理解變量之間的內(nèi)在關(guān)系。
5.選擇合適的統(tǒng)計(jì)方法
正如我們?cè)谝韵抡鹿?jié)中所看到的,根據(jù)數(shù)據(jù)的大小、是分類數(shù)據(jù)還是數(shù)值數(shù)據(jù)、變量的類型以及分析的目的,可以使用不同的統(tǒng)計(jì)工具。應(yīng)用于數(shù)值結(jié)果的統(tǒng)計(jì)公式可以提供必要的信息,但圖形表示法更具吸引力,也更易于解釋。
6.結(jié)果的可視化和分析
分析結(jié)束后,需要仔細(xì)認(rèn)真地查看結(jié)果,以便正確解讀。數(shù)據(jù)的散點(diǎn)趨勢(shì)和變量之間的相關(guān)性為適當(dāng)修改數(shù)據(jù)參數(shù)提供了很好的啟示。數(shù)據(jù)分析人員應(yīng)具備必要的分析技能,并對(duì)所有分析技術(shù)有透徹的了解。獲得的結(jié)果將與該特定領(lǐng)域的數(shù)據(jù)保持一致,并適用于零售、醫(yī)療保健和農(nóng)業(yè)領(lǐng)域。
要掌握探索性數(shù)據(jù)分析,數(shù)據(jù)分析新手需要了解并實(shí)踐上述歐空局?jǐn)?shù)據(jù)科學(xué)步驟。了解有關(guān)數(shù)據(jù)科學(xué)訓(xùn)練營培訓(xùn)計(jì)劃的更多信息。
在單變量分析中,結(jié)果是一個(gè)單一變量,所有收集到的數(shù)據(jù)都?xì)w于該變量。沒有因果關(guān)系。例如,12 個(gè)月的數(shù)據(jù)顯示了每個(gè)月生產(chǎn)的產(chǎn)品。在二元分析中,結(jié)果取決于兩個(gè)變量,例如工人的年齡,并與兩個(gè)變量(即工人的工資和每月支出)進(jìn)行比較。
在多元分析中,結(jié)果取決于兩個(gè)以上的變量,如產(chǎn)品類型和銷售數(shù)量,并與產(chǎn)品價(jià)格、廣告費(fèi)用和折扣進(jìn)行比較。數(shù)據(jù)分析的變量可以是數(shù)字變量,也可以是分類變量。分析結(jié)果可以以數(shù)值、可視化或圖表的形式呈現(xiàn)。因此,還可進(jìn)一步分為非圖形和圖形。
1. 一維非圖形
這是實(shí)際使用的所有數(shù)據(jù)分析類型中最簡單的一種。顧名思義,單變量是指只考慮一個(gè)變量,并收集和研究該變量(即所謂的總體)的數(shù)據(jù)。非圖形單變量數(shù)據(jù)分析的主要目的是找出總體數(shù)據(jù)分布的細(xì)節(jié),并了解一些特定的統(tǒng)計(jì)參數(shù)。從分布角度評(píng)估的重要參數(shù)如下:
中心傾向: 這個(gè)術(shù)語指的是位于數(shù)據(jù)中心位置或中間區(qū)域的值。通常估算三個(gè)中心傾向參數(shù):平均值、中位數(shù)和模式。均值是數(shù)據(jù)中所有值的平均值,而模式是出現(xiàn)次數(shù)最多的值。中位數(shù)是其左右兩邊觀測(cè)值相等的平均值。
范圍:范圍是數(shù)據(jù)中最大值和最小值之間的差值,表示數(shù)據(jù)在頂部和底部偏離平均值的程度。
方差和標(biāo)準(zhǔn)差: 另外兩個(gè)有用的參數(shù)是標(biāo)準(zhǔn)差和方差。方差是一種離散度量,表示數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)的離散程度。它是最常用的離散度量,是每個(gè)數(shù)據(jù)點(diǎn)與平均值之間差值的平均平方,而標(biāo)準(zhǔn)差是標(biāo)準(zhǔn)差值的平方根。標(biāo)準(zhǔn)差的值越大,說明數(shù)據(jù)的離散程度越高,而標(biāo)準(zhǔn)差的值越小,說明有更多的值聚集在平均值附近。
2.一維圖形
本節(jié)中的圖表基于 UCI 數(shù)據(jù)庫中的汽車 MPG 數(shù)據(jù)集。下面是一些常見的一維圖表類型:
條形圖和數(shù)字圖:這是一種非常簡單但功能強(qiáng)大的數(shù)據(jù)分析方法,用于以簡潔的格式呈現(xiàn)定量數(shù)據(jù)。它表示數(shù)據(jù)集中的值,保持每個(gè)觀測(cè)值的完整性,但將它們分開作為莖(起始數(shù)),其余或結(jié)束數(shù)作為葉。但如今條形圖使用得更多。
條形圖(柱形圖): 這些圖表用于顯示分組和未分組的數(shù)據(jù)。x 軸顯示變量的值,y 軸顯示觀察次數(shù)或頻率。條形圖非常簡單,可以快速了解數(shù)據(jù),告知數(shù)據(jù)值,如中心傾向、方差、異常值等。條形圖是最簡單的基本圖表,它是一個(gè)柱形圖,其中每個(gè)柱形代表不同值的頻率,即數(shù)量或比例(觀察數(shù)與觀察總數(shù)之間的比率)。
條形圖有很多種,下面介紹其中的一些:
簡單條形圖:用于表示分類變量,使用矩形條,不同長度的條與變量值相對(duì)應(yīng)。
多條形圖或分組條形圖:分組條形圖是呈現(xiàn)多組數(shù)據(jù)項(xiàng)進(jìn)行比較的條形圖,其中使用一種顏色表示數(shù)據(jù)集中的特定系列。
百分比條形圖:這種條形圖以百分比的形式顯示每個(gè)觀測(cè)點(diǎn)的數(shù)據(jù)。下圖顯示的是帶有虛擬值的百分比條形圖。
餅圖:用于顯示數(shù)據(jù)中定量值的分布。如果數(shù)據(jù)集由分類變量組成,餅圖可以顯示它們之間的比較。此外,如果數(shù)據(jù)中有異常值,也可以很容易地識(shí)別出來。這些圖表在需要以百分比的形式進(jìn)行比較時(shí)非常有用,例如,25%、50% 和 75%(四分位數(shù))范圍內(nèi)的數(shù)值。
3.無圖表的多元圖表
不帶圖表的多變量數(shù)據(jù)探索性分析技術(shù)通常用于使用交叉表或統(tǒng)計(jì)數(shù)據(jù)顯示兩個(gè)或多個(gè)變量之間的關(guān)系。
對(duì)于分類數(shù)據(jù),制表法的擴(kuò)展稱為交叉制表法,非常有用。對(duì)于兩個(gè)變量,交叉制表的方法是制作一個(gè)雙面表,列標(biāo)題對(duì)應(yīng)于一個(gè)變量的編號(hào),行標(biāo)題對(duì)應(yīng)于兩個(gè)相反變量的編號(hào),然后填寫所有具有相同水平對(duì)的受試者的計(jì)數(shù)。
對(duì)于每個(gè)分類變量和定量變量,我們可以針對(duì)變量的每個(gè)水平分別生成定量變量的統(tǒng)計(jì)信息。
4.多元圖形
在多元圖形中,圖形用于顯示兩個(gè)或多個(gè)變量之間的關(guān)系。在這里,結(jié)果取決于兩個(gè)以上的變量,而引起變化的變量也可能不止一個(gè)。
常見的多元圖形有以下幾種:
(A) 散點(diǎn)圖
針對(duì)兩個(gè)定量變量的基本 EDA 制圖技術(shù)是散點(diǎn)圖,其中一個(gè)變量在 x 軸上,另一個(gè)變量在 y 軸上,因此作為數(shù)據(jù)集中每個(gè)案例的點(diǎn)。這種方法可用于雙變量分析。
B) 多元圖表
多變量圖是一種控制圖,用于控制兩個(gè)或多個(gè)相互關(guān)聯(lián)的過程變量。這在過程控制等情況下非常有用,工程師可以從使用多變量圖表中受益。這些圖表允許在一張圖表上同時(shí)檢查多個(gè)參數(shù)。使用多變量圖的一個(gè)重要優(yōu)勢(shì)是,它們有助于最大限度地減少業(yè)務(wù)流程控制圖的總數(shù)。使用 Seaborn 庫創(chuàng)建的配對(duì)圖就是多變量圖的一個(gè)很好的例子,因?yàn)樗鼈冇兄谝淮涡灾庇^顯示整個(gè)數(shù)據(jù)集中所有數(shù)字變量之間的關(guān)系。
C) 執(zhí)行圖
執(zhí)行圖是隨時(shí)間繪制的數(shù)據(jù)折線圖。換句話說,執(zhí)行圖直觀地顯示了時(shí)間序列中的流程性能或數(shù)據(jù)值。與匯總統(tǒng)計(jì)相比,可視化隨時(shí)間變化的數(shù)據(jù)能產(chǎn)生更準(zhǔn)確的結(jié)果。趨勢(shì)圖或時(shí)間序列圖是運(yùn)行圖的另一個(gè)名稱。下圖顯示了特定時(shí)期內(nèi)的虛構(gòu)銷售值。
D) 氣泡圖
氣泡圖是一種散點(diǎn)圖,在二維圖表上顯示幾個(gè)圓(氣泡)。它們用于評(píng)估三個(gè)或更多數(shù)字變量之間的關(guān)系。在氣泡圖中,每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)數(shù)據(jù)點(diǎn),每個(gè)點(diǎn)的變量值以不同的位置顯示,如水平、垂直、點(diǎn)的大小和點(diǎn)的顏色。
E) 熱圖
熱圖是多元數(shù)據(jù)的彩色圖形表示法,其結(jié)構(gòu)為列和行的矩陣。熱圖將相關(guān)矩陣轉(zhuǎn)換為顏色代碼,并繪制這些系數(shù),以直觀顯示變量之間的相關(guān)強(qiáng)度。這有助于找到最合適的特征,為機(jī)器學(xué)習(xí)建立精確的模型。
除上述技術(shù)外,EDA 還采用了 "分類或聚類分析 "技術(shù)。這是一種無監(jiān)督的機(jī)器學(xué)習(xí)形式,用于將輸入數(shù)據(jù)分類為某些類別或集群,這些類別或集群在不同組中表現(xiàn)出相似的特征。然后可用于在 EDA 中進(jìn)行重要解釋。
海馬課堂專業(yè)課程輔導(dǎo),輔導(dǎo)不滿意隨心退,試聽課全面升級(jí),3500+嚴(yán)選碩博學(xué)霸師資,針對(duì)學(xué)生的薄弱科目和學(xué)校教學(xué)進(jìn)度,匹配背景相符的導(dǎo)師,根據(jù)學(xué)生情況進(jìn)行1V1專屬備課,課程輔導(dǎo)產(chǎn)品升級(jí)贈(zèng)送考前保障,上課時(shí)間靈活安排,中英雙語詳細(xì)講解課程中的考點(diǎn)、難點(diǎn)問題,并提供多方位的課后輔導(dǎo),輔助學(xué)生掌握全部課程知識(shí),補(bǔ)足短板。如果你對(duì)此還有疑問,或者有更多關(guān)于學(xué)業(yè)輔導(dǎo)方面需求的話,可以添加微信號(hào):hmkt131聯(lián)系海馬課堂的Joye老師哦。
相關(guān)熱詞搜索: