在之前的學(xué)習(xí)中我們已經(jīng)了解了如何利用Python的matplotlib進(jìn)行數(shù)據(jù)可視化,那么你對Seaborn進(jìn)行數(shù)據(jù)可視化了解嗎?下面是小編總結(jié)的有關(guān)利用Python的Seaborn進(jìn)行數(shù)據(jù)可視化的詳細(xì)介紹;請參照:

一個精心設(shè)計的可視化程序有一些特別之處。顏色突出,層次很好地融合在一起,整個輪廓流動,整個程序不僅有一個很好的美學(xué)質(zhì)量,它也為我們提供了有意義的技術(shù)洞察力。

這在數(shù)據(jù)科學(xué)中*重要,因為我們經(jīng)常處理大量雜亂的數(shù)據(jù)。對于數(shù)據(jù)科學(xué)家來說,具有可視化的能力是至關(guān)重要的。我們的利益相關(guān)者或客戶將更多地依賴于視覺提示,而不是復(fù)雜的機(jī)器學(xué)習(xí)模型。

有大量*的Python可視化庫可用,包括內(nèi)置的matplotlib。但Seaborn對我來說很重要。它將美學(xué)魅力與技術(shù)洞察力無縫地結(jié)合在一起,我們很快就會看到這一點。

Seaborn其實是在matplotlib的基礎(chǔ)上進(jìn)行了更*的API封裝,從而使得作圖更加容易,在大多數(shù)情況下使用seaborn就能做出很具有吸引力的圖,而使用matplotlib就能制作具有更多特色的圖。應(yīng)該把Seaborn視為matplotlib的補(bǔ)充,而不是替代物。

Python

一、什么是Seaborn?

你曾經(jīng)在R中使用過ggplot2庫嗎?它是任何工具或語言中*的可視化包之一。Seaborn給了我同樣的感覺。

Seaborn是一個構(gòu)建在matplotlib之上的一個*完美的Python可視化庫。

它使我們能夠創(chuàng)建放大的數(shù)據(jù)視覺效果。這有助于我們理解數(shù)據(jù),通過在可視上下文中顯示數(shù)據(jù)來發(fā)現(xiàn)變量或趨勢之間的任何隱藏相關(guān)性,而這些相關(guān)性*初可能并不明顯。與Matplotlib的低級接口相比,Seaborn具有*接口。

二、為什么應(yīng)該使用Seaborn而不是matplotlib?

我一直在談?wù)揝eaborn是多么的棒,所以你可能想知道我為什么這么大驚小怪。

當(dāng)我們使用seaborn生成圖時,我將以實際的方式全面地回答這個問題?,F(xiàn)在,讓我們快速討論一下seaborn為什么在matplotlib之上。

Seaborn使我們的圖表和繪圖看起來很吸引人,并支持一些常見的數(shù)據(jù)可視化需求(比如將顏色映射到變量或使用分面(faceting))。從根本上說,它使數(shù)據(jù)可視化和探索變得很容易。相信我,這在數(shù)據(jù)科學(xué)中不是一件容易的事。

在matplotlib中有幾個(很大的)限制是Seaborn已經(jīng)修復(fù)的:

Seaborn提供了大量的*接口和自定義主題,而matplotlib沒有這些接口,因為很難確定哪些設(shè)置使圖表更吸引人

Matplotlib函數(shù)不能很好地處理數(shù)據(jù)流,而seaborn可以

這第二點在數(shù)據(jù)科學(xué)中很突出,因為我們經(jīng)常使用數(shù)據(jù)模型。

三、搭建環(huán)境

seaborn庫具有四個必需的必需依賴項:

1、NumPy (>= 1.9.3)

2、SciPy (>= 0.14.0)

3、matplotlib (>= 1.4.3)

4、Pandas (>= 0.15.2)

要安裝Seaborn并有效地使用它,首先需要安裝前面提到的依賴項。一旦這一步完成,我們都準(zhǔn)備安裝Seaborn和享受其迷人的繪圖。要安裝Seaborn,可以使用以下代碼

要安裝*版本的seaborn,你可以使用pip:

pip install seaborn

或者其他版本,這里不再作詳細(xì)介紹。

四、用于數(shù)據(jù)可視化的數(shù)據(jù)集

我們將主要處理兩個數(shù)據(jù)集:

人力資源分析

(https://datahack.analyticsvidhya.com/contest/wns-analytics-hackathon-2018-1/)

預(yù)測投票數(shù)

(https://datahack.analyticsvidhya.com/contest/enigma-codefest-machine-learning-1/)

之所以選擇這兩個,是因為它們包含多個變量,因此我們有很多選擇可以使用。這兩個數(shù)據(jù)集還可以模擬現(xiàn)實情況,因此你將了解數(shù)據(jù)可視化和了解業(yè)內(nèi)的數(shù)據(jù)可視化方式。

你可以在DataHack平臺上查看這個和其他高質(zhì)量的數(shù)據(jù)集。因此,請在繼續(xù)之前下載上述兩個數(shù)據(jù)集。我們將一起使用它們。