盒形圖

盒形圖

箱形圖(英文:Box plot),又稱為盒須圖、盒式圖、盒狀圖或箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因型狀如箱子而得名。在各種領域也經常被使用,常見於品質管理。不過作法相對較繁瑣。 箱形圖於1977年由美國著名統計學家約翰·圖基(John Tukey)發明。它能顯示出一組數據的最大值、最小值、中位數、及上下四分位數。

統計圖形

統計圖形,又稱為 統計圖統計學圖形圖解方法圖解技術圖解分析方法圖解分析技術,是指統計學領域當中用於可視化定量數據的信息圖形。有時,人們也把統計圖形與各種統計學表格統稱為 統計圖表統計學圖表

統計學與數據分析過程可大致分為兩個組成部分:定量分析方法(Quantitative techniques)和圖解分析方法(graphical techniques)。定量分析方法是指那套產生數值型或表格型輸出的統計學操作程式;比如,包括假設檢驗、方差分析、點估計、可信區間以及最小二乘法回歸分析。這些手段以及與此類似的其他技術方法全都頗具價值,屬於是經典分析方面的主流。

另一方面,還有一大套我們一般稱之為圖解分析方法的統計學工具。這些工具包括散點圖、直方圖、機率圖、殘差圖(residual plot)、箱形圖、塊圖以及雙標圖。探索性數據分析(Exploratory data analysis,EDA)就密切地依賴於這些手段以及與此類似的其他技術方法。圖解分析操作程式不僅僅是在EDA背景下才使用的工具;在檢驗假設、模型選擇、統計模型驗證、估計量(estimator)選擇、關係確定、因素效應判定以及離群值檢出方面,此類圖解分析工具還可以作為最佳捷徑,用來深入認識數據集。此外,優質的統計圖形還可以作為一種令人信服的溝通手段,用來向他人傳達存在於數據之中的基本訊息。

圖解式統計學方法具有四個方面的目標:⑴ 探究數據集的內容;⑵ 用於發現數據之中的結構;⑶ 檢查統計學模型之中的假設;⑷ 溝通傳達分析結果。

如果不採用統計圖形,也就會喪失深入認識數據基礎結構之一個或多個方面的機會。

盒形圖的功能

盒形圖作為描述統計的工具之一,其功能有獨特之處,主要有以下幾點:

1.直觀明了地識別數據批中的異常值

一批數據中的異常值值得關注,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數據的計算分析過程中,對結果會帶來不良影響;重視異常值的出現,分析其產生的原因,常常成為發現問題進而改進決策的契機。盒形圖為我們提供了識別異常值的一個標準:異常值被定義為小於Q1-1.5IQR或大於Q3+1.5IQR的值。雖然這種標準有點任意性,但它來源於經驗判斷,經驗表明它在處理需要特別注意的數據方面表現不錯。這與識別異常值的經典方法有些不同。

2.利用盒形圖判斷數據批的偏態和尾重

比較標準常態分配、不同自由度的t分布和非對稱分布數據的盒形圖的特徵,可以發現:對於標準常態分配的大樣本,只有 0.7%的值是異常值,中位數位於上下四分位數的中央,盒形圖的方盒關於中位線對稱。選取不同自由度的t分布的大樣本,代表對稱重尾分布,當t分布的自由度越小,尾部越重,就有越大的機率觀察到異常值。

3.利用盒形圖比較幾批數據的形狀

同一數軸上,幾批數據的盒形圖並行排列,幾批數據的中位數、尾長、異常值、分布區間等形狀信息便昭然若揭。在一批數據中,哪幾個數據點出類拔萃,哪些數據點表現不及一般,這些數據點放在同類其它群體中處於什麼位置,可以通過比較各盒形圖的異常值看出。各批數據的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和線段的長短便可明了。每批數據分布的偏態如何,分析中位線和異常值的位置也可估計出來。還有一些盒形圖的變種,使數據批間的更加直觀明白。

盒形圖的局限

不能提供關於數據分布偏態和尾重程度的精確度量。

對於批量比較大的數據批,反應的形狀信息更加模糊。

用中位數代表總體評價水平有一定的局限性。

1.

不能提供關於數據分布偏態和尾重程度的精確度量。

2.

對於批量比較大的數據批,反應的形狀信息更加模糊。

3.

用中位數代表總體評價水平有一定的局限性。

相關詞條

熱門詞條

聯絡我們