離群值

離群值

離群值(outlier)是指在數據中有一個或幾個數值與其他數值相比差異較大。對離群值的處理有一些統計判斷的方法,如chanwennt準則規定,如果一個數值偏離觀測平均值的機率小於等於1/(2n),則該數據應當捨棄(其中n為觀察例數,機率可以很據數據的分布進行估計)。當出現離群值的時候,要慎重處理,要將專業知識和統計學方法結合起來,首先應認真檢查原始數據,看能否從專業上加以合理的解釋,如數據存在邏輯錯誤而原始記錄又確實如此,又無法在找到該觀察對象進行核實,則只能將該觀測值刪除。

簡介

醫學實驗中經常會有出現離群值的情況,究竟是由於隨機漲落引起的,還是由於某些確定因素造成的,有時難以判斷,如果處理不好將會引起較大的系統誤差。對離群值的處理有一些統計判斷的方法,如chanwennt準則規定,如果一個數值偏離觀測平均值的機率小於等於1/(2n),則該數據應當捨棄(其中n為觀察例數,機率可以很據數據的分布進行估計)。

特徵

發現離群值也可以通過觀察值的頻數表或直方圖來初步判斷,也可通過統計軟體作觀察值的箱式圖來判斷,如果觀測值距箱式圖底線Q1(第25百分位數)或頂線Q3(第75百分位數)過遠,如超出箱體高度(四分位數間距)的兩倍以上,則可視該觀測值為離群值。當數據近似常態分配時,有一種較為簡單的方法,可用均數加減2.5s來判斷,如觀測值在此範圍以外,可視為離群值。在統計學上也可用線性回歸的方法來對離群值進行判斷。當出現離群值的時候,要慎重處理,要將專業知識和統計學方法結合起來,首先應認真檢查原始數據,看能否從專業上加以合理的解釋,如數據存在邏輯錯誤而原始記錄又確實如此,又無法在找到該觀察對象進行核實,則只能將該觀測值刪除。如果數據間無明顯的邏輯錯誤,則可將離群值刪除前後各做一次統計分析,若前後結果不矛盾,則該例觀測值可予以保留。

離群值處理方法包括:

一、剔除離群值,不追加觀測值;

二、剔除離群值,追加觀測值;或剔除離群值,適宜地插補替代;

三、找到實際原因修正離群值,否則予以保留的;

離群值的取捨
1. 定義
在一組 平行測定 數據中,有時會出現個別值與其他值相差較遠,這種值叫離群值。
判斷一個測定值是否是離群值,不是把數據擺在一塊看一看,那個離得遠,那個是離群值,而是要經過計算、比較才能確定,我們用的方法就叫Q檢驗法。
2. 檢驗方法
(1)求Q:Q=
即:求出離群值與其最鄰近的一個數值的差,再將它與 極差 相比就得 Q值 。
(2)比較:根據測定次數n和 置信度 查Q,若Q>Q,則離群值應捨去,反之則保留離群值。
離群值離群值

相關詞條

相關搜尋

熱門詞條

聯絡我們