遺漏值

遺漏值

遺漏值是統計人員和資料獲取人員所不願意見到的,但也是無法避免的。遺漏值的表現形式有三種:完全隨機遺漏、隨機遺漏、非隨機遺漏。在進行敏感問題的調查時,遺漏值問題就比較突出,比如問卷中涉及了家庭收入、婚外性伴侶等問題時,許多受訪者都會遺漏來避免尷尬。

定義

遺漏值是統計人員和資料獲取人員所不願意見到的,但也是無法避免的。在大型的資料採集任務中,即使有非常嚴格的品質控制,含有缺項、漏項的記錄也可能很容易的達到10%。 在處理遺漏值方面,有些建模技巧比其他通常的方法要好,比如:GRI、C5.0和APRIORI就能很好地處理在類型節點上被明確地確定為遺漏的值。

相關名詞

遺漏次數

遺漏的出現從發生到結束計算遺漏次數為1次,那么遺漏統計圖表內的遺漏次數就是指統計期內的所有發生的遺漏次數的總和。

最大遺漏

最大遺漏是指統計期內的一次連續遺漏出現的最大數值。

遺漏N次統計

遺漏N次統計:統計期內所有的出現遺漏1次的次數總和,稱為遺漏1次;統計期內所有的出現遺漏2次的次數總和,稱為遺漏2次,其他以此類推。

最佳遺漏範圍

最佳遺漏範圍,簡單地說就是在這個區間之內某個指標遺漏終止並且反轉出現的機率非常高,等於或大於80%。

遺漏值判斷法

首先,遺漏值的數量評估法,主要目的在檢驗受測者是否抗拒或難以回答某一個題目,導致遺漏情形的發生,過多的遺漏情形表示該題目不宜採用。至於遺漏人數達到多少就必須將該題刪除,並沒有絕對的標準,研究者必須從各題目的遺漏情況來相對比較檢視,如果某一題遺漏人數顯然比其他題目為多,即有詳加檢視的必要。

遺漏值判斷法適合於設計量表之初使用,因為測驗的題目尚未經過實際的施測,因此容易發現具有大量遺漏的題目。在量表發展的中後期時,題目已經經過修飾與調整,遺漏現象應不至於大量發生,即使發生了,也應屬於隨機性遺漏。

表現方式

完全隨機遺漏

完全隨機遺漏是指遺漏現象完全是隨機發生的,和自身或其它變數的值無關。這時遺漏值問題中處理起來比較簡單的一種,可以直接將遺漏值刪除,無需擔心估計偏差,以便充分利用樣本資訊。

隨機遺漏

這種情況要嚴重一些,但也更加常見,它是指有遺漏值的變數遺漏情況的發生與資料集中其它無遺漏變數的值有關。此時,遺漏值不僅會引起資訊損失,還可能導致分析結果的不可信。

非隨機遺漏

這是最壞的一種情形,資料的遺漏不僅和其它變數有關,也和其自身有關。這種情況下,遺漏值分析模型基本上是無能為力的,只能做一下粗略的估計。

相關詞條

相關搜尋

熱門詞條

聯絡我們