Missing data 資料缺失簡介

Missing data (缺失資料;亦有人翻成缺失數據) 是在研究界日益受到重視的問題,要寫grant proposal,很多補助機構都會特別要求在提案時,清楚說明要如何處理missing data。但由於處理missing data 有一定的難度,其中的概念也不太好了解,中文方面的資料也不太多。我就根據我所讀的/所懂的,儘量用淺顯的語言讓大家知道。

在一開始說明missing data之前,要先來談談為什麼要討論missing data。如果你的研究是利用survey,從人群裡取出1000位具有代表性的受試者,調查他們的行為。當你在跑multiple regression的時候,程式會自動用listwise deletion--也就是在你的分析模式裡面,如果該受試者沒有回答,就不列入model裡面,這樣的話,你的分析模式裡面的人,肯定會少於1000入,甚至小於500人。這時候問題就來了:原本1000位的受試者是具有代表性的,當分析時,你的受試者降到500位,你的sample還能代表整個population嗎?

因為這種種問題,所以了解missing data是很重要的。

Model

首先會提到model這個詞。這個詞會用在三個地方:

1. 分析模式 (analysis model)

這指的是統計分析方式,像是:multiple regression、SEM等。

2. 缺失資料產生模式 (missing data creation model)

這是用來檢驗missing data是否是隨機出現的model。要知道missing data是怎麼產生的,才會知道要怎麼把值補上,抑或是可以忽略這些缺失資料。

3. 缺失資料分析模式 (missing data analysis model)

這部分講的是缺失資料要怎麼處理的,一般而言是用multiple imputation (簡稱MI) 或是maximum likelihood (簡稱ML) 這兩種方式來處理

Missingness

Missingness 是個字典查不到的詞,意思其實指的就是缺省狀況 (missingness is the state of being missing)。

換成比較具體的說法,missingness就是個變數,用0與1來表示資料是否缺失。用公式表示則如下:

Missingness = R (0代表missing,1代表已觀察)

Distribution

簡單地說,Missingness 有聯合分配 (missingness has a joint probability distribution)。這不太好解釋,請參考wikipedia

造成缺失資料的機制Mechanism of missingness

這就是想要看什麼mechanism會導致資料缺失。用公式來說,就是看z這個變數是否會導致資料缺失。

Z –> R

Causes of missingness

統計學家將造成缺失資料的機制分成三大類:

MCAR

不論是dependent variables或是independent variables,都與資料缺失無關。舉例子說明:大學學歷與研究所學歷的人,在某一題的資料缺失的機率是一樣的。

這種情況是最好的,你可以說你的sub-sample那500人仍是具有代表性。

MAR

然而,事實並沒有這麼理想。現實一點的情況是:有些變數會有資料缺失有關的。比如說:高學歷的人,比較不願意回答目前的就業狀況。這種情況的處理方式是:當你控制這些變數,缺失資料的情況就成為隨機的。這樣資料缺失就可以忽略。

在這種情況下,如果你控制了足夠的變數,即使你用listwise deletion,你的樣本仍是具有代表性的。

NMAR

如果你的資料缺失即不是MCAR也不是MAR,那這種情況下資料缺失是不能忽視的。研究者必須深入研究資料為何缺失。

參考書籍

Missing Data: Analysis and Design 

Missing data (這本是Paul Allison寫的,淺顯易懂,又有Kindle版,非常推薦)

標籤: