PSM理論與R軟件應(yīng)用_第1頁
PSM理論與R軟件應(yīng)用_第2頁
PSM理論與R軟件應(yīng)用_第3頁
PSM理論與R軟件應(yīng)用_第4頁
PSM理論與R軟件應(yīng)用_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

TOC\o"1-5"\h\z\o"CurrentDocument"上篇:傾向匹配法基本理論 2\o"CurrentDocument"一、因果推論的基本難題 2(一)基本難題 2\o"CurrentDocument"(二)平均處理效用 3\o"CurrentDocument"二、處理變量選擇 3\o"CurrentDocument"(一)處理變量的類型 3\o"CurrentDocument"(二)處理變量的可操作性 3\o"CurrentDocument"(三)財務(wù)與會計研究應(yīng)用中處理變量的選取 3\o"CurrentDocument"三、因果推論的相關(guān)假定 4\o"CurrentDocument"(一)單元同質(zhì)性假定 4\o"CurrentDocument"(二)可忽略的處理分配假定 4(三)控制混淆共變量 5(四)穩(wěn)定單元處理值假定 5\o"CurrentDocument"(五)共變量分布平衡與重合假定 6四、使用傾向值匹配法估計因果效用 7\o"CurrentDocument"(一)傾向值的基本要義 7\o"CurrentDocument"(二)傾向值匹配法的步驟 8\o"CurrentDocument"(三)傾向值 8\o"CurrentDocument"下篇:傾向值匹配法R軟件應(yīng)用 12\o"CurrentDocument"—、Matchit 12\o"CurrentDocument"二、Matching 23上篇:傾向匹配法基本理論一、因果推論的基本難題基本難題一個二元處理變量,有兩個因果態(tài),會產(chǎn)生兩個實際結(jié)果,兩個反事實結(jié)果。無論結(jié)果是實際觀察到的,或是無法觀察到的,對應(yīng)到兩個因果態(tài),兩種結(jié)果以隨機變量Y表示為Y和Y,1通常代表接觸到處理,0代表未接觸到處理。用Z來表示這個二元變量或處理變量,則兩個因果態(tài)的數(shù)學(xué)表達(dá)式為:二YifZ=1 1.11=YifZ=0 1.20某個單元實際被觀測到的結(jié)果,通常以小寫字母表示,y1和y0。而這個二元處理對ii于該受測單元的個體處理效用則為:ITE二yi-y0 1.3iii處理效用都是比較實驗組和對照組間的線性差。表1因果推論的基本難題Y1Y0實驗組Z=1實際結(jié)果Y反事實結(jié)果對照組Z=0反事實結(jié)果實際結(jié)果Y1.1和1.2可以表示:Y二ZY+(1-Z)Y 1410對照組可以觀測到的,是實驗組無法觀測到的反事實結(jié)果;實驗組可以觀測到的,是對照組無法觀測到的反事實結(jié)果。對任何一個受測單元來說,不可能獲得它的個體處理效用因為,它或是在實驗組被觀測到y(tǒng)1,或是在對照組被觀測到y(tǒng)0,由于無法同時得到y(tǒng)1和iiiy0,當(dāng)然也不可能獲得個體處理效用t。這就是因果推論的基本難題。ii從1.4可以得到,當(dāng)接觸處理時Z=1,(1-Z)Y=0,Y的信息便缺失了;當(dāng)沒有接觸處理時Z=0,ZY=0,Y的信息便缺失了。二)平均處理效用由于無法獲得每一個受測單元的個體處理效用,即處理效用是無法在個體層面上估計只能從集體層面上估計平均處理效用(ATE):1.5?TE=E(t)=E(Y-Y)=E(Y)-E(Y)1.51010二、處理變量選擇(一) 處理變量的類型受測單元接受一個二元的處理實驗,產(chǎn)生兩種狀態(tài):接觸到處理的狀態(tài)和未接觸到處理的狀態(tài),前者屬于實驗組,后者屬于對照組,比較受測單元在兩種狀態(tài)下的差別,所得到的就是處理效用。如果處理不是二元的,而是多元的(例如受教育程度:小學(xué)、中學(xué)、大學(xué)),可以用多元邏輯處理;如果是連續(xù)性的處理變量,則是廣義的傾向值匹配。連續(xù)性的處理變量應(yīng)用更加廣泛。(二) 處理變量的可操作性因果推論中,并非任何一個變量都可以置于回歸方程的右側(cè),成為處理變量;處理變量必須能夠在受測單元上實現(xiàn)不同程度的實驗。如探索身高與收入的因果關(guān)系是沒有意義的,因為一個人身高是固定的。但如果這個人通過穿增高鞋,那么穿增高鞋可以看成一個處理變量,它改變了身高。性別也不適合作為處理變量。單親母親也不適合作為處理變量。另外,人為把一個變量按照均值(或中位數(shù))分類,大于均值(或中位數(shù))為1,否則為0從而構(gòu)建一個虛擬二元變量。在分配受測單元于處理組和對照組時,強調(diào),隨機”分配,即接受處理的受測單元不是因為其他因素而選擇處理的。因此,人為構(gòu)造一個虛擬二元變量作為處理變量也是不可取的,但可以把這個變量作為連續(xù)性的處理變量。三)財務(wù)與會計研究應(yīng)用中處理變量的選取附表1中對國內(nèi)使用PSM方法中處理變量選取進行了一個歸納。國內(nèi)在財務(wù)與會計研究中,從2010年開始出現(xiàn)PSM方法的應(yīng)用,一直到2017年,該方法的應(yīng)用并不多。其中,處理變量涉及股權(quán)激勵、發(fā)行債券、公司違規(guī)、交叉上市、銀行授信、政府補貼、稅收激勵、審計意見、事務(wù)所選擇、媒體報道、研發(fā)投入等二元變量,還涉及一些連續(xù)性處理變量,如債務(wù)集中度、研發(fā)強度等。三、因果推論的相關(guān)假定一)單元同質(zhì)性假定單元同質(zhì)性假定就是說,各個受測單元基本上是一樣的,是同質(zhì)的。不能或避免比較類似蘋果和橘子的對象,盡可能比較同一種蘋果,最好是使用同一個基因復(fù)制出來的蘋果。在實驗中,復(fù)制相同的個體,如在同一個環(huán)境等因素下,培養(yǎng)類似的小白鼠,然后分相同的兩組,一組接觸處理一組不接觸處理。培養(yǎng)200只基因完全相同的小白鼠,100只接受紫外線照射,另外100只不接受。6個月后,觀察兩批小白鼠皮膚病變的數(shù)量,假設(shè)我們觀測到實驗組中有20只老鼠皮膚癌變,病變率為20%,而對照組只有5只病變,病變率為5%,所以實驗處理的效用就是20%-5%=15%。平均來說,過度照射紫外線的小白鼠,相比沒有照射紫外線的小白鼠,皮膚癌變的概率增加了15%。單元同質(zhì)性假定,我們可以這樣認(rèn)為,接觸組的個體和非接觸組的個體盡量相同。所以在匹配中,一些研究是在同年、同行業(yè)、同地區(qū)或者同規(guī)模等幾種匹配規(guī)則,以一種匹配規(guī)則進行匹配;也有的以幾種規(guī)則一起限制進行匹配。(二)可忽略的處理分配假定在實驗室里,處理分配可以做到隨機化,即接觸和非接觸處理變量的個體不是人為分配的。但是在社會科學(xué)等方面不可能做到處理分配的隨機化。在分配受測單元于處理組與對照組時,強調(diào)是“隨機”分配。隨機分配處理是為確保接觸處理的受測單元不是因為其他因素而選擇接觸處理。比如參加數(shù)學(xué)補習(xí)的學(xué)生,如果一些成績好的學(xué)生對自己的成績要求更高,那么參加補習(xí)班的這些成績好的學(xué)生,也就是實驗組的學(xué)生,他們的數(shù)學(xué)平均成績高于對照組就不足為奇了。成績高可能不是來自于補習(xí)班的教學(xué)效果顯著,而是本來這些學(xué)生成績就好。所以,若果能夠,隨機”分配學(xué)生參與補習(xí)班,則可以排除這些可能造成實驗組學(xué)生和對照組學(xué)生基本差異的因素。實驗結(jié)果必須與處理分配是獨立的,即,(Y,Y)Z1.610分配處理Z必須,聯(lián)合”獨立于(Y,Y):在一個設(shè)計合理的隨機分配處理的實驗中,10分配機制并不能讓我們預(yù)測實驗效果的大小。分配處理Z,聯(lián)合”獨立于(Y,Y)時,處理10分配是隨機化的,因此處理分配是可忽略的,所以1.6稱為嚴(yán)格可忽略的處理分配假定。處理變量Z,聯(lián)合”獨立于(Y,Y),但不表示Z與Y是獨立的。由于社會科學(xué)的研究10多屬于觀測性研究,與實驗研究的最大差別在于,研究者無法控制處理是如何分配到各個受測單元的,研究者所進行的觀測性研究,往往是發(fā)生在處理分配后,結(jié)果已經(jīng)發(fā)生,研究者才觀測到受測單元的行為以及反應(yīng),只有通過合理的假定以及建模來了解處理的分配機制,借此從中分離處理與因果態(tài)的關(guān)系,從而達(dá)到獨立的條件。鑒于觀測性研究無法隨機分配處理,研究者使用問卷調(diào)查模擬實驗室隨機分配處理的機制,確保處理效用大小與處理分配無關(guān)。嚴(yán)格可忽略的處理分配假定可以減弱到弱可忽略的處理分配假定,即Y丄Z、Y丄Z,10分配處理Z分別與(Y,Y)獨立,10Y丄Z,Y丄Z 1.710滿足1.7,則有ATE=E(t)二E(YIZ二1)-E(YIZ二0) 1.810二E(YIZ二1)-E(YIZ二0)1.8表明處理分配等概率的??刂苹煜沧兞课覀兛梢阅7聦嶒灥难芯?,但是無法復(fù)制相同的受測者與受測環(huán)境。比如,參加補習(xí)班的硬件條件比較好,硬件條件既影響處理,參加補習(xí)班”,又影響補習(xí)成績。因此,在因果推論的研究中,如果無法控制影響處理分配和實驗結(jié)果的混淆共變量,則分配處理Z必須“聯(lián)合”獨立于(Y,Y)就不成立,所以我們在研究中要盡量控制可能影響處理分配和實驗結(jié)果10的共變量X,讓聯(lián)合獨立性成立,即:(Y,Y)丄ZX 1.910假設(shè)在控制可觀察到X的條件下,分配處理的機制是嚴(yán)格可忽略的。這個假定放寬了等概率分配處理的條件,處理分配不再要求是等概率的,只要滿足在控制共變量的條件下,處理分配是等概率的即可。式1.9改變?yōu)锳TE=E(t)二E(YIX,Z二1)-E(YIX,Z二0) 11010二E(YIX,Z二1)-E(YIX,Z二0)因此,我們需要知道E(YIX,Z二1)和E(YIX,Z二0),在接觸處理時,共變量對受測單元的影響;在非接觸處理時,共變量對受測單元的影響。估計這兩部分可以使用傾向得分匹配方法。穩(wěn)定單元處理值假定:一是指處理對于所有受測單元的效果是一致的,是穩(wěn)定的。比如,如果參加補習(xí)班可以使得成績提高10%,那么在其他變量不變的情況,我們可以推測,對于其他學(xué)生參加補習(xí)班也應(yīng)該提高成績,如果成績反而下降了,這表示參加補習(xí)班這個處理,其效用可為正,也可以為負(fù),則處理值是不穩(wěn)定的。二是指受測單元彼此不受對方干擾;未接觸到處理的受測單元,不會因為另一個受測單元接觸到處理而受影響;所以同群效應(yīng)和溢出效應(yīng)都是違反穩(wěn)定單元處理值的假設(shè)。比如,參加補習(xí)班的學(xué)生進入沒有課后補習(xí)的班上,參加補習(xí)班的學(xué)生由于補習(xí)使得他們的能力提高,能夠積極準(zhǔn)確地回答老師的問題,但可能造成老師誤判自己的教學(xué)效果,本來尚未解釋清楚的概念,可能不再解釋了。因此,未參加補習(xí)班的學(xué)生因此受到了影響,于是他們成績的低落不是因為沒有參加補習(xí),而是老師沒有盡到授業(yè)解惑的責(zé)任。對于這點問題,可能的解決方式是以班級為單元,隨機決定哪個班級的學(xué)生參與補習(xí),而不是決定哪些學(xué)生參加補習(xí)。比如:選擇,股權(quán)激勵”處理,一個公司選擇這些處理可能是受到其他公司選擇的影響,所以企業(yè)績效的增加,我們也無法得出“股權(quán)激勵”提高了企業(yè)績效的結(jié)論。原因之一是“股權(quán)激勵”并非一項隨機選擇,而是參考其他企業(yè)的行為,結(jié)合本企業(yè)條件所作出的決定;選擇又受到其他企業(yè)的干擾,是在參考其他企業(yè)經(jīng)驗后,才推出本企業(yè)的股權(quán)激勵模式,所以處理實施的方式可能是經(jīng)過改良的。(五)共變量分布平衡與重合假定在控制適當(dāng)共變量后,可以忽略處理變量分配與潛在結(jié)果的關(guān)系,但還有相應(yīng)的假定:共變量在實驗組和對照組的分布必須是平衡的、重合的。1、平衡以股權(quán)激勵為例,假設(shè)我們控制的共變量包括財務(wù)變量和公司治理變量:企業(yè)規(guī)模、資產(chǎn)負(fù)債率、營業(yè)收入增長率、資本支出率、市場力量、總資產(chǎn)周轉(zhuǎn)率、資產(chǎn)收益率、兩職合一、企業(yè)實際控制人以及第一大股東持股比例,典型的實驗組和對照組共變量分布不平衡的情況可能是這樣的:實施股權(quán)激勵的大規(guī)模企業(yè)比小規(guī)模多,實施股權(quán)激勵的資產(chǎn)負(fù)債率較高、國有企業(yè)較多,如此以來,兩個組別無法對比,我們可以懷疑,除了實施股權(quán)激勵造成的組間差異外,這些共變量可能也是造成這些差異的因素之一。所以,檢驗假設(shè)1.9成立與否,檢查共變量在組間的分布是否平衡是重要的方法之一。在實踐中,是通過比較這些共變量在組間的均值和標(biāo)準(zhǔn)差的差異來判斷是否平衡。2、重合實驗組和對照組分布必須重合,重合的區(qū)域氛圍稱為共同支持域。圖1模擬了參加補習(xí)班前后數(shù)學(xué)成績的差異。黑實點是實驗組,灰實點是對照組。黑實線和灰實線分別為實驗組和對照組的回歸線。實驗組有數(shù)學(xué)成績特別高的學(xué)生,對照組有數(shù)學(xué)成績特別低的學(xué)生,在圖1的左圖,從左圖的左側(cè)兩條垂直線和右側(cè)兩條垂直線可以看出,對照組的低分學(xué)生不能與實驗組匹配,而實驗組的高分學(xué)生不能與對照組匹配,也就是說這兩個區(qū)域不能重合。而圖1的右圖,雖然回歸線擬合的更好,但還是存在兩個區(qū)域不重合。不重合會造成估計處理效用的偏差。解決不重合的方法之一就是刪除這些不重合的區(qū)域,也就是只保留重合部分。

\琴抑&啟加飪班宦的彷炸很墩\琴抑&啟加飪班宦的彷炸很墩圖1重合性分析平衡和重合是兩個完全不同的概念,平衡了共變量在組間的差異,并不代表各個共變量的分布就是重合的;重合也不代表平衡。比如高管特征變量中,實驗組和對照組中高管的受教育程度可能都分布在本科以下、本科、本科以上等三個層次,實驗組和對照組在受教育程度上完全重合,但分布不平衡,即實驗組受教育程度在三個層次的人數(shù)都比較少,而對照組則比較多。實驗組中高管的年齡可能只分布在45-55歲之間,而對照組中高管年齡可能分布在30-60歲之間,所以在年齡上缺乏重合,但實驗組和對照組年齡分布的均值是平衡的。一)傾向值的基本要義從,控制”的角度出發(fā),傾向值匹配十分巧妙地完成了對多個共變量的控制。我們可以從一個共變量的情況談起:假定只有個人智力水平混淆了大學(xué)教育和收入之間的關(guān)系。一個比較直觀的控制個人智力的辦法是將個人智力這一變量細(xì)分(sub-classification)成不同層次以保證每一個層次中的人的個人智力水平近似。然后我們在各個層次內(nèi)部觀察大學(xué)教育和收入的關(guān)系,最后將這些關(guān)系綜合起來(Rubin,1997)。如果存在兩個共變量(例如家庭經(jīng)濟背景好壞和個人智力高低),我們可以將這兩個變量交互分成2x2個小組,組個體在這兩個變量上的取值都是一樣的(家庭背景好且智力高、家庭背景好且智力低、家庭背景不好且智力高,以及家庭背景不好且智力低),在每組內(nèi)部觀察大學(xué)教育和收入的關(guān)系然后綜合起來。至此,通過細(xì)分的方法,我們完成了,控制”共變量的工作。但隨著共變量越來越多,這種細(xì)分法就變得十分不方便了。例如,如果我們要控制5個共變量,每個變量有5個取值水平,我們就需要劃分5八5二3125個小組。很快我們的數(shù)據(jù)樣本量就不夠保證每一組都有個體。傾向值匹配的辦法巧妙地解決了這個多共變量下的“多維”(multipledimensional)問題:它不再關(guān)注每個需要控制的共變量的具體取值,而是轉(zhuǎn)而關(guān)注將這些變量納入Logistic回歸方程后預(yù)測出來的傾向值取值,傾向值就是某一個樣本接受到處理的概率。只要保證傾向值匹配,這些所有需要控制的共變量就都考慮到了(Rosenbaum&Rubin,1983)。這樣做實際上是將對多個共變量的控制轉(zhuǎn)為對傾向值的控制從而達(dá)到,降維”(dimensionreduction)的目的。換句話說,無論有多少需要控制的共變量,我們都能夠通過傾向值匹配的方法將它們控制,從而幫助我們得出因果性結(jié)論。因此,從,控制”的角度出發(fā),傾向值匹配法很好地解決了多共變量時的控制問題,從而支持了因果推論。(二)傾向值匹配法的步驟分3個主要步驟:估計傾向值、匹配、估計處理效應(yīng)。任何一項檢驗不能通過,則必須從頭開始。三)傾向值傾向值e(X)是某一個樣本接受到處理的概率,假定這個處理是個二元變量,則傾向值i就是一個接受或不接受處理的指標(biāo)變量。e(X)=Pr(Z=IIX) 1.11iii當(dāng)X包括不止一個共變量時,傾向值e(X)可以降維,把多維的共變量簡化成一維的ii概率值。1、傾向值的性質(zhì)對于非隨機的實驗,或社會、經(jīng)濟科學(xué)研究中,我們必須借助平衡方法來平衡兩組間的差距,比較平衡國的組間所得的處理效用。傾向值能平衡實驗組和對照組之間的差異。一個實驗組和一個對照組的樣本,一旦擁有相同的傾向值,這個兩個樣本在可觀察到的共變量X上的分布是一樣的,兩者在共變量Xii上的差異是平衡的。同時,兩個樣本有相同的傾向值,不代表兩個樣本有相同的共變量X。在控制傾向值i的情況下,共變量是獨立于處理分配的,X丄ZIe(X) 1.12因此,對于相同傾向值的單元來說,實驗組和對照組間結(jié)果變量的均值的差,是該傾向值上平均處理效用的無偏估計。2、估計傾向值Z處理變量不外乎是二元型、連續(xù)型、定序型等幾類,求解1.11函數(shù),都可以通過統(tǒng)計軟件來實現(xiàn)。參數(shù)回歸來求解傾向值過程中,由于Z和X.關(guān)系的模型無法得知,所以往往被要求加i入對參數(shù)設(shè)定的穩(wěn)定性檢驗,說明使用不同的參數(shù)設(shè)定,對研究結(jié)果的影響不大。非參數(shù)回歸求解傾向值,擺脫了對參數(shù)假定的依賴。如果Z是二元型變量,可以使用PROBIT或Logistic回歸模型來計算。如果Z是連續(xù)型變量,可以使用多元線性回歸來計算。如果Z是定序型變量,可以使用有序Logistic回歸來計算。如果Z是類別型變量,可以使用多項Logistic回歸來計算。3、 匹配法(1) 精確匹配法實驗組和對照組,尋找相同的傾向值進行匹配。問題:很難找到相同的傾向值,最終可能導(dǎo)致樣本量的丟棄。(2) 最近鄰匹配法實驗組和對照組,尋找相似的傾向值進行匹配。不可替代匹配:造成匹配度不高的問題。可替代匹配:可能擴大處理效用的偏差。修正:卡尺匹配法,即限制了實驗組和對照組

傾向值的最大可容忍差距,超過這個差距,應(yīng)選擇放棄。因此,陳述因果推論,應(yīng)如實報告。半徑匹配法屬于卡尺匹配法的一種,任何對照組樣本與某一實驗組樣本的傾向值的絕對值差值小于設(shè)定的半徑大小,那么這些對照組樣本都會被選擇來匹配實驗組樣本。一般軟件里設(shè)置為0.01(3) 區(qū)間匹配法區(qū)間匹配法又稱子分類匹配、分層匹配法。首先使用分位數(shù)法將估計得到的傾向值分層或分類,建議最佳5分位點或6分位點。在5個區(qū)間內(nèi)進行5個獨立的匹配,得到5個處理效用,最后在加權(quán)平均得到最終的處理效應(yīng)。(4) 核匹配法核匹配法是使用權(quán)重調(diào)整所有匹配到實驗組樣本的對照組樣本,更合理地調(diào)整每個對照組樣本與任一實驗組樣本之間的距離(傾向值)。(5) 馬氏距離匹配法首先使用共變量計算實驗組樣本與對照組樣本的馬氏距離;其次,從中挑出馬氏距離最小的對照組樣本進行匹配,直到實驗組樣本都有匹配的對照組樣本。問題:共變量數(shù)量的增大,會加大馬氏距離,增加尋找匹配的難度。馬氏距離是匹配共變量,傾向值匹配是匹配傾向值。(6) 貪婪匹配與最佳匹配法為實驗組尋找最相近的對照組樣本進行匹配。問題:只關(guān)心單一樣本最近距離的匹配樣本,不關(guān)注所有匹配的總距離是否為最佳選擇。最佳匹配:最小化所有匹配間距離的總和。4、 匹配后的檢驗使用傾向值匹配法的主要功能是消除選擇性偏差,為了得到更加可靠的處理效用,從而避免選擇性偏差,需要對共變量分布進行平衡與重合檢驗,以及是否存在選擇性偏差的敏感性分析。(1)共變量分布不平衡分析檢驗方法一:共變量在實驗組和對照組均值的差值是否顯著:T檢驗。原假設(shè):兩個均值相等,備擇假設(shè):兩個均值不相等。檢驗結(jié)果是統(tǒng)計顯著的,則拒絕原假設(shè),接受備擇假設(shè),則兩均值是有差異的,共變量的分布是不平衡的。問題:T檢驗只檢驗了均值的差異,無法檢驗分布的其他特征。檢驗方法二:Kolmogorov-Smirnov檢驗方法使用不同的分布特征檢驗兩個分布的差異。原假設(shè):兩個分布的累積密度函數(shù)相等;備擇假設(shè):不相等。檢驗結(jié)果是統(tǒng)計顯著的,則拒絕原假設(shè),接受備擇假設(shè),則兩分布是有差異的,共變量的分布是不平衡的。經(jīng)驗:兩種方法一起使用,更好地確認(rèn)共變量的分布是平衡的。(2) 共變量分布不重合分析方法:用共變量分布的柱狀圖判斷共變量分布的重合性,或者貝葉斯非參數(shù)回歸模型。經(jīng)驗:丟棄不重合的部分這兩個必須進行檢驗。(3) 選擇性偏差與敏感性分析選擇性偏差:比如,處理變量是促進就業(yè)的政策,影響就業(yè)的共變量為性別、教育程度、學(xué)歷專業(yè),證書等。擁有數(shù)個證書的就業(yè)者,可能會比其他人更為積極地參與提升就業(yè)機會的活動,進而選擇加入受測(自我選擇偏差)。這屬于顯性的共變量造成的顯性偏差,可以通過控制共變量解決。如果存在隱藏的共變量,則就是隱藏性偏差。分析結(jié)果在存在選擇性偏差的合理范圍內(nèi)是否依然穩(wěn)健有效,這就是所謂的敏感性分析。敏感性分析即假定單元j和k擁有相同的共變量,它們接觸處理發(fā)生比的比率(oddsratio)會介于1/r和r之間,其中r>1。敏感性分析判斷標(biāo)準(zhǔn):當(dāng)r數(shù)值越大,則該研究的敏感性越低;當(dāng)r數(shù)值越小,則該研究的敏感性越高。一般來說,只要r>2,則該研究就可以聲稱已免除隱藏性偏差的影響。敏感性分析,需要進行無效假設(shè)檢驗。重點檢驗在逐步增加r后,處理效用工還是有效的。原假設(shè):工=0不存在處理效應(yīng);備擇假設(shè):工>0存在處理效用。統(tǒng)計軟件中Wilcoxon符號秩檢驗法'Hodges-Lehmann點估計和信用區(qū)間檢驗法,都可以進行敏感性分析。任一項敏感性分析驗證研究的因果推論不受潛在選擇性偏差的影響,就是一項完整且可信賴的研究。例子:兒童血液含鉛水平與他們父母職業(yè)的關(guān)系由于只選擇兩個共變量:兒童年齡和居住環(huán)境,可能存在隱藏性偏差。敏感性分析結(jié)果如表2所示,表2兒童血鉛水平的敏感性分析結(jié)果rSig+Sig-八r+八r-CI+CI-1<0.0001<0.000115159.520.520.0018<0.000110.2519.54.527.530.0136<0.0001823132.540.0388<0.00016.525-1374.250.0468<0.0001625-1.538.54.350.0502<0.0001625.5-238.550.0740<0.0001526.5-342Sig+和Sig-分別是Wilcoxon符號秩檢驗顯著性水平的上界和下界。f+、r-分別是Hodges-Lehmann點估計的上界和下界。CI+、CI-分別是Hodges-Lehmann95%信用區(qū)間的上界和下界。r=1表明匹配的單元接觸處理發(fā)生比是相同的,表示該研究無隱藏性偏差。Wilcoxon符號秩檢驗的上界和下界的顯著性水平都小于0.0001(只要小于0.05即可),表示拒絕e=0不存在處理效應(yīng)原假設(shè),因此處理效用是有效的。直到r>4.35時,Wilcoxon符號秩檢驗顯著性水平的上界才大于0.05,才能接受原假設(shè),處理效用是無效的,隱藏性偏差的影響,致使匹配的兩個單元接觸處理發(fā)生比的差異超過4.35倍時,才能改變原先對于處理效用的結(jié)論。因此,該研究對于隱藏性偏差影響的敏感性是非常低的,研究結(jié)論是可靠的。對于「+、「-分別是Hodges-Lehmann點估計的上界和下界。CI+、C-分別是Hodges-Lehmann95%信用區(qū)間的上界和下界。一直到檢驗r>4時,點估計的上界和下界分別是6.5和25,95%的信用區(qū)間的上界和下界[-1,37]包含0,表示這個點估計是統(tǒng)計不顯著的,接受了原假設(shè),因此,該研究對于隱藏性偏差影響的敏感性是非常低的,研究結(jié)論是可靠的。匹配后估計平均處理效用平均處理效用ATE由實驗組平均處理效用ATT和對照組平均處理效用ATC組成。1.13入-ATE-ATT+n°ATCn1+n01.13n1和n0分別是實驗組和對照組樣本量。1.13的平均處理效用也可以通過簡單的回歸方程獲得,依照結(jié)果變量的類型,使用不同的回歸方程來估計處理效用,如果結(jié)果變量Y是連續(xù)型變量,1.14Y-a+fZ+XrP+81.14如果匹配后的共變量是平衡和重合的,則式1.14與1.13的處理效應(yīng)f在理論上是完全一致的。平均處理效用的標(biāo)準(zhǔn)誤差—般使用Bootstrap重復(fù)抽樣的方式獲得標(biāo)準(zhǔn)誤差,一般建議5000次的重復(fù)抽樣。下篇:傾向值匹配法R軟件應(yīng)用下面幾種常用的R程序包,包括MatchIt、Matching、optmatch和rbounds—、Matchit可以實現(xiàn)的匹配方法有最近鄰匹配、馬氏距離匹配、卡尺匹配、精確匹配、子分類匹配、最佳匹配和完全匹配法,同時可以實現(xiàn)若干匹配后的檢驗,匹配后的處理效用需要Zelig軟件包。Matchit軟件包已經(jīng)升級到3.0.1版本,包含以下7個程序,其中matchit是主程序。get_matcheshelp.matchitis.matchitlalondematch.datamatchit:主程序/r/mpt.1、 matchitmatchit(formula,data,method="nearest",distance="logit",distance.options=list(),discard="none",reestimate=FALSE,...)2、 程序講解數(shù)據(jù)的讀寫(建議整理好后放在XT里)改變工作路徑,把TXT文件放在工作路徑里。rt<-read.table("exam.txt",head=TRUE)(讀取TXT文件,第一行為標(biāo)題行所以head二TRUE。把exam.TXT文件轉(zhuǎn)換名為rt的r數(shù)據(jù)文件)rt(顯示數(shù)據(jù))lm.sol<-lm(Weight~Height,data=rt)(提取weight和Height兩列)summary(lm.sol)(最小二乘法)matchit(應(yīng)用Lalonde數(shù)據(jù))library(Matchit) ##調(diào)用Matchit程序包data(lalonde) ##loadtheLalondedata/r/mpt() ##Press<return>tocontinue##matchit使用的匹配方法,使用Logit邏輯回歸進行匹配(Thedefaultislogisticregression)##performnearestneighbormatchingm.out1<-matchit(treat~re74+re75+age+educ,data二lalonde,method二"nearest",distance二"logit")

##method="subclass"系統(tǒng)默認(rèn)分6個子類m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="subclass",distance="logit")##method="exact"m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="subclass",distance="logit")##method="full",m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="full",distance="logit")##method="genetic"m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="genetic",distance="logit")##method="optimal"m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="optimal",distance="logit")/r/mpt()##使用馬氏距離進行匹配m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="mahalanobis")mpt()##1:1匹配和1:2匹配m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",ratio=1)m.out1<-matchit(treatmethodlalonde,ratio=2)re74+re75+age+educ,data"nearest"m.out1<-matchit(treatmethodlalonde,ratio=2)##顯示1:1最近鄰匹配法結(jié)果的程序m.out1結(jié)果為:Call:matchit(formula=treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",ratio=1)Samplesizes:ControlTreatedAll429185

TOC\o"1-5"\h\zMatched 185 185Unmatched 244 0Discarded 0 0由于只有185個實驗組樣本,使用1:1最近鄰匹配法進行匹配,對照組樣本也是185個##obtainmatcheddata獲得匹配數(shù)據(jù)m.data1<-match.data(m.out1)m.data1##顯示處理組、對照組中匹配的各185個數(shù)據(jù)。有了匹配數(shù)據(jù),就可以在使用DID方法。##summarizetheresultingmatcheddata對匹配數(shù)據(jù)進行統(tǒng)計summary(m.data1)匹配檢驗平衡檢驗:統(tǒng)計量使用summary()語句計算各個共變量的平衡統(tǒng)計值,standardize二TRUE語句表示標(biāo)準(zhǔn)化這些平衡統(tǒng)計值,主要使用Std.MeanDiff這個統(tǒng)計值進行診斷。library(MachIt)data(lalonde)/r/mpt()##1:1Nearestneighbormatchingm.out<-matchit(treat~re74+re75+educ+black+hispan+age,data=lalonde,method="nearest")##balancediagnosticsthroughstatistics平衡的統(tǒng)計診斷s.out<-summary(m.out,standardize=TRUE)print(s.out)/r/mpt()檢驗結(jié)果分析Summaryofbalanceforalldata:匹配前各個共變量在實驗組和對照組差異的描述,distance和black兩個變量的差異性較大distance0.3734 0.6435distance0.3734 0.6435MeansTreatedMeansControlSDControlStd.MeanDiff.eCDFMeddistance0.56580.18720.23081.79190.4017re742095.57375619.23656788.7508-0.72110.2335re751532.05532466.48443291.9962-0.29030.1355educ10.345910.23542.85520.05500.0228black0.84320.20280.40261.75680.3202hispan0.05950.14220.3497-0.34890.0414age25.816228.030310.7867-0.30940.0827eCDFMeaneCDFMax

re740.22480.4470re750.13420.2876educ0.03470.1114black0.32020.6404hispan0.04140.0827age0.08130.1577Summaryofbalanceformatcheddata:匹配后各個共變量在實驗組和對照組差異的描述,distance和black兩個變量的差異性依然較大,hispan變量的差異在變大。可以說明匹配后的這三個共變量的改善程度不好。需要做模型、匹配方法等方面的在調(diào)整。MeansTreatedMeansControlSDControlStd.MeanDiff.eCDFMeddistance0.56580.36490.25980.95090.2378re742095.57372466.30394245.6943-0.07590.0432re751532.05531960.35482948.2552-0.13300.0703educ10.345910.47033.2067-0.06180.0405black0.84320.47030.50051.02310.1865hispan0.05950.27570.4481-0.91180.1081age25.816226.054110.1910-0.03320.0649eCDFMeaneCDFMaxdistance0.21170.3892re740.07800.2919re750.07620.2000educ0.04950.1459black0.18650.3730hispan0.10810.2162age0.07060.1784PercentBalanceImprovement:Std.MeanDiff.eCDFMedeCDFMeaneCDFMaxdistance46.935840.796043.310039.5219re7489.478881.483265.285634.7050re7554.164648.145043.174930.4700educ-12.4957-78.0576-42.7023-31.0442black41.763641.763641.763641.7636hispan-161.3463-161.3463-161.3463-161.3463age89.258021.608013.2585-13.0931平衡檢驗:圖形##balancediagnosticsthroughgraphics使用圖形法進行檢驗plot(m.out) ##默認(rèn)為QQ分位數(shù)對分位數(shù)圖下圖顯示6個共變量匹配前后的QQ分位數(shù)對分位數(shù)圖,除了black和兩個變量外,其他4個變量在匹配后都靠近了45度線,都有所改善。

74e75e5educ 050QQPlotsAllc*u74e75e5educ 050QQPlotsAllc*uoMatchedstinUdetaerControlUnitsQQPlots下面是散點圖的程序,對照組三個點與實驗組匹配程度較差,凸顯了兩組樣本傾向值分布不平衡的情況,也顯示了這個區(qū)域兩組樣本分布缺乏重合。plot(m.out,type="jitter")/r/mpt()

DistributionofPropensityScoresPropensityScoreDistributionofPropensityScoresPropensityScore下面是柱狀圖的程序,匹配前和匹配后的實驗組和對照組(左側(cè)上下,與右側(cè)上下),兩組傾向值分布極為不同,說明平衡狀況不佳。plot(m.out,type="hist")/r/mpt()RawTreated4200.00.20.40.60.8PropensityScoreMatchedTreatedPropensityScoreMatchedControlRawControlPropensityScore0.20.10.0.00.20.40.60.8PropensityScoreRawTreated4200.00.20.40.60.8PropensityScoreMatchedTreatedPropensityScoreMatchedControlRawControlPropensityScore0.20.10.0.00.20.40.60.8PropensityScore下面是匹配前后各二個共變量組間差值絕對值的變化,多數(shù)共變量在匹配后,組間差值的絕對值都有明顯的減少,只有hispan和educ這兩個變量的差值的絕對值在增加。plot(s.out) ##s.out,是匹配數(shù)據(jù)的平衡檢驗統(tǒng)計量的結(jié)果

hispan54sna^Mn????hispan54sna^Mn????AllData MatchedDataeduc平衡性修正修正1刪除平衡性差的共變量blacklibrary(MatchIt)data(lalonde)/r/mpt()##1:1NearestneighbormatchingwithMahalanobismatchingonre74andre75andexactmatchingonmarried,另外,沒有選擇black這個變量。m.out2<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",mahvars=c("re74","re75")exact=c("married"),caliper=.25)/r/mpt()##balancediagnosticsthroughstatistics在進行平衡統(tǒng)計診斷s.out2<-summary(m.out2,standardize=TRUE)print(s.out2)結(jié)果如下:Std.MeanDiff在匹配后除了educ這個變量差值的絕對值有所增加外,其他的都在降低,修正效果較好。Summaryofbalanceforalldata:MeansTreatedMeansControlSDControlStd.MeanDiff.eCDFMeddistance 0.35360.27880.12560.82990.2226re74 2095.57375619.23656788.7508-0.72110.2335

re751532.05532466.48443291.9962-0.29030.1355age25.816228.030310.7867-0.30940.0827educ10.345910.23542.85520.05500.0228married0.18920.51280.5004-0.82410.1618eCDFMeaneCDFMaxdistance0.19440.3398re740.22480.4470re750.13420.2876age0.08130.1577educ0.03470.1114married0.16180.3236Summaryofbalanceformatcheddata:MeansTreatedMeansControlSDControlStd.MeanDiff.eCDFMeddistance0.35360.34490.08880.09600.0649re742095.57372282.05864476.6831-0.03820.0162re751532.05531373.92252429.89390.04910.0162age25.816224.25419.98070.21830.0432educ10.345910.12972.47910.10750.0162married0.18920.18920.39270.00000.0000eCDFMeaneCDFMaxdistance0.06140.1459re740.05710.2595re750.03470.1622age0.08870.3189educ0.02560.0649married0.00000.0000##balancediagnosticsthroughgraphics,QQ圖顯示5個共變量經(jīng)過匹配后都靠近了45度線,修正效果較好。plot(m.out2)QQPlotsQQPlotsQQPlotsQQPlots##散點圖,經(jīng)過匹配后,效果改善也比較明顯。plot(m.out2,type="jitter")PropensityScore下面是匹配前后只有educ這個變量的差值的絕對值在增加。plot(s.out) ##s.out,是匹配數(shù)據(jù)的平衡檢驗統(tǒng)計量的結(jié)果AllData MatchedDatasns^nkifudez^^Lrana^bekukusDAAllData MatchedDatasns^nkifudez^^Lrana^bekukusDAeduc修正2,刪除平衡性差的樣本點library(MatchIt)data(lalonde)mpt()##1:1Nearestneighbormatchingwithunitsoutsidethecommonsupportdiscardedm.out3<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",discard="both")mpt()

##printashortsummaryprint(m.out3)mpt()m.out3的運行結(jié)果為:ControlTreatedAll429185Matched184184Unmatched2420Discarded31然后再進行平衡統(tǒng)計量檢驗與圖形檢驗,程序如上。修正3,使用1:2匹配法##Nearestneighbormatchingwithreplacementm.out4<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",replace=TRUE,ratio=2)修正3,使用子分類法##Nearestneighbormatchingfollowedbysubclassificationm.out5<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",subclass=5)處理效果估計可以下載MatchitSE_1.0與Rcpp_0.12.14(低版本)兩個程序包一起安裝后,就可以簡單計算平均處理效用及其標(biāo)準(zhǔn)誤差了。library(Matchit)library(MatchitSE)#調(diào)用MatchitSE程序data("lalonde")m.out<-matchit(treat~age+educ+black+hispan+married+nodegree+re74+re75,data=lalonde,method="nearest",distance="logit")#計算傾向值zelig_se(obj=m.out,Y=lalonde$re78)##計算re78的平均處理效應(yīng)。結(jié)果如下:est sd5220.49692183.8409att.est att.seest sd5220.49692183.8409att.est att.se1128.6466 562.1904平均處理效應(yīng)att的標(biāo)準(zhǔn)誤差mdata<-match.data(m.out,group二"all")#從匹配后的m.out結(jié)果中抽取匹配后的數(shù)據(jù)。mdatatreated<-match.data(m.out,group二"treat")#從匹配后的m.out結(jié)果中抽取匹配后的實驗組數(shù)據(jù)。mdatacontrol<-match.data(m.out,group二"control")#從匹配后的m.out結(jié)果中抽取匹配后的對照組數(shù)據(jù)。(5)敏感性檢驗安裝rounds程序包,進行敏感性分析。按照抽取的實驗組和對照組數(shù)據(jù),使用psens()程序進行wilcoxon符號秩檢驗。library(MatchIt)library(rbou

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論