《抽樣技術》課件(完整版)_第1頁
《抽樣技術》課件(完整版)_第2頁
《抽樣技術》課件(完整版)_第3頁
《抽樣技術》課件(完整版)_第4頁
《抽樣技術》課件(完整版)_第5頁
已閱讀5頁,還剩564頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、抽樣技術第 1 章 緒論1.1 調查與抽樣調查調查(survey):通過使用明確的概念、方法和程序,依據專門設計的調查方案指導的方式,從一個總體全部或部分單元中搜集感興趣的指標信息,并將這些信息綜合整理成數據系列的有關活動。例:調查北京市民對出租車行業的滿意度調查全面調查與非全面調查根據“調查是否針對總體的所有單元”劃分:全面調查:普查非全面調查非全面調查相對于全面調查的優點:(1)時間短速度快;(2)費用少成本低;(3)調查結果比較準確;(4)應用范圍廣泛。應用前提抽樣調查的基本概念抽樣調查(sampling survey)是一種非全面的調查,指從研究對象的全體(總體)中抽取一部分單元作為樣

2、本,根據對所抽取的樣本進行調查,獲得有關總體目標量的了解。抽樣調查的作用1節約費用 2時效性強 3可以承擔全面調查無法勝任的項目 4有助于提高調查數據的質量 根據“單元是否按照一定的概率入樣”劃分: 概率抽樣和 非概率抽樣隨機抽樣是指按照概率原則,從總體中抽取一定數目的單位作為樣本進行觀察,隨機抽樣使總體中每個單位都有一定的概率被選入樣本,從而使根據樣本所做出的結論對總體具有充分的代表性。非隨機抽樣是以方便為出發點或根據研究者主觀的判斷來抽取樣本。非隨機抽樣主要依賴研究者個人的經驗和判斷,它無法估計和控制抽樣誤差,無法用樣本的量化數據來推斷總體。 概率抽樣調查非概率抽樣調查優點:能夠保證樣本的

3、代表性,避免人為因素的干擾;用概率抽樣取得的樣本去估計總體特征時,可以對由抽樣產生的抽樣誤差進行估計。缺點:難以評價樣本的代表性無法估計抽樣誤差偏倚往往較大概率(隨機)抽樣(probability sampling )非概率(非隨機)抽樣(non- probability sampling ) 抽樣調查應用領域 社會經濟現象的調查 社會性的民意調查 市場調查 1.2 基本概念 目標總體與抽樣總體 抽樣框與抽樣單元 總體參數與統計量 估計量方差、偏差、均方誤差 抽樣誤差與非抽樣誤差 精度與費用 目標總體與抽樣總體總體目標總體也可簡稱為總體,是指所要研究對象的全體,或者說是希望從中獲取信息的總體,

4、它是由研究對象中所有性質相同的個體所組成組成總體的各個個體稱作總體單元或單位。 抽樣總體是指從中抽取樣本的總體。 抽樣框與抽樣單元抽樣總體的具體表現是抽樣框。通常抽樣框是一份包含所有抽樣單元的名單。抽樣框的形式:名單、手冊、地圖、數據包等等。抽樣框的要求:(1)抽樣框必須是有序的,即抽樣單元必須編號,且根據某種順序進行了排列。(2)抽樣框中包含的抽樣單元務必要“不重不漏”,否則將出現抽樣框誤差。抽樣單元分級:初級單元次級單元三級單元四級單元基本抽樣單元??傮w參數和(樣本)統計量總體參數:總體是調查的客體,而總體參數是總體某個特征或屬性的數量表現。常見的總體參數有4種:(1)總體總值;(2)總體

5、均值;(3)總體比例;(4)總體比率??傮w總值、總體均值、總體比例三者是統一的,它們都可以用總體均值來表示。why統計量和估計方法統計量是根據樣本的n個單元的變量值計算出的一個量,也叫估計量,用于對總體參數的估計。估計量是隨機變量,比如樣本均值估計方法:最常見的估計方法是簡單線性估計,除此之外,還可以借助于輔助變量。輔助變量必須滿足的兩個條件:(1)與要估計的變量高度相關;(2)其總體信息已知。估計量方差、偏差、均方誤差估計量分布的方差稱為估計量方差,它是從平均的意義上說明估計值與待估參數的差異狀況,也是我們對抽樣方案進行評價的標準之一。 估計量方差表達式: 偏差是指按照某一抽樣方案反復進行抽

6、樣,估計值的數學期望與待估參數之間的離差。 偏差的表達式 :對于無偏估計量 ,偏差為零 。估計量方差、偏差、均方誤差均方誤差(Mean Square Error, MSE )指所有可能的估計值與待估參數之間離差平方的均值,它等于估計量方差加偏差的平方。 =估計量方差、偏差、均方誤差抽樣誤差與非抽樣誤差抽樣誤差:抽樣誤差是由于抽取樣本的隨機性造成的樣本值與總體值之間的差異,只要采用抽樣調查,抽樣誤差就不可避免。抽樣誤差是一個一般的概念,它可以用不同的量值來表示。例如:估計量方差或估計量標準差。非抽樣誤差:是相對于抽樣誤差而言的,它不是由于抽樣的隨機性,而是由于其它多種原因引起的估計值與總體參數之

7、間的差異。 包括:抽樣框誤差、計量誤差、無回答誤差等精度與費用調查的費用是一個與樣本量有關的函數,最簡單的是線性費用函數。最優抽樣設計:指以最小的費用達到要求的精度或者在給定費用的情況下達到最大的精度樣本容量抽樣誤差精度由誤差來表現。抽樣誤差與樣本量有關,樣本量越大,在其它條件相同情況下,抽樣誤差就越小,抽樣調查的精度就越高。幾種基本的抽樣方式 概率抽樣調查 非概率抽樣調查簡單隨機抽樣分層抽樣系統抽樣整群抽樣多階段抽樣 判斷抽樣(包括典型調查和重點調查)便利抽樣自愿樣本滾雪球抽樣配額抽樣等簡單隨機抽樣簡單隨機抽樣(simple random sampling)又稱純隨機抽樣,考慮一個包含N個單

8、位的母體,從中抽取n個單位作為樣本。如果抽樣是不放回的,即同一個單位不能在樣本中重復出現,那么總共有C(N,n) 種不同的取法,也就是說共有C(N,n)個可能的不同樣本。如果每個樣本被抽中的概率都相等,則稱這種抽樣方法為簡單隨機抽樣,所得到的樣本叫做簡單隨機樣本(SRS)。 例題:某大學欲了解該校研究生中打算報考托福人數的比例,全校研究生共有570人,隨機抽取了100人,其中有14人準備參加托??荚?,試以95%的把握程度對研究生中欲報考托福人數的比例作出估計。 簡單隨機抽樣分層抽樣 分層抽樣(stratified sampling)又稱類別抽樣,它是先將總體所有單位按某些重要標志進行分類(層)

9、,然后在各類(層)中采用簡單隨機抽樣或系統抽樣方式抽取樣本單位的一種抽樣方式。例如,對員工收入狀況進行調查,就可將員工按職業不同,分為生產人員、商業人員、服務性工作人員等各層,再從各層中抽取員工。等比例抽樣不等比例抽樣優點更為精確對每層的推論 分層抽樣系統抽樣 系統抽樣是將N個總體單位按一定順序排列,先隨機抽取一個單位作為樣本的第一個單位,然后按某種確定的規則抽取樣本的其它單位。其中最簡單也是最常用的規則是等間隔抽取。所以系統抽樣又稱等距抽樣。系統抽樣排列順序與調查項目無關排列順序與調查項目有關例如,從600名大學生中抽選50名大學生利用學?,F有名冊按順序編號排序,從第001號編至600號。抽

10、選距離=N/n=600/50=12(人)如從第一個12人中用簡單隨機抽樣方式,抽取第一個樣本單位,如抽到的是8號,依次抽出的是20號,32號,44號等。 系統抽樣優點均勻地分布 簡單易行 缺點抽樣誤差計算較為復雜 周期性重合時會影響調查的精確度需要較為詳細、具體的相關資料 整群抽樣整群抽樣是先將總體劃分成許多不相重合的子總體或群,然后以群為抽樣單位,按某種隨機方式從中抽取若干個群,形成一個“群”的隨機樣本,對抽中的群內所有單位都進行調查。例如,某大學要調查學生的視力,可以將班做為一個群,隨機抽取幾個班,對這些班的全部學生進行調查。 整群抽樣一是沒有總體最終單位的抽樣框實施便利、節省費用影響整群

11、抽樣誤差的主要是群間方差。分群時使群內方差盡可能大,使群間方差盡可能小。 整群抽樣的估計精度一般低于簡單隨機抽樣 多階段抽樣(multi stage sampling) 多階段抽樣是指抽取樣本單位時分幾個階段進行:首先在總體中按隨機原則抽取若干初級(一級)單位,然后再從被抽中的初級單位中抽取若干次級(二級)單位,這種抽樣稱為二階段抽樣。如果每個次級單位又可以進一步分為更小的三級單位,那么在每個被抽中的二級單位中再抽取三級單位,這稱為三階段抽樣,以此類推,可以定義更多階段的抽樣。多階段抽樣例如,全國性調查,??;市或縣;街道、鎮、或鄉,等等。在大規模的抽樣調查中,特別是當抽樣單位為各級行政單位時,

12、通常都采用多階段抽樣。優點:樣本單位相對集中,實施調查比較方便,可以節省調查費用。抽樣時并不需要全部低級單位的抽樣框 非隨機抽樣技術 原因:1受客觀條件限制,無法進行嚴格的隨機抽樣;2為了快速獲得調查結果;3在調查對象不確定,或無法確定的情況下采用,例如,對某一突發(偶然)事件進行現場調查等;4總體各單位間離散程度不大,且調查員具有豐富的調查經驗時。方便抽樣根據調查者的方便與否來抽取樣本,“街頭攔人法” 判斷抽樣憑研究人員的主觀意愿、經驗和知識,從總體中選擇具有典型代表性樣本作為調查對象平均型”或“多數型” 按照一定標準,主觀選取樣本 非隨機抽樣技術 配額抽樣事先要對總體中所有單位按其屬性、特

13、征分為若干類型,這些屬性、特征稱為“控制特征”。如被調查者的姓名、年齡、收入、職業、教育程度等;然后,按照各個控制特征分配樣本數額。 簡單易行,樣本具有較高的代表性 雪球抽樣前提:是總體單位之間具有一定的聯系,非隨機抽樣技術 1.4 抽樣調查步驟(1) 確定調研問題(2) 抽樣方案設計(3) 問卷設計 (4) 實施調查過程 (5) 數據處理分析(6) 撰寫調查報告 抽樣方案設計內容 第一、確定抽樣調查的目的、任務和要求;第二、確定調查對象的范圍和抽樣單位;第三、確定抽取樣本方法;第四、確定必要的樣本數;第五、對主要抽樣指針的精度提出要求;第六、確定總體目標量的估算方法;第七、制訂實施總體方案的

14、辦法和步驟。 第2章 簡單隨機抽樣(SRS)2.1 概述2.2 簡單估計量及其性質2.3 比率估計量及其性質2.4 回歸估計量及其性質2.5 簡單隨機抽樣的實施2.1 概述簡單隨機抽樣也稱為純隨機抽樣。從含有 N 個單元的總體中抽取 n 個單元組成樣本,如果抽樣是不放回的,則所有可能的樣本有 個,若每個樣本被抽中的概率相同,都為 ,這種抽樣方法就是簡單隨機抽樣。具體抽樣時,通常是逐個抽取樣本單元,直到抽滿n個單元為止。 有限放回簡單隨機抽樣與不放回簡單隨機抽樣放回簡單隨機抽樣(SRS with replacement)當從總體N個抽樣單元中抽取n個抽樣單元時,如果依次抽取單元時,不管以前是否被

15、抽中過,每次都從N個抽樣單元中隨機抽取,這時,所有可能的樣本為 ? 個(考慮樣本單元的順序),每個樣本被抽中的概率為?放回簡單隨機抽樣在每次抽取樣本單元時,都將前一次抽取的樣本單元放回總體,因此,總體的結構不變,抽樣是相互獨立進行的,這一點是它與不放回簡單隨機抽樣的主要不同之處。放回簡單隨機抽樣的樣本量不受總體大小的限制,可以是任意的。除非特別說明,簡單隨機抽樣指的是不放回簡單隨機抽樣【例2.1】設總體有5個單元(1、2、3、4、5),按放回簡單隨機抽樣的方式抽取2個單元,則所有可能的樣本為25個(考慮樣本單元的順序):1,12,13,14,15,11,22,23,24,25,21,32,33

16、,34,35,31,42,43,44,45,41,52,53,54,55,5不放回簡單隨機抽樣當從總體N個抽樣單元中依次抽取n個抽樣單元時,每個被抽中的單元不再放回總體,而是從總體剩下的單元中進行抽樣。不放回簡單隨機抽樣的樣本量要受總體大小的限制。在實際工作中,更多的采用不放回簡單隨機抽樣。 【例2.2】設總體有5個單元(1、2、3、4、5),按不放回簡單隨機抽樣的方式抽取2個單元,則所有可能的樣本為個:1,22,33,44,51,32,43,51,42,51,5簡單隨機抽樣的抽取原則:(1)按隨機原則取樣;(2)每個抽樣單元被抽中的概率都是已知的或事先確定的;(3)每個抽樣單元被抽中的概率都

17、是相等的。所有可能樣本每個樣本被抽中的概率相同所有可能樣本每個樣本被抽中的概率相同符號 大寫符號表示總體的標志值,小寫符號表示樣本的標志值 總 體樣 本 數理統計中的任何參數估計問題都是抽樣調查涵蓋的范圍,理論上人們一般只關注四個方面的總體特征:總體均值總體總值總體比率總體比率2.2 簡單估計量及其性質 判斷下面要估計的總體目標量分別屬于什么類型?調查城市居民家庭平均用電量。估計湖中魚的數量。測試日光燈的壽命。估計居民家庭用于做飯菜及飲用的用水量占家庭總用水量的比重。估計嬰兒出生性別比。檢測食鹽中碘含量。 一、對總體均值的估計 以樣本均值作為總體均值的估計性質1:對于簡單隨機抽樣, 是 的無偏

18、估計。 例設總體為0,1,3,5,6,計算總體均值 =3、總體方差 =5.2和 =6.5;給出全部 的樣本,并驗證 及 。 1010.5-2.50.52031.5-1.54.53052.5-0.512.540630185132-126153087163.50.512.58354129364.51.54.510平均565.52.50.5306.5方差1.95樣本編號單元1單元2樣本均值-樣本方差 證明 性質1 對于固定的有限總體,估計量的期望是對所有可能樣本求平均得到的,因此總體中每個特定的單元 在不同的樣本中出現的次數。 證明 性質1(對稱性論證法) 由于每個單元出現在總體所有可能樣本中的次數

19、相同,因此 一定是 的倍數,且這個倍數就是 , 性質2:對于有限總體的方差定義 :性質2:對于簡單隨機抽樣, 的方差式中: 為抽樣比, 為有限總體校正系數。 證明性質2(對稱論證法): 中的求和是對 項的, 中的求和是對 項的 每個特定單位被選入樣本的概率: =P(i)=故其定義為:* 不放回抽樣* 每個樣本被抽中的概率為* 每個單位被選入樣本的概率 利用無限總體理論 Mean =隨機變量證明性質2簡單隨機抽樣下,簡單估計量估計精度影響因素: 估計量的方差 是衡量估計量精度的度量。影響估計量方差的因素主要是樣本量n,總體大小N和總體方差 。通常N很大,當f0.5 ,比率估計比簡單估計更為精確比

20、率估計的其他問題為何不對 的分子、分母各自按簡單估計獲得置信區間,然后根據兩個區間的上下限構造R的區間邊界為何不對每個樣本點計算ri,然后使用 估計R呢?是否存在具有無偏性的比率估計量?2.4 回歸估計量及其性質回歸估計的性質 假如研究發現,Y和X之間存在近似的線性關系,但這(直)線并不通過Y和X構成的平面坐標的原點,也就是所謂截距不等于0,那么這時利用比率估計顯然不合適,最好構造Y對X的線性回歸關系進行估計。主要變量總體均值 的回歸估計量定義 時為簡單估計量 時為比率估計 時為差估計因此簡單估計量與比率估計量都是回歸估計量的特例?;貧w估計里輔助變量X的特點與比率估計里的十分相似:輔助變量必須

21、與主要變量高度相關;輔助變量與主要變量之間的相關關系整體上相當穩定;輔助變量的信息質量更好,幫忙而不添亂;輔助變量的總體總值必須是已知的,或是更容易獲得的。對于簡單隨機抽樣,如為常數(記為0),則有 具體證明見定理2.8使回歸估計量的估計精度最高,即V( )最小的0為此時對于簡單隨機抽樣,n足夠大時, 的數學期望對于簡單隨機抽樣,n足夠大時, 的方差這個定理的內容也包含兩個結論:一個是說 不是無偏的;一個是說在某種條件下, 是近似無偏的。各種估計量的精度比較n足夠大的情形簡單估計:比率估計:回歸估計:n不夠大的情形2.5 簡單隨機抽樣的實施費用 總費用 固定費用 可變費用 設計費分析費辦公費管

22、理費場租費等訪問員費交通費禮品費電話費等樣本量的確定STEPS所需要的精度找出樣本量與精度之間的關系估計所需的數值,求解 n如超出預算,調整精度值重新計算精度margin of error對精度的要求通常以允許絕對誤差( 絕對誤差限)或允許相對誤差( 相對誤差限)來表示。 樣本量足夠大時,可用正態分布近似 變異系數 Sample Size n0為重復抽樣條件下的樣本量當N很大時, 0, n n0,wr與wor幾乎沒有區別??傮w參數為P的情形 f0.05 總體方差的估計根據預調查數據或以前文獻資料根據數據的分布粗略估算S,例如全距/4,全距/ 6對于比例估計,如果P在0.5附近(),可根據PQ在

23、P=0.5時達到極大值來對樣本量進行計算 .如果時間允許,且總體在時間上變化不快,調查可以分為兩步,首先確定一個可以承受的樣本量,調查后對估計精度進行計算,如果精度達到要求,則不再進行下一步,否則,計算為達到精度要求所需的樣本量,再調查補充樣本通過定性分析 ,最好是對總體變異系數進行分析并估計,因為變異系數通常變化不大.樣本量設計中的誤區 1. 估計精度越高越好嗎? 簡單隨機抽樣估計比例P的樣本量與誤差(當P=0.5時) 樣本量 誤差d 50 0.14 100 0.10 500 0.045 1000 0.032 10000 0.0098 對精度要求的判斷十分重要。為得到最小誤差而選擇最大樣本量

24、不是好的選擇。2. 樣本量與總體規模N有關嗎?按照總體比例確定樣本量合適嗎?例:簡單隨機抽樣估計P,置信度95%,允許誤差5%,在P=0.5條件下 總體規模(N) 所需樣本量(n) 50 44 100 80 500 222 1000 286 5000 370 10000 385 100000 398 1000000 400 10000000 400 抽樣調查中的樣本量 由此可知,在精度要求相同條件下,在北京市進行一項調查和在全國進行一項調查,樣本量的差別并不大。 總體規模越大,進行抽樣調查的效率越高。 若分類、分區、分層分別進行估計,如何處理? 對于多項目,如何處理?其他影響因素1. 所研究問

25、題目標量的個數2. 調查表的回收率 例如回收率估計為80%,則應接觸的樣本量為計算出所需樣本量的1.25倍;3.非抽樣誤差4.資源限制5.有效樣本etc 定義:簡單隨機抽樣的樣本估計量的方差與復雜抽樣的樣本估 計 量的方差的比率。 Deff Var( )為復雜樣本估計量的方差。設計效果(Design effect, Deff)設計效應基什(L. Kish)提出 比較不同抽樣方法的效率. 不放回簡單隨機抽樣簡單估計量的方差 某個抽樣設計在同樣樣本量條件下估計量的方差。 Deff的作用: (1)評價抽樣設計的一個依據, 如果deff1, 則抽樣設計比簡單隨機抽樣的效率低。(2)計算樣本量如多階段抽

26、樣的 Deff大約在22.5之間。 n= n(deff) n為簡單隨機抽樣所需樣本量。放回簡單隨機抽樣的deff為: 常用于復雜抽樣樣本量的確定;在一定精度條件下,簡單隨機抽樣所需的樣本量比較容易得到,復雜抽樣的樣本量為, 第三章 分層隨機抽樣 3.1 概述3.2 簡單估計量及其性質3.3 比率估計量及其性質3.4 回歸估計量及其性質3.5 各層樣本量的分配3.6 總樣本量的確定3.7 分層抽樣的其他方面2022/8/28106第一節 概述2022/8/281072022/8/28108 定義3.3 分層隨機抽樣(stratified random sampling):如果每層中的抽樣都是獨立

27、地按照簡單隨機抽樣進行的,那么這樣的分層抽樣稱為分層隨機抽樣,所得的樣本稱為分層隨機樣本(stratified random sample)。2022/8/28109二、作用由于每層都進行抽樣,這就可使樣本在總體中分布更加均勻,從而具有更好的代表性。由于抽樣在每一層中獨立進行,所以一者允許各層選擇不同的適合本層的抽樣方法,二則可同時對各子總體(層)進行參數估計,而不單是對整個總體的參數進行估計。由于各層的總體方差因單元之間差異小而肯定小于整個總體的方差,而抽樣精度與此成正比,所以分層抽樣可以提高參數估計的精度。2022/8/28110三、符號2022/8/28111所有總體參數的估計量都采用下

28、標“st”以示區別:2022/8/28112第二節 簡單估計量及其性質一、對總體均值的估計分層樣本,總體均值 的估計分層隨機樣本,總體均值 的簡單估計 2022/8/28113估計量的性質 性質1&2:對于一般的分層抽樣,如果 是 的無偏估計( ),則 是 的無偏估計。 的方差為:只要對各層估計無偏,則總體估計也無偏。各層可以采用不同的抽樣方法,只要相應的估計量是無偏的,則對總體的推算也是無偏的。2022/8/28114證明性質1 由于對每一層有 因此, 估計量的方差 由于各層是獨立抽取的,因此上式第二項中的協方差全為0,從而有 2022/8/28115 性質3:對于分層隨機抽樣, 是 的無偏

29、估計, 的方差為: 2022/8/28116證明性質3: 對于分層隨機抽樣,各層獨立進行簡單隨機抽樣,對每一層有 因此,由性質1,有 由第二章性質2,得 因此 2022/8/28117 性質4:對于分層隨機抽樣, 的一個無偏估計為: 2022/8/28118證明性質4: 對于分層隨機抽樣,各層獨立進行簡單隨機抽樣,由第二章性質3,得 的無偏估計為: 因此, 的一個無偏估計為: 2022/8/28119二、對總體總量的估計 總體總量 的估計為: 如果得到的是分層隨機樣本,則總體總量的簡單估計為: 2022/8/281202.估計量的性質性質1:對于一般的分層抽樣,如果是 的無偏估計,則 是 的無

30、偏估計。 的方差為:2022/8/28121性質2:對于分層隨機抽樣, 的方差為:2022/8/28122性質3:對于分層隨機抽樣, 的一個無偏估計為: 2022/8/28123例3.1 調查某地區的居民奶制品年消費支出,以居民戶為抽樣單元,根據經濟及收入水平將居民戶劃分為4層,每層按簡單隨機抽樣抽取10戶,調查獲得如下數據(單位:元),要估計該地區居民奶制品年消費總支出及其95%的置信區間。2022/8/28124層居民戶總數樣本戶奶制品年消費支出1234567891012001040011015104080900240050130608010055160851601703750180260

31、1100140602001803002204150050351502030251030252022/8/28125同理,求得:2022/8/28126 三、對總體比例的估計 總體比例P的估計為: 估計量的性質 2022/8/28127 性質1:對于一般的分層抽樣,如果 是 的無偏估計( ),則 是 的無偏估計。 的方差為:性質2:對于分層隨機抽樣, 是 的無偏估計,2022/8/28128因而 的方差為: 性質3:對于分層隨機抽樣, 的一個無偏估計為:2022/8/28129第三節 比率估計量及其性質先“比”后“加權”,此時所得的估計量稱為分別比估計(separate ratio estima

32、tor)先 “加權”后“比”,這樣所得的估計量稱為聯合比估計(combined ratio estimator)2022/8/28130分別比估計定義3.4 總體均值 和總體總量 的分別比估計為:2022/8/28131定理3.5 對于分層隨機抽樣的分別比估計,若各層的樣本量 都比較大,則有2022/8/28132證明根據比估計量的性質,當 比較大時,有2022/8/28133聯合比估計2022/8/281342022/8/28135分別比估計與聯合比估計的比較2022/8/281361)當 ,即 或 分別比估計的精度與聯合比估計的精度是一樣的。2)當 ,即 ,分別比估計的精度不低于聯合比估計

33、的精度。3)當 且 ,這意味著分別比估計的精度要高于聯合比估計的精度。2022/8/281374)當 且 , 或 且 ,聯合比估計的精度要高于分別比估計的精度。5)當 ,即比估計量的方差小于簡單估計量的方差時,需視具體情況而定。 2022/8/28138第四節 回歸估計量及其性質與比估計相似,將回歸估計的思想與技術用于分層隨機樣本時,同樣有兩種可行的辦法:先“回歸”后“加權”,此時所得的估計量稱為分別回歸估計;先“加權”后“回歸”,這時所得的估計量稱為聯合回歸估計3.4.1分別回歸估計定義3.6分別回歸估計是指在分層隨機抽樣中,先在每層中對層均值或層總和做回歸估計,然后再對各層的回歸估計按總體

34、層權進行加權平均。1. 各層的回歸系數h事先給定 2.不能事先設定各層的回歸系數h3.4.2聯合回歸估計1.當為事先設定的常數時2.當回歸系數不能事先設定時3.4.3 分別回歸估計與聯合回歸估計的比較經化簡得:例3.3已知某公司一般職員(包括辦事員和保管人員)及高級管理(經理)人員剛進入公司時的工資總額,欲通過抽樣調查估計當前該公司職員的工資總額Y。抽樣按照一般職員層與高管層進行分層隨機抽取。一般職員層抽取n1=15名職員,高管層抽取n2=10名職員。同時還知道一般職員層人員總數N1=390名,該類職員進入公司時工資總額為X1=5 523 965元;高管層人員總數N2=84名,該類職員進入公司

35、時工資總額為X2=2 541 660元。經過分層隨機抽樣調查所得的數據如表35所示。請對上述數據分別按照分別比估計、聯合比估計、分別回歸估計、聯合回歸估計以及差估計方法對該公司當前職員工資總額Y做出估計,同時計算出各個估計量的精度。五種估計方法結果比較注意:此時的比估計和回歸估計(回歸系數采用樣本回歸系數進行估計)均為有偏估計,并且考慮到各層的樣本量都不大,回歸估計的偏倚有可能更大,所以此時采用比估計,特別是聯合比估計會更保險。 而差估計雖然標準差相對較大,但它卻是無偏的,均方誤差并不一定大,所以仍然有采用的價值。3.4.4 比率估計與回歸估計小結在分層隨機抽樣中,當輔助變量可加以利用時,為了

36、提高估計量的精度,可以采用分別比估計、聯合比估計、分別回歸估計以及聯合回歸估計等估計方法。在比估計中, 當各層樣本量都較大時,分別比估計與聯合比估計近似無偏;當某些層的樣本量不夠大,而總樣本量較大時,聯合比估計近似無偏。在回歸估計中,少數情況下,回歸系數可以是事先設定的常數,其估計量無偏;多數情況下,回歸系數需利用樣本回歸系數進行估計,其估計有偏,但在大樣本的情況下近似無偏。當Y與X高度相關時,分別比估計、聯合比估計、分別回歸估計以及聯合回歸估計等估計等產生的估計量都是有效的。選擇估計方法,大致需遵循的原則在選擇估計方法時,大致需遵循下面的原則:(1)由于分別估計(無論是分別比估計還是分別回歸

37、估計)要求各層的樣本量都比較大,所以當某些層的樣本量不夠大時,建議采用聯合估計(2)當回歸系數需要由樣本進行估計時,回歸估計量是有偏的。 在這種情況下,采取比估計尤其是聯合比估計也許更保險(3)如果各層的樣本量都比較大,同時每層的比估計或回歸估計也比較有效(即h均比較大),而且各層的Rh之間(或h之間)差異較大,則此時分別估計優于聯合估計,估計量的方差更小(4) 如果各層的樣本量不大,而且各層的Rh之間(或h之間)差異較小,則采用聯合估計較為適宜(5) 如果各層的Rh之間(或h之間)差別不是太大,而且并不是每層的樣本量都相當大,則聯合估計可能更保險一些如果各層的回歸系數都接近于1,則可以采用差

38、估計。雖然有時差估計量的方差偏大,但由于它為無偏估計量,所以總的均方誤差不一定大第五節 各層樣本量的分配 確定樣本量:總的樣本量,各層樣本量估計量的方差不僅與各層的方差有關,還和各層所分配的樣本量有關。2022/8/28166實際工作中有不同的分配方法,可以按各層單元數占總體單元數的比例分配,也可以采用使估計量總方差達到最小、費用最小。 2022/8/28167一、比例分配 按各層單元數占總體單元數的比例,也就是按各層的層權進行分配.對于分層隨機抽樣,這時總體均值的估計是2022/8/28168自加權總體中的任一個單元,不管它在哪一個層,都以同樣的概率入樣,因此按比例分配的分層隨機樣本,估計量

39、的形式特別簡單。這種樣本也稱為自加權的樣本??傮w比例的估計是 2022/8/28169二、最優分配 (一)最優分配在分層隨機抽樣中,如何將樣本量分配到各層,使得總費用給定的條件下,估計量的方差達到最小,或給定估計量方差的條件下,使總費用最小,能滿足這個條件的樣本量分配就是最優分配。2022/8/281702022/8/281712022/8/28172定理3.7的證明對所有層成立時, 達到極小 2022/8/28173常數簡單線性費用函數,總費用由此得出下面的行為準則,如果某一層單元數較多內部差異較大費用比較省則對這一層的樣本量要多分配一些。2022/8/28174三 Neyman(內曼)最優

40、分配如果每層抽樣的費用相同,最優分配可簡化為這種分配稱為Neyman分配。這時, 達到最小。 2022/8/28175例3.4 某市有甲、乙兩個地區,現要進行家庭收入的調查。令n=500,已知甲地區共有20 000戶居民,乙地區共有50 000戶居民;甲地居民和乙地居民年收入標準差估計分別為S1=2 500,S2=2 000;同時對甲地和乙地每戶的平均抽樣費用之比為23,請分別計算出在甲地和乙地進行比例分配、一般最優分配(考慮費用因素)以及內曼分配(不考慮費用因素)的樣本量。2022/8/281762022/8/281772022/8/28178四、某些層要求大于100%抽樣時的修正 按最優分

41、配時,有時抽樣比f較大,某個層的 又比較大,則可能出現按最優分配計算的這個層的樣本量 超過 的情況。實際工作中,如果第 k 層出現這種情況,最優分配是對這個層進行100%的抽樣,即取 ,然后,將剩下的樣本量 按最優分配分到各層。 2022/8/28179五、偏離最優分配時對精度的影響2022/8/28180例3.62022/8/281812022/8/28182第六節 總樣本量的確定 令 當方差 給定時 2022/8/28183當按比例分配時, 實際工作中,n的計算可以分為兩步,先計算:然后進行修正: 2022/8/28184當按Neyman分配時, 2022/8/281852022/8/28

42、1862、精度要求是以 的絕對誤差限d(在給定的置信水平1-下)的形式給出的2022/8/281872022/8/281883.精度要求以 的相對誤差限r(在給定的置信水平1-下)的形式給出2022/8/281892022/8/28190例3.72022/8/281912022/8/281922022/8/28193二、總費用給定時總樣本量的確定給定V時2022/8/28194給定C時2022/8/28195第七節 分層抽樣的其他方面 一、多重分層定義當調查指標與兩個或多個輔助變量x1,x2,都存在相關關系時,為了提高分層的效益,需要按每一個輔助變量進行分層,通常的做法是先按最主要的變量分成大

43、層,在大層中再按第二主要變量分成子層,從而形成交叉分層。當存在多個分層變量時,這種分層方式即稱為多重分層(multiple stratification)。2022/8/28196對于多重分層,當“子層”劃分好以后,就要考慮樣本量在各子層的分配問題。最簡單常用的樣本量分配方法是按照與每一子層大小成比例的原則進行分配。在多重分層中,有時會出現這樣一個問題:當總樣本量n相對于子層總數RC不夠大時,會出現某些子層分配不到樣本的情況。 若nmax (R,C),則此時應當考慮重新確定分層變量或者不采用分層抽樣,否則這種分層的效益是很難保證的。 若nRC,同時還滿足nmax (R,C),就可以考慮用試驗設

44、計的思想來進行樣本量的分配。2022/8/28197二、事后分層 實際工作中,有時進行事先分層會存在一定的困難各層的抽樣框無法得到幾個變量都適合于分層,要進行事先的交叉分層比較困難,并且我們并不需要交叉分層后每個子層的估計一個單位到底屬于哪一層要等到樣本數據收集到以后才知道總體規模N太大,事先分層太費事等2022/8/28198事后分層技術要求層權Wh已知或者可以通過某種途徑獲得,當層權Wh未知而需要進行估計時,應當確保層權的估計值與實際的層權相差甚小,否則將達不到提高估計量精度的目的。同時,在使用事后分層技術時還應該注意“事后層”的數目不宜太多。2022/8/28199事后分層的具體實施辦法

45、2022/8/282002022/8/28201簡單隨機樣本,事后分層落到第層的樣本量nh2022/8/28202nh固定并都大于0的條件下n足夠大時,為無偏估計第一項就是按比例分配分層抽樣估計量的方差,第二項表示因事后分層而非事先按比例分配分層引起的方差增加量只要樣本量足夠大,事后分層的精度與按比例分配事先分層的精度相當2022/8/28203 如果樣本是按某一個輔助指標分層后抽取的,只要這個事先分層抽樣是嚴格按比例分配進行的,則這個樣本是自加權的,總體中每個單元被抽中的概率相同,我們可以將這個樣本看作簡單隨機樣本,分別對其它指標進行事后分層估計。 2022/8/28204第四章 等概率整群

46、抽樣和多階段抽樣第一節 概述一 整群抽樣定義及特點什么是整群抽樣 將總體劃分為若干群,以群為抽樣單元,從總體 中隨機抽取一部分群,對入選群內的所有單元進 行調查的一種抽樣技術 的所有單位進行調查。整群抽樣的特點抽樣框編制得以簡化實施調查便利,節省費用抽樣誤差較大對某些特殊結構總體反而有較高的精度與多階段抽樣,多階段整群抽樣的關系第一節 概述二 群的劃分大致可分為兩類根據行政或地域形成的群體調查人員人為確定的分群的原則可用方差分析原理說明:群內差異盡可能大,群間差異盡可能小第一節 概述三 群的規模群的規模大,估計的精度差但費用省群的規模小,估計的精度可以提高但費用增大正常情況下,群的規模不宜過大

47、,對于規模很大的群,通常需要采用多階段抽樣。有群規模相等與不相等兩種情況第一節 概述 第一節 概述 Yij: 總體第i個群中第j個SSU的取值 yij: 樣本第i個群中第j個SSU的取值Yi: 總體中第i群的總量yi: 樣本中第i群的總量第一節 概述 : 總體中第i群個體均值 : 樣本中第i群個體均值 : 總體的群均值 : 樣本的群均值第一節 概述 : 總體中的個體均值 (各群 ) : 樣本中的個體均值 第一節 概述 : 總體方差 : 總體群間方差 : 總體群內方差 第一節 概述 : 樣本方差 : 樣本群間方差 : 樣本群內方差 第二節 等概率整群抽樣比較SRS抽取nM個樣本第二節 等概率整群

48、抽樣第二節 等概率整群抽樣第二節 等概率整群抽樣已知 ,又 故 第二節 等概率整群抽樣第二節 等概率整群抽樣總體總值,據此,可直接推出其估計量及相應的方差 例4-1i12345678 58 83 74 82 66 87 91 83 79 111 101 69123 89 94 109 79 80 99 105 98 107 129 90110 99 132 87 99 124111 100 116 99 107 105120 115 117 99 106 120 96 80 63 130 105 8675.0089.0095.67104.67108.50106.33112.8393.33125

49、.60233.60299.07177.87287.5042.2772.57527.87第二節 等概率整群抽樣解:N=315 ,n=8 ,M=6,f=n/N=0.0254,故 第二節 等概率整群抽樣由式(4.5)有第二節 等概率整群抽樣2.整群抽樣效率分析分層抽樣中估計量的方差取決于層內變異性整群抽樣的情形則相反,估計量的方差依賴于群間的變異性第二節 等概率整群抽樣來源自由度平方和均方群間N-1群內N(M-1)總計NM-1總體ANOVA表-群規模相等時的整群抽樣第二節 等概率整群抽樣群內相關系數 表達式為:上式中的分子為:第二節 等概率整群抽樣上式中的分母為:故 又可寫為:第二節 等概率整群抽樣

50、事實上, 的方差可用群內相關系數近似表示第二節 等概率整群抽樣簡單隨機抽樣的方差公式為由此可計算出等群抽樣的設計效應為第二節 等概率整群抽樣 整群抽樣的估計效率,與群內相關系數 的關系密切 當 1時,deffM 當 0時,deff1 當 為負時,deff m,第i個單位被抽中第一節 不等概抽樣2.不放回不等概抽樣 對于不放回抽樣,對總體參數的估計及其方差估計比較簡單,但樣本單元中可能有單元被抽中多次,直觀上看,沒有必要對同一單元調查多次,因此可以考慮放回不等概抽樣,即每次在總體中對每個單元按入樣概率進行抽樣,抽取出來的樣本單元不再放回總體,對總體中剩下的單元進行下一次抽樣。第一節 不等概抽樣

51、對于不放回不等概抽樣,樣本的抽取可以有以下幾種方法(1)逐個抽取(2)重抽法(3)全樣本抽??;樣本量隨機(4)系統抽樣法第二節 放回不等概抽樣一 只抽取一個樣本單元(n=1)的不等概抽樣 為了演示不等概抽樣的思想,先看一個例子。一個城市有4個超市,營業面積從100平米到1000平米。我們的目標是通過抽取一家超市來估計4個超市上個月的總銷售量因為我們只抽取一個超市,所以超市第一次被抽中的概率 等于超市進入樣本(入樣)的概率 。這個例子中,入樣概率正比于超市營業面積 第一節 不等概抽樣因為超市A占四個超市營業面積的1/16,所以它的入樣概率為1/16。假設我們知道所有超市的銷售額 超市營業面積(萬

52、元)A1001/1611B2002/1620C3003/1624D100010/16245Total16001300第二節 放回不等概抽樣 在估計中,可以使用選擇概率來彌補不等概率抽樣。如果超市的營業面積近似正比于超市的銷售額,那么超市A的銷售額就占所有超市銷售額的1/16,因此超市A的銷售額乘16可以近似的估計所有超市的銷售額。因此,樣本量為1的不等概率抽樣的總體總量估計量為第二節 放回不等概抽樣樣本ZiyiA1/161117615375B2/162016019600C3/162412829584D10/162453928464四個n=1的可能的不等概抽樣第二節 放回不等概抽樣第二節 放回不

53、等概抽樣例如樣本A1/4114465536B1/4208048400C1/4249641616D1/4245980462400第二節 放回不等概抽樣二 有放回不等概抽樣 對于放回不等概抽樣,對總體總量的估計是漢森-赫維茨(Hansen-hurwitz)估計例如:估計超市銷售額,m:員工人數解釋公式意義第二節 放回不等概抽樣可以證明例5.2 某部門要了解所屬8500家生產企業當月完成的利潤,該部門手頭已有一份去年各企業完成產量的報告,將其匯總得到所屬企業去年完成的產量為3676萬噸??紤]到時間緊,準備采用抽樣調查來推算當月完成的利潤。根據經驗,企業的產量和利潤相關性比較強,且企業的特點是規模和管

54、理水平差異比較大,通常大企業的管理水平較高些,因此采用以與去年產量成比例的PPS抽樣,從所屬企業中抽出一個樣本量為30的樣本, 第二節 放回不等概抽樣1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784

55、298.8199218*21.00640276.20510第二節 放回不等概抽樣765404174454=45%相對誤差達到20時所需樣本量對誤差達到20時所需樣本量nnnnnnnn= 150第二節 放回不等概抽樣第二節 放回不等概抽樣第三節 多階段放回不等概抽樣第三節 多階段放回不等概抽樣第三節 多階段放回不等概抽樣第三節 多階段放回不等概抽樣實際工作中,如果初級單元大小不相等,人們通常喜歡在第一階段抽樣時按放回的與二級單元數成比例的PPS抽樣,第二階段抽樣則進行簡單隨機抽樣,且每個初級單元內的二級單元樣本量都相同,這樣得到的樣本是自加權的,估計量的形式非常簡單第三節 多階段放回不等概抽樣二

56、 多階段有放回不等概抽樣以三階段抽樣為例第三節 多階段放回不等概抽樣 實際工作中,通常做法是前二階采用PPS,最后一階按等概率抽取最終單元,且各階段樣本量對不同單元都等于常數,則所得樣本是自加權的。此時有:第三節 多階段放回不等概抽樣第三節 多階段放回不等概抽樣例【5-5】某調查公司接受了一項關于全國城市成年居民人均奶制品消費支出及每天至少喝一杯鮮奶的人數的比例情況的調查。第三節 多階段放回不等概抽樣確定抽樣范圍為全國地級及以上城市中的成年居民。成年居民指年滿18周歲以上的居民。 第一步:確定抽樣方法 調查公司決定采用多階段抽樣方法進行方案設計,調查的最小單元為成年居民。確定調查的各個階段為城

57、市、街道、居委會、居民戶,在居民戶中利用二維隨機表(Kish隨機表的簡化)抽取成年居民。第三節 多階段放回不等概抽樣第二步:確定樣本量及各階段樣本量的配置 第三節 多階段放回不等概抽樣初級單元:20個城市;二級單元:80個街道,每個樣本行政區內抽4個街道;三級單元:160個居委會,每個樣本街道內抽2個居委會;四級單元:1600個居民戶,每個樣本居委會內抽10戶居民戶。 在樣本居民戶內,利用二維隨機表抽1名成年居民。第三步:抽樣方法第一階段,在全國城市中按與人口數成比例的放回的不等概抽樣,即PPS抽樣。第二和第三階段分別按與人口數成比例的不等概系統抽樣。 以第二階段為例,在某個被抽中的樣本城市中

58、,將其所屬的街道編號,搜集各街道的人口數,賦予每個街道與其人口相同的代碼數;根據該市總人口數除以樣本量4,確定抽樣間距;然后對代碼進行隨機起點的等距抽樣,則被抽中代碼所在的街道為樣本街道。第四階段,分別在每個樣本居委會中,按等距抽樣抽出10個居民戶。即根據居委會擁有的居民戶數除以樣本量10得到抽樣間距,然后隨機起點的等距抽樣。第四步:推算方法第四節 不放回不等概抽樣第四節 不放回不等概抽樣第四節 不放回不等概抽樣第四節 不放回不等概抽樣3.不同情況下的PS抽樣n=2條件下嚴格的PS抽樣布魯爾方法德賓方法n 2條件下嚴格的PS抽樣水野方法n2條件下非嚴格的PS抽樣莫蒂方法布魯爾方法條件:所有Zi

59、0.5逐個抽?。旱谝粋€與 成比例的概率抽取第二個與 成比例的概率在N-1個單元內抽取水野方法總體差異不要太大逐個抽?。宏P鍵:第一個單元與 成比例的概率抽取剩余的N-1個單位不放回等概抽取Chap6 系統抽樣 Systematic sampling第一節 概述6.1 定義與實施方法一 什么是系統抽樣 總體中的N個單元按一定順序排列,抽取一個起始單元,按某種規則選取其它單元直到滿n個為止 等距抽樣:按照固定的間隔選取 直線等距抽樣:總體中的N個單元已按某種確定順序編號為 , 先從頭K個單元編號中隨機抽出一個單元編號,然后每隔K個單元編號抽出一個單元編號, 直到抽出n個單元編號為止。圓形等距抽樣:假

60、設總體單元數 總體中的N個單元已按某種確定順序編號為 ,將這些編號看成首尾相接的一個環,并從1到N中按簡單隨機抽樣方式抽取一個單元編號作為隨機起點,然后每隔 K抽取一個單元編號,直到抽滿n個單元為止直線等距抽樣實施方法 : 抽樣間隔 K=N/n 編號 隨機起點 入選單元i K 2K 3K (n-1)K nK 21 19 3 4 17 16 6 15 7 隨機起點 8 13 11 2012102圓形等距抽樣 實施方法 :編號不是直線排列而是環狀(圓形)排列,是隨機起點的選擇范圍由1到k 擴展到1到N二、系統抽樣特點優點:簡便易于控制有潛在分層功能弱點:有時估計量是有偏的抽樣誤差計算上比較復雜三、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論