如何計算置信區(qū)間上下限(如何計算置信區(qū)間公式)
一、置信區(qū)間與置信水平
做實驗時,無論實驗條件多么精確,都無法避免隨機干擾的影響,因此誤差始終存在且無法避免。做科學(xué)實驗時,要多次測量,取平均值。科學(xué)實驗的測量結(jié)果中總是添加測量范圍。
統(tǒng)計學(xué)的核心思想:利用樣本信息來估計總體信息
之前,我們使用樣本給出準確的值來估計總體。這個點估計是有價值的,但是可能會有誤差,因為有估計就會有誤差。錯誤是不可避免的,但可以減少。
點(精確值)誤差區(qū)間(范圍)誤差
點估計
圖中橫軸是不同樣本從小到大的平均值,紅色虛線代表所需的總體平均值。假設(shè)采樣過程重復(fù)5次,那么就會有5個樣本,可以計算出5個樣本平均值的點估計。即藍點代表總體樣本。
如果圖片中有很多藍點,則每個藍點是總體平均值的點估計。這么多的點估計,我們無法判斷哪個點估計更好,也就是說,我們無法知道估計的準確程度,反之,我們也不知道誤差范圍。為了解決點估計的問題,需要使用區(qū)間估計。
如果想知道全國男性的平均身高,只能通過抽樣來估計總體信息。從全國成年男性中隨機選擇樣本。該樣本的平均值是總體平均值的點估計。當存在多個樣本進行多點估計時,由于無法確定哪一個點估計對整體估計的誤差范圍較小,因此采用區(qū)間估計來解決這個問題。
例如,國內(nèi)成年男性的平均身高在165cm~175cm[165,175]范圍內(nèi),那么這個范圍稱為置信區(qū)間。
置信區(qū)間是統(tǒng)計學(xué)中的一種區(qū)間估計方法。用[a,b]表示總體均值的樣本估計的誤差范圍的區(qū)間。由于a和b的確切值取決于我們希望該區(qū)間包含總體平均值的置信度,因此該區(qū)間稱為置信度。間隔。
有五個樣本。樣本的總體均值就是上圖中的藍點。使用一定的方法構(gòu)建樣本整體均值的置信區(qū)間。那么五個樣本的平均值就會有五個置信區(qū)間,也就是圖中的黃色和紅色水平線。我們?nèi)匀徊恢滥臈l水平線更好,但是與點估計相比,因為這次是根據(jù)95%置信度構(gòu)建的區(qū)間估計,那么我們可以認為除了圖中的紅線之外圖中,不包括總體平均值,所有其他行均包括總體平均值。這個結(jié)論的可信度有多大?換句話說,如果有100個樣本,則可以構(gòu)建100個這樣的區(qū)間,其中大約95個將包含總體平均值。這也解釋了什么是置信水平。
置信水平是指包含總體均值的概率。例如,95%的置信水平意味著如果有100個樣本,可以構(gòu)建100個這樣的區(qū)間,并且有95%的概率包含總體均值。因此,如果只采樣一次,則該樣本包含總體均值的概率也是95%。
二、大樣本計算置信區(qū)間的四個步驟
1.確定要解決的問題
使用樣本信息估計總體信息
2.求樣本的均值和標準誤
當樣本量大于30時,抽樣分布符合中心極限定理,即抽樣分布為正態(tài)分布。
總體標準差未知,但可以使用樣本標準差來估計總體標準差。標準誤實際上就是標準差,但標準誤的計算對象是所有“樣本平均值”,標準誤是用來衡量所有“樣本平均值”的。“樣本均值”的波動大小
3.確定置信水平
置信水平應(yīng)該是多少完全取決于具體情況以及您對區(qū)間包含總體均值的信心程度。
置信水平越高,區(qū)間越寬,置信區(qū)間包含總體均值的概率就越大。常用的置信度為95%。
根據(jù)中心極限定理,無論總體服從什么分布,任何樣本的均值都會圍繞總體均值呈正態(tài)分布。因此,圖片中間的紅色垂直線就是總體平均值。根據(jù)正態(tài)分布的經(jīng)驗法則,95%的樣本均值將落在兩個標準誤差之內(nèi)。
4.求置信區(qū)間的上下限
上圖中,上下限ba按照總體平均值對稱分布。根據(jù)a可以求出b。上圖中距離平均值的幾個標準誤差就是幾個標準點。只需要找到a對應(yīng)的標準分即可。多少錢才夠呢?用z表示標準分數(shù)。那么如何求z的值呢?
下圖是求z值的方法
根據(jù)中心極限定理,樣本均值近似等于總體均值。根據(jù)上圖我們可以找到a
置信區(qū)間公式中的z指的是其絕對值|z|,公式修改如下:
a=總體平均值-|z|*標準誤差
b=總體平均值+|z|*標準誤差
大樣本置信區(qū)間計算總結(jié)
置信區(qū)間公式中的z指的是其絕對值|z|,公式修改如下:
a=總體平均值-|z|*標準誤差
b=總體平均值+|z|*標準誤差
三、小樣本計算置信區(qū)間的四個步驟
當樣本量小于30時,抽樣分布符合t分布。t分布與正態(tài)分布非常相似。曲線相對平坦,有兩條突出的尾部。
上圖中的n指的是樣本量,df指的是自由度。
小樣本的置信區(qū)間與大樣本的置信區(qū)間不同,即第三步查詢的表不同。
置信區(qū)間公式中的t指的是其絕對值|t|,公式修改如下:
a=總體平均值-|t|*標準誤差
b=總體平均值+|t|*標準誤差
自由度是指可用樣本量的數(shù)量減去最后一個未被選中的樣本量,只剩下1個樣本。
例如:有四種水果,你每天選擇吃一種。第四天,只有一種水果可以吃。這個時候,已經(jīng)沒有其他的選擇了。此時的自由度為3。