-
-
第1章 基本概念
來源:默認管理員點擊數:317發布時間:2012-12-18本章主要內容:
l 總體、樣本
l 統計量、參數
l資料類型
l 概率、頻率
1.1 統計學的基本概念
統計學和統計數字在英語中共用statistics一詞,作為復數名詞,意指統計數字;作為單數名詞,表示統計學。這個詞源于state,可見早期的統計數字是指官方所要求的信息。現在仍然如此,但不限于此,各行各業都有大量的統計數字,其中蘊涵著豐富的信息。Webster國際大詞典(第三版)中說,統計學是‘a science dealing with the collection, analysis, interpretation and presentation of masses of numerical data.’Last JM主編的一本詞典中,統計學是‘the science and art of dealing with variation in data through collection, classification and analysis in such a way as to obtain reliable results’。從上面對統計學的定義中我們不難看到,統計學至少含有如下三方面的內容:第一,統計學是處理資料中變異性的科學和藝術;第二,統計學的目的在于取得可靠性的結果,其求實性毫不含糊;第三,統計學是在搜集、歸納、分析和解釋大量數據的過程中完成使命的。
簡單地講,統計學是研究數據的搜集、整理與分析的一門科學。
在信息社會的今天,統計學的原理與方法幾乎應用于科技的所有領域,產生了許多應用性分支,如:工業統計、衛生統計、商業統計等等。
一般而言,統計工作的基本過程的主要包括: 設計、搜集資料、整理資料、分析資料。
1.2 統計學中的基本概念
1.2.1 總體與樣本
總體(population):根據研究目的確定的同質觀察單位的全體
總體的調查應包括:內容、單位、范圍、時間
有限總體:只包含有限個觀察對象的總體
無限總體:觀察對象無限的總體
個體:構成總體的基本單位
樣本(sample):從總體中隨機抽取部分觀測單位,其實測值的全體。
調查總體:對總體進一步限制,使對總體的調查具備可操作性
在市場調查中,問卷中的每一個題目,都代表著一個特定的總體
如:某次調查,被訪者均為20~30歲男性居民,樣本量為400
題目:Q1 當您想到洋酒時,您最先想到的品牌是什么?
總體為:該市20~30歲男性居民最先想到的洋酒品牌的全體。
樣本:這400個被訪者首先想到的品牌的全體。
題目:Q2 您的個人收入是多少?
總體:該市20~30歲男性居民的個人收入的全體
樣本:這400個被訪者的個人收入
由此可見,界定總體,一個是甄別條件,一個是指標。
1.2 .2 參數、統計量
參數:描述總體特征的指標
參數常用希臘字母表示,如:m、s、j、t、u 等等
如:某單位共10000人,其中吸煙人數為3000人,吸煙率p=30%
1999年11月人口普查發現,某區15萬個家庭中,3萬個家庭擁有大屏幕彩電,則該區家庭大屏幕彩電普及率p=20%,該區戶均存款m=5萬元人民幣
上述指標是總體特征指標,因而稱為總體參數
統計量:由樣本計算的不含未知參數的函數
假定調查了100個家庭,其中75個家庭裝有電話,電話普及率75%;100家庭共計300人,吸煙者100人,吸煙率為33.33%;… … 75%、33.33%由樣本計算,因而稱為統計量。
企業在經營過程中,需要了解總體參數,以安排生產、制定營銷計劃或了解本企業產品或品牌的市場表現。一般情況下,總體中的個體數目往往較大或無限,因而總體指標(參數)往往是未知的,人們在實踐過程中逐漸認識到,樣本統計量與相應總體參數間有著某種聯系,可以通過樣本去了解總體情況,由樣本信息來推斷相應的總體特征,而這正是市場調查業存在和發展的基礎。
1.2.3 計數資料、計量資料、等級資料
計數資料:將資料按某種屬性進行分組,各屬性或類別間互不相容,清點每組個數后獲得的資料稱為計數資料
如,100名被訪者,按性別分組,30名男性,70名女性,30、70即為計數資料;推而廣之,35人吸煙,65非吸煙,按是否吸煙分類,35、65即為計數資料。
又如:100名被訪者,按所屬公司性質分類,國營單位60人,私營單位30人,外資10人,等。
從上述示例可見,計數資料表現為互不相容的類別或屬性,變量值是定性的。
計量資料:
一項針對中學生消費狀況及營養狀況的調查,100名被訪者體重、身高、月個人消費等資料均為計量資料
等級資料:將資料按某種屬性進行分組,各類之間有程度的差別,給人以‘半定量’的概念,這類資料稱為等級資料。
如:CPT研究中,按‘非常好、很好、好、一般、不好’5個等級進行評價,所獲的資料,稱為等級資料。
資料間的轉換:
計數資料及等級資料均為按某種屬性分組,因而均稱為分類變量(categorical variable),所不同的是,計數資料的類別間無等級的概念,如男性與女性間、戶籍是廣州或北京或上海等,所以也稱計數資料為無序分類資料(unordered categories),稱等級資料為有序分類資料(ordinal categories)。
根據實際需要,可以進行資料的轉換,
如:對家庭年總收入,可按2萬元以下、2萬~5萬、5萬以上進行劃分,將計量資料轉換為等級資料;
將‘非常好、很好、好、一般、不好’轉換為評分‘1、2、3、4、5’或‘5、4、3、2、1’,則將計量資料轉換為計量資料。
計數資料轉化為計量資料比較復雜,目前尚未得到很好的解決,一般將其轉換為取值為(0,1)的兩分變量。
當有2類時,如:對性別資料(變量為x),將‘男性’定義為1‘x=1’,女性定義為2‘x=0’。
當有多類時,如職業:調查對象分為企業管理人員、技術人員、一般職工共3類,需設置2個變量,用x1、x2表示:‘x1=1,x2=0’代表‘企業管理人員’,‘x1=0,x2=1’代表‘技術人員’,‘x1=0,x2=0’代表‘一般職工’。一般情況下,若有m類,則需設置m-1個取值(0,1)的兩分變量x1、x2、 … xm-1。
1.2.4 概率、頻率
概率(Probability):描述某一現象發生的可能性大小的一種度量,常用P表示
如:用A表示‘拋擲一枚硬幣,出現正面的可能性’,則在硬幣的正反兩面均勻的情況下,P(A)=0.5
頻率:(Frequency):樣本中,某現象發生的可能性大小的一種度量
如:100名被訪者,A=‘飲過洋酒’的人數為35,則‘飲過洋酒’率為35%
概率值在0與1之間,即0£P£1,常用小數或百分數表示。P越接近1,表明某現象發生的可能性越大,P越接近0,表示某現象發生的可能性越小。
概率論中,常稱‘某種現象’為‘事件’
P=1,表示現象必然發生,P=0,表示現象不可能發生,P<0.05時,表示現象發生的可能性較小,因而,我們稱:P=1時的事件為必然事件;P=0的事件為不可能事件;P<0.05的事件為小概率事件
上一篇下一篇