初級統(tǒng)計師考試統(tǒng)計基礎:統(tǒng)計數(shù)據的整理
來源:考試大發(fā)布時間:2011-11-25 17:33:53
統(tǒng)計數(shù)據的整理
數(shù)據搜集來之后,要對其進行加工整理,以使之系統(tǒng)化、條理化,符合統(tǒng)計分析的要求。數(shù)據整理通常包括數(shù)據的預處理、分組或分類、匯總等,其中,編制頻數(shù)分布是統(tǒng)計整理的重要內容。
一、數(shù)據的預處理
數(shù)據的預處理是在分組或分類之前對數(shù)據所做的審核、篩選和排序等。
。ㄒ唬⿺(shù)據的審核與篩選
來自不同渠道的統(tǒng)計數(shù)據和不同類型的統(tǒng)計數(shù)據,在審核的內容和方法上也有差別。對于由直接調查取得的原始數(shù)據,要從完整性和準確性兩方面去審核。完整性審核就是檢查應調查的單位或個體有否遺漏,調查項目填寫是否齊全等。準確性審核,一是看數(shù)據是否真實,與實際有無出入;二是看數(shù)據的登錄、計算等是否有誤。邏輯檢查和計算檢查是審核數(shù)據準確性的兩種方法。邏輯檢查就是從定性角度去看數(shù)據是否有悖邏輯,相互矛盾之嫌,故多用于審核名類數(shù)據和順序數(shù)據。比如,中學文化程度的人所填的職業(yè)是大學教師,這就不符合邏輯了。計算檢查是審核調查表中的各項數(shù)據在計算結果和計算方法上有無錯誤,故多用于對區(qū)間數(shù)據和比數(shù)據的審核。例如,檢查各分項數(shù)字之和是否等于相應的合計數(shù),各組頻數(shù)之和是否等于1或100%,出現(xiàn)在不同表格上的同一指標數(shù)值是否相同等。
對于通過其他渠道取得的第二手數(shù)據,除了審核其完整性和準確性之外,還應審核其適用性和時效性。第二手數(shù)據可以來自多種渠道,有些數(shù)據可能是為特定目的,通過專門調查而取得的,或者是已經按特定目的的需要做了加工整理。對于這種數(shù)據,使用者首先應弄清數(shù)據的來源、口徑以及有關背景材料,不能盲目生搬硬套。而且,有些時效性較強的問題,若取得的數(shù)據過于滯后,就失去了研究的意義,一般來說,應盡可能使用最新的統(tǒng)計數(shù)據。
對審核中發(fā)現(xiàn)的錯誤應盡可能予以糾正。如果對發(fā)現(xiàn)的錯誤無法糾正,或者有些數(shù)據不符合調查的要求而又無法彌補時,就要對數(shù)據進行篩選。數(shù)據篩選有兩方面內容:一是將某些不符合要求的數(shù)據或有明顯錯誤的數(shù)據予以剔除;二是將符合某種特定條件的數(shù)據篩選出來,不符合特定條件的數(shù)據予以剔除。
。ǘ⿺(shù)據的排序
數(shù)據排序就是按一定順序將數(shù)據排列,其目的是為了便于研究者通過瀏覽數(shù)據發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索。排序還有助于對數(shù)據檢查、糾錯,為重新分組或歸類提供依據。在某些場合,排序本身就是分析的目的之一,例如,美國的《財富》雜志每年都要排出世界500強企業(yè),通過這一信息,經營者不僅能知道本企業(yè)所處的地位和差距,還可以了解到競爭對手的狀況,從而有效地制定本企業(yè)的發(fā)展規(guī)劃和戰(zhàn)略目標。
名類數(shù)據,如果是字母型數(shù)據,排序有升序與降序之分,升序更常見些,因為升序跟字母的自然排列相同;如果是漢字型數(shù)據,排列方式很多,比如按漢字的首位拼音字母排列,這與字母型數(shù)據的排序完全一樣,也可按筆畫順序,其中也有筆畫多少的升序與降序之分。交替運用不同方式排序,在漢字型數(shù)據的檢查、糾錯中十分有用。區(qū)間數(shù)據和比數(shù)據的排序只有兩種,即遞增和遞減。設一組數(shù)據為 ,遞增排序后可表示為: ;遞減排序后可表示為: 。排序后的數(shù)據亦稱為順序統(tǒng)計量(Order statistics)。無論是定性數(shù)據還是定量數(shù)據,其排序均可借助計算機完成。
二、統(tǒng)計分組
數(shù)據經過預處理后,可進一步做分組整理。統(tǒng)計分組是數(shù)據整理中的一項重要工作,統(tǒng)計分組的好壞直接影響著統(tǒng)計分析的質量。
。ㄒ唬┙y(tǒng)計分組的概念和原則
統(tǒng)計分組就是根據統(tǒng)計研究的目的和客觀信息的特點,按某個標志(或幾個標志)把被研究的總體劃分為若干個既有區(qū)別,又有聯(lián)系的組成部分。統(tǒng)計分組的對象是總體。統(tǒng)計分組所依據的標志可能是品質標志,也可能是數(shù)量標志。品質標志包括名類尺度和順序尺度;數(shù)量標志則有區(qū)間尺度和比尺度。
統(tǒng)計分組兼有分和合雙重含義。對總體而言是“分”,即把總體分為性質相異的若干部分;而對單位而言又是“合”,即把性質相同的許多單位連接在一起。對于分組標志來說是“分”,即把其各種各樣的標志表現(xiàn)分為若干個組;而對于其他標志來說則是“合”,即在一個組內的各個單位即使其他標志表現(xiàn)不相同也要結合在一起。由此可見,選擇一種分組方法,突出了一種差異,但同時也會掩蓋其他差異。不同的分組方法,可能得出不同的結論。缺乏科學根據的分組,不但不能顯示事物的根本特征,甚至會把不同性質的事物混淆在一起,歪曲事物的內在聯(lián)系。因此,統(tǒng)計分組必須先對所研究現(xiàn)象的本質作全面深刻的分析,確定所研究現(xiàn)象類型的屬性及其內部差別,而后才能選擇反映事物本質的正確的分組標志。
統(tǒng)計分組必須遵循兩個原則,即窮盡原則和互斥原則。所謂窮盡原則,就是使總體中的每一個單位都有組可歸,或者說,各分組的空間足以容納總體所有的單位。舉例說,如果將從業(yè)人員按文化程度分組,分為小學畢業(yè)、中學畢業(yè)(含中專)和大學畢業(yè)三組,那么,那些文盲或識字不多的以及大學以上的學歷者則無組可歸。但若將分組調整為文盲及識字不多、小學畢業(yè)、中學畢業(yè)、大學及大學以上畢業(yè)等這樣幾組,就可以涵蓋全部從業(yè)人員中各種層次的文化程度,這就符合了分組的窮盡原則。
所謂互斥原則,就是在特定的分組標志下,總體中的任何一個單位只能歸屬在某一組,而不能同時歸屬于幾個組。例如,某商場若把服裝分為女裝、男裝和童裝三類,就不符合互斥原則,因為童裝也有男、女之分。如果先把服裝分為成年與兒童兩類,然后每類再分為男、女兩組,這就符合互斥原則了。
。ǘ┙y(tǒng)計分組的種類
1、按分組標志的多少,可分為簡單分組和復合分組。簡單分組是對總體按一個標志分組,它只能從某一方面反映總體的分布狀況或內部結構。許多簡單分組從不同側面說明同一總體,就構成一個平行分組體系。例如,為了了解企業(yè)職工基本情況,可以分別選擇年齡和文化程度兩個標志各進行簡單分組;而這兩個簡單分組又形成了一個平行分組體系(見表2.2.1)。
表2.2.1 簡單分組和平行分組體系例示
按年齡分組: |
按文化程度分組: |
20歲及20歲以下 |
大專及大專以上 |
21-35歲 |
中專、技工 |
36-50歲 |
高中 |
51-55歲 |
初中 |
56-60歲 |
小學、識字不多或文盲 |
有時,要同時使用兩個或兩個以上標志依序層疊起來對總體進行分組,這種分組就是復合分組;復合分組本身就構成一個復合分組體系。例如,對固定資產投資項目,可先按經濟類型分組,再按投資規(guī)模分組,形成如下的復合分組和復合分組體系(見表2.2.2)。
2、按分組標志的性質不同,分為品質分組(亦稱屬性分組)和數(shù)量分組(亦稱變量分組)。品質分組就是按品質標志進行分組;對名類數(shù)據和順序數(shù)據采用品質分組。數(shù)量分組就是按數(shù)量標志進行分組;對區(qū)間數(shù)據和比數(shù)據采用數(shù)量分組。品質分組所形成的統(tǒng)計數(shù)列稱為品質數(shù)列;數(shù)量分組所形成的統(tǒng)計數(shù)列稱為變量數(shù)列。
3、按分組的作用和任務不同,分為類型分組、結構分組和分析分組。把復雜的現(xiàn)象總體分為若干個不同屬性的部分,就是類型分組。社會經濟統(tǒng)計經常采用這種分組。例如,我國全社會消費品零售額分為國有及國有控股商業(yè)零售額、集體商業(yè)零售額、私營及個體商業(yè)零售額和其他類型商業(yè)零售額。
表2.2.2 復合分組和復合分組體系例示
按經濟類型分組 |
按投資規(guī)模分組 |
國有經濟投資: |
大型 中型 小型 |
集體經濟投資: |
大型 中型 小型 |
外商經濟投資: |
大型 中型 小型 |
其他經濟投資: |
大型 中型 小型 |
在對總體分組的基礎上,計算出各組數(shù)值對總體的比重,藉此研究總體內部的構成,就是結構分組。類型分組與結構分組往往緊密地聯(lián)系在一起。
為研究現(xiàn)象之間依存關系而進行的統(tǒng)計分組,就是分析分組。分析分組的分組標志稱為原因標志,與原因標志相對應的標志稱為結果標志。找到原因標志表現(xiàn)與結果標志表現(xiàn)之間的數(shù)量聯(lián)系,是統(tǒng)計分析經常要做的工作。例如,經常用分組分析法來研究職工技術熟練程度與勞動生產率、商業(yè)企業(yè)規(guī)模與商品流通費用率之間的依存關系。