23. 統(tǒng)計(jì)與統(tǒng)計(jì)數(shù)據(jù)。 23.1統(tǒng)計(jì)學(xué) 23.1.1統(tǒng)計(jì)學(xué)的定義及兩大分支 一、統(tǒng)計(jì)學(xué)的定義 統(tǒng)計(jì)學(xué)是一門關(guān)數(shù)據(jù)的學(xué)科,概括來講,統(tǒng)計(jì)學(xué)是關(guān)于收集、整理分析數(shù)據(jù)和從數(shù)據(jù)中得出結(jié)論的科學(xué)。 二、統(tǒng)計(jì)學(xué)的兩大分支 統(tǒng)計(jì)學(xué)的兩大分支是描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)。 【描述統(tǒng)計(jì)】研究數(shù)據(jù)收集、整理和描述的統(tǒng)計(jì)方法。 其內(nèi)容包括: (1)如何取得所需要的數(shù)據(jù)。 (2)如何用圖表或數(shù)學(xué)方法對(duì)數(shù)據(jù)進(jìn)行整理和展示。 (3)如何描述數(shù)據(jù)的一般特征。 【推斷統(tǒng)計(jì)】 研究如何利用樣本數(shù)據(jù)推斷總體特征的統(tǒng)計(jì)方法。其內(nèi)容包括 (1)參數(shù)估計(jì):利用樣本信息推斷總體特征 (2)假設(shè)檢驗(yàn):利用樣本信息判斷對(duì)總體假設(shè)是否成立 23.2變量和數(shù)據(jù) 23.2.1變量和數(shù)據(jù)的分類 一、變量 變量是研究對(duì)象的屬性或特征,它是相對(duì)于常數(shù)而言的。 常數(shù)只有一個(gè)固定取值,變量可以有兩個(gè)或更多個(gè)可能的取值。 二、數(shù)據(jù) 數(shù)據(jù)是對(duì)變量進(jìn)行測(cè)量、觀測(cè)的結(jié)果。 數(shù)據(jù)可以是數(shù)值、文字或者圖像等形式。 數(shù)據(jù)的類別如下: 定量數(shù)據(jù)(數(shù)值型數(shù)據(jù))是對(duì)定量變量的觀測(cè)結(jié)果,其取值表現(xiàn)為具體的數(shù)值。 【如】企業(yè)的銷售額是1000萬元 分類數(shù)據(jù): 分類變量的觀測(cè)結(jié)果,表現(xiàn)為類別,一般用文字來表述,也可用數(shù)字描述。 【如】用1表示“男性”,2表示“女性” 順序數(shù)據(jù): 順序變量的觀測(cè)結(jié)果,表現(xiàn)為類別,一般用文字描述,也可用數(shù)字描述。 【如】用1表示“"碩士及以上”,2表示“本科”,3表示“大專及以下” 23.3數(shù)據(jù)的來源 23.3.1數(shù)據(jù)來源的分類 一、按收集方法 【觀測(cè)數(shù)據(jù)】 通過直接調(diào)查或測(cè)量而收集的數(shù)據(jù)。 幾乎所有與社會(huì)經(jīng)濟(jì)現(xiàn)象有關(guān)的統(tǒng)計(jì)數(shù)據(jù)都是觀測(cè)數(shù)據(jù)?!救纭縂DP、CPI、房價(jià)等 【實(shí)驗(yàn)數(shù)據(jù)】 通過在實(shí)驗(yàn)中控制實(shí)驗(yàn)對(duì)象以及其所處的實(shí)驗(yàn)環(huán)境收集到的數(shù)據(jù)。 【如】。一種新產(chǎn)品使用壽命的數(shù)據(jù),一種新藥療效的數(shù)據(jù)。自然科學(xué)領(lǐng)域的數(shù)據(jù)大多都是實(shí)驗(yàn)數(shù)據(jù) 二、從使用者的角度 【一手?jǐn)?shù)據(jù)】 來源于直接的調(diào)查和科學(xué)實(shí)驗(yàn)的數(shù)據(jù),對(duì)使用者來說這是數(shù)據(jù)的直接來源。其來源主要有:調(diào)查或觀察、實(shí)驗(yàn) 【提示】在社會(huì)經(jīng)濟(jì)領(lǐng)域,統(tǒng)計(jì)調(diào)查是獲得數(shù)據(jù)的主要方法,也是獲得一手?jǐn)?shù)據(jù)的重要方式。 【二手?jǐn)?shù)據(jù)】來源于別人的調(diào)查或?qū)嶒?yàn)的數(shù)據(jù)。對(duì)使用者來說這是數(shù)據(jù)的間接來源 23.4統(tǒng)計(jì)調(diào)查 23.4.1統(tǒng)計(jì)調(diào)查的種類和方式 一、統(tǒng)計(jì)調(diào)查的種類 統(tǒng)計(jì)調(diào)查過程有兩個(gè)重要特征: 【一是】調(diào)查是一種有計(jì)劃、有方法、有程序的活動(dòng); 【二是】調(diào)查的結(jié)果表現(xiàn)為搜集到的數(shù)據(jù)。 (二)按調(diào)查對(duì)象的范圍不同 全面調(diào)查 對(duì)構(gòu)成調(diào)查對(duì)像的所有單位進(jìn)行逐一的、無一遺漏的調(diào)查,包括: 1.全面統(tǒng)計(jì)報(bào)表 2.普查 (1)人口普查:對(duì)全國人口無一例外進(jìn)行登記調(diào)查 (2)經(jīng)濟(jì)普查:對(duì)像是中華人民共和國境內(nèi)從事第二、第三產(chǎn)業(yè)活動(dòng)的全部法人單位、產(chǎn)業(yè)活動(dòng)單位和個(gè)體經(jīng)營戶 非全面調(diào)查 對(duì)調(diào)查對(duì)象中的一部分單位進(jìn)行調(diào)查。 包括:非全面統(tǒng)計(jì)報(bào)表、抽樣調(diào)查、重點(diǎn)調(diào)查和典型調(diào)查 (三)按調(diào)查登記的時(shí)間是否連續(xù) 連續(xù)調(diào)查 觀察總體現(xiàn)象在一定時(shí)期內(nèi)的數(shù)量變化,說明現(xiàn)象的發(fā)展過程,目的是為了解社會(huì)現(xiàn)象在一段時(shí)期的總量。 【如】工廠的產(chǎn)品生產(chǎn)、原材料的投入、能源的消耗、人口的出生、死亡等 不連續(xù)調(diào)查 間隔相當(dāng)長的時(shí)間(通常一年以上)所作的調(diào)查,為了對(duì)總體現(xiàn)象在一定時(shí)點(diǎn)上的狀態(tài)進(jìn)行研究。 【如】生產(chǎn)設(shè)備擁有量、耕地面積等 二、統(tǒng)計(jì)調(diào)查方式 (一)統(tǒng)計(jì)報(bào)表 按照國家有關(guān)法規(guī)的規(guī)定,自上而下地統(tǒng)一布置,自下而上地逐級(jí)提供基本統(tǒng)計(jì)數(shù)據(jù)的一種調(diào)查方式。 統(tǒng)計(jì)報(bào)表要以一定的原始數(shù)據(jù)為基礎(chǔ),按照統(tǒng)一的表式、統(tǒng)一的指標(biāo)、統(tǒng)一的報(bào)送時(shí)間和報(bào)送程序進(jìn)行填報(bào)。 1按調(diào)查對(duì)象范圍的不同分為全面統(tǒng)計(jì)報(bào)表和非全面統(tǒng)計(jì)報(bào)表。目前的大多數(shù)統(tǒng)計(jì)報(bào)表都是全面報(bào)表, 2按報(bào)送周期長不同可分為日?qǐng)?bào),月報(bào),季報(bào)年報(bào), 3按報(bào)表內(nèi)容和實(shí)施范圍不同可分為國家的、部門的、地方的統(tǒng)計(jì)報(bào)表。 (二)普查 為某一特定目的而專門組織的一次性全面調(diào)查,主要用于收集處于某一時(shí)點(diǎn)狀態(tài)上的社會(huì)經(jīng)濟(jì)現(xiàn)象的基本全貌。 (1)普查通常是一次性的或者周期性的 經(jīng)濟(jì)普查每10年進(jìn)行2次,逢年份末尾數(shù)字為3、8的年份實(shí)施 人口普查每10年進(jìn)行1次,逢“0”年份實(shí)施; 農(nóng)業(yè)普查每10年進(jìn)行1次,逢“6”年份實(shí)施 (2)普查一般要規(guī)定統(tǒng)一的標(biāo)準(zhǔn)調(diào)查時(shí)間,以避免調(diào)查數(shù)據(jù)的重復(fù)或遺漏,保證普查結(jié)果的準(zhǔn)確性, 第五、六、七次人口普查的標(biāo)準(zhǔn)時(shí)間為普查年份的11月1日0時(shí)。 農(nóng)業(yè)普查和經(jīng)濟(jì)普查的標(biāo)準(zhǔn)時(shí)間為普查年份的1月1日0時(shí)。 標(biāo)準(zhǔn)時(shí)間一般定為調(diào)查對(duì)象比較集中、相對(duì)變動(dòng)較小的時(shí)間。 (3)普查數(shù)據(jù)一般比較準(zhǔn)確,規(guī)范化程度較高 (4)使用范圍比較窄,只能調(diào)查基本及特定的現(xiàn)象 (三)抽樣調(diào)查 從調(diào)查對(duì)象的總體中抽取部分單位作為樣本進(jìn)行調(diào)查,并根據(jù)樣本調(diào)查結(jié)果來推斷總體數(shù)量特征的一種非全面調(diào)查。 (1)經(jīng)濟(jì)性:最顯著的優(yōu)點(diǎn) (2)時(shí)效性強(qiáng) (3)適應(yīng)面廣 (4)準(zhǔn)確性高:工作量小,各環(huán)節(jié)可以做的更細(xì)致,登記性誤差往往較小 (四)重點(diǎn)調(diào)查 從調(diào)查對(duì)像的總體中選擇少數(shù)重點(diǎn)單位進(jìn)行調(diào)查。所選擇的重點(diǎn)單位就調(diào)查的標(biāo)志值來說在總體中占絕大比重。重點(diǎn)調(diào)查的適用范圍很廣,以較少的投入、較快的速度取得某些現(xiàn)象主要標(biāo)志的基本情況或變動(dòng)趨勢(shì)。 【目的】只要求了解基本狀況和發(fā)展趨勢(shì),不要求掌握全面的數(shù)據(jù)。 舉例 (1)為了及時(shí)了解全國城市零售物價(jià)的變動(dòng)趨勢(shì),就可以對(duì)全國的35個(gè)大中型城市的零售物價(jià)的變化進(jìn)行調(diào)查,這就是重點(diǎn)調(diào)查 (2)要及時(shí)了解全國工業(yè)企業(yè)的增加值和資產(chǎn)總額情況,只需對(duì)全國大中型工業(yè)企業(yè)進(jìn)行重點(diǎn)調(diào)查即可。 (3)重點(diǎn)調(diào)查能以較少的投入、較快的速度取得某些現(xiàn)象主要標(biāo)志的基本情況或變動(dòng)趨勢(shì),例如國家統(tǒng)計(jì)局的全國5000家工業(yè)企業(yè)聯(lián)網(wǎng)直報(bào)制度就屬于重點(diǎn)調(diào)查。 (五)典型調(diào)查 根據(jù)調(diào)查的目的與要求,在對(duì)被調(diào)查對(duì)象進(jìn)行全面分析的基礎(chǔ)上,有意識(shí)地選擇若干具有典型意義的或有代表性的單位進(jìn)行的調(diào)查。 作用: (1)彌補(bǔ)全面調(diào)查的不足 (2)在一定條件下可以驗(yàn)證全面調(diào)查數(shù)據(jù)的真實(shí)性 優(yōu)點(diǎn):靈活機(jī)動(dòng)、通過少數(shù)典型單位即可取得深入翔實(shí)的統(tǒng)計(jì)資料。典型調(diào)查不是統(tǒng)計(jì)活動(dòng)所特有的方法,但從統(tǒng)計(jì)過程來說,是一種必不可少的方法。運(yùn)用典型調(diào)查主要在于了解與統(tǒng)計(jì)數(shù)字有關(guān)的生動(dòng)的具體情況,【即】與現(xiàn)象數(shù)量有關(guān)的社會(huì)條件及其相互聯(lián)系,以便進(jìn)行深入的統(tǒng)計(jì)分析。 23.5數(shù)據(jù)科學(xué)與大數(shù)據(jù) 23.5.1數(shù)據(jù)科學(xué) 1提出者 數(shù)據(jù)科學(xué)這個(gè)詞最早由丹麥的計(jì)算機(jī)科學(xué)領(lǐng)域先驅(qū)彼得?諾爾提出。 2含義 是一門通過系統(tǒng)性研究獲取與數(shù)據(jù)相關(guān)的知識(shí)體系的學(xué)科。 3研究對(duì)象 【數(shù)據(jù)】即從“數(shù)據(jù)”整合成“信息”進(jìn)而組織成“知識(shí)“的整個(gè)過程,包含對(duì)數(shù)據(jù)進(jìn)行采集、儲(chǔ)存、處理、分析、表現(xiàn)等一系列活動(dòng)。 一方面研究數(shù)據(jù)本身的特性和變化規(guī)律,另一方面通過對(duì)數(shù)據(jù)的研究為自然科學(xué)和社會(huì)科學(xué)提供一種新的方法,從而揭示自然界和人類行為的現(xiàn)象和規(guī)律。 4研究目標(biāo) 獲得洞察力和理解力,通過對(duì)數(shù)據(jù)的分析、來解釋、預(yù)測(cè)、洞見和決策,為現(xiàn)實(shí)世界服務(wù) 5涉及領(lǐng)域 統(tǒng)計(jì)學(xué)、機(jī)器科學(xué)、計(jì)算機(jī)科學(xué)、可視化、人工智能、領(lǐng)域知識(shí)等 23.5.2大數(shù)據(jù) 一、大數(shù)據(jù)的含義 大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。 二、大數(shù)據(jù)的特性--4V 1,數(shù)據(jù)量大Volume 大數(shù)據(jù)的起始計(jì)量單位是PB(1024TB,大約50多萬部電影)、EB(約100萬TB)或ZB未來甚至?xí)_(dá)到Y(jié)B或BB。 【補(bǔ)充知識(shí):數(shù)據(jù)的計(jì)量單位由小到大是B、KB、MB、GB(大概一部普通電影2GB)、TB(1024GB,大約存儲(chǔ)500部電影)、PB、EB等】 2,數(shù)據(jù)多樣性Variety 類型繁多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置等各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。 (1)結(jié)構(gòu)化數(shù)據(jù):是指存儲(chǔ)在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)實(shí)現(xiàn)表達(dá)數(shù)據(jù) (2)非結(jié)構(gòu)化數(shù)據(jù):是指數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)。 包括所有格式的辦公文檔、文本、圖片、報(bào)表、圖像、音頻信息、視頻信息等 (3)半結(jié)構(gòu)化數(shù)據(jù):是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù),具有一定的結(jié)構(gòu)性。 【例如】員工簡(jiǎn)歷,有的簡(jiǎn)歷只有教育情況,有的簡(jiǎn)歷包括教育、婚姻、戶籍、出入境等很多信息。 3.價(jià)值密度低Value 大數(shù)據(jù)價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。例如視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一兩秒。 4,數(shù)據(jù)的產(chǎn)生和處理速度快Velocity 數(shù)據(jù)的處理要符合“1秒定律”。大數(shù)據(jù)的智能化和實(shí)時(shí)性要求越來越高,一般要在秒級(jí)時(shí)間范圍內(nèi)給出分析結(jié)果,超出這個(gè)時(shí)間數(shù)據(jù)就可能失去價(jià)值。 23.5.3數(shù)據(jù)挖掘 一、含義 從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱藏在其中但又有潛在價(jià)值的信息和知識(shí)的過程。包含以下幾層含義: 1數(shù)據(jù)源必須是真實(shí)的、大量的、有噪聲的 2發(fā)現(xiàn)的是用戶感興趣的知識(shí) 3發(fā)現(xiàn)的知識(shí)是可接受的、可理解、可運(yùn)用的 4并不要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的知識(shí),只支持特定的發(fā)現(xiàn)問題。 二、出發(fā)點(diǎn)和核心任務(wù) 數(shù)據(jù)挖掘以解決實(shí)際問題為出發(fā)點(diǎn);核心任務(wù)是對(duì)數(shù)據(jù)關(guān)系和特征進(jìn)行探索。 三、類型 1指導(dǎo)學(xué)習(xí)或監(jiān)督學(xué)習(xí) 監(jiān)督學(xué)習(xí)是對(duì)目標(biāo)需求的概念進(jìn)行學(xué)習(xí)和建模,通過探索數(shù)據(jù)和建立模型來實(shí)現(xiàn)從觀察變量到目標(biāo)需求的有效解釋。 2無指導(dǎo)學(xué)習(xí)或非監(jiān)督學(xué)習(xí) 無監(jiān)督學(xué)習(xí)沒有明確的標(biāo)識(shí)變量來表達(dá)目標(biāo)概念,主要任務(wù)是探索數(shù)據(jù)之間的內(nèi)在聯(lián)系和結(jié)構(gòu) 四、常用的算法 1.分類 (1)【含義】確定目標(biāo)對(duì)象屬于哪個(gè)預(yù)定類別,以實(shí)現(xiàn)對(duì)未來潛在的預(yù)測(cè)需求。分類技術(shù)屬于一種監(jiān)督學(xué)習(xí),即使用已知類別的訓(xùn)川練數(shù)據(jù)建立分類模型的方法。 (2)【實(shí)際應(yīng)用】在郵件系統(tǒng)中區(qū)分出垃圾郵件,在貸款客戶中判斷出有風(fēng)險(xiǎn)客戶等。 (3)【常用方法】決策樹分類法、貝葉斯分類法、關(guān)聯(lián)分類法、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。 2聚類分析 (1)【含義】把一組數(shù)據(jù)按照差異性和相似性分為幾個(gè)類別,使得同類的數(shù)據(jù)相似性盡量大,不同類的數(shù)據(jù)相似性盡可能小,跨類的數(shù)據(jù)關(guān)聯(lián)性盡可能低。聚類是一種無監(jiān)督學(xué)習(xí)。其要?jiǎng)澐值念愂俏粗?,聚類分析是根?jù)觀察學(xué)習(xí)來確定數(shù)據(jù)之間的關(guān)系。 (2)【實(shí)際應(yīng)用】用于客戶細(xì)分、文本歸類、結(jié)構(gòu)分組、行為跟蹤等問題 (3)【方法】基于劃分的方法、基于分層的方法基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。 3關(guān)聯(lián)分析 (1)【含義】是對(duì)數(shù)據(jù)集中反復(fù)出現(xiàn)的相關(guān)關(guān)系和關(guān)聯(lián)性進(jìn)行挖掘提取,從而可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)預(yù)測(cè)其他數(shù)據(jù)項(xiàng)的出現(xiàn)。 (2)【實(shí)際應(yīng)用】啤酒尿布案例,數(shù)據(jù)挖掘發(fā)現(xiàn)大型超市中購買啤酒的男士經(jīng)常同時(shí)購買小孩紙尿褲,基于這一發(fā)現(xiàn),超市把啤酒和紙尿褲擺放在一起,結(jié)果兩種商品的銷售量明顯提升。 (3)【方法】購物籃分析,目的是發(fā)現(xiàn)交易數(shù)據(jù)中不同商品之間的聯(lián)系規(guī)則,讓營銷商制定更好的營銷策略。 4.趨勢(shì)與演化分析 包括數(shù)據(jù)變化趨勢(shì)、序列模式分析、周期性分析以及相似程度分析等內(nèi)容。統(tǒng)計(jì)學(xué)的回歸分析方法經(jīng)常用于這類問題的分析。 5其他分析方法 特征分析、異常分析等。 23.5.4數(shù)據(jù)可視化 含義 借助圖形手段清賊有效地傳達(dá)與溝通信息。 【優(yōu)勢(shì)】在于簡(jiǎn)單,表現(xiàn)清晰。利用人對(duì)形狀、顏色、運(yùn)動(dòng)的敏感,有效傳遞信息,幫助用戶從數(shù)據(jù)中發(fā)現(xiàn)關(guān)系、規(guī)律和趨勢(shì)。 科學(xué)可視化:面向科學(xué)與工程領(lǐng)域的數(shù)據(jù)?!救纭堪臻g坐標(biāo)和幾何信息的三維空間測(cè)量數(shù)據(jù)、計(jì)算機(jī)模擬數(shù)據(jù)和醫(yī)學(xué)影像數(shù)據(jù)。重點(diǎn)探索以幾何、拓?fù)浜托螤钐卣鱽沓尸F(xiàn)數(shù)據(jù)中蘊(yùn)含的規(guī)律。 信息可視化:處理對(duì)象是非結(jié)構(gòu)化、非幾何的抽象數(shù)據(jù),【如】金融交易社交網(wǎng)絡(luò)和文本數(shù)據(jù)。大數(shù)據(jù)時(shí)代,信息可視化面臨的挑戰(zhàn)是要在海量、動(dòng)態(tài)變化的信息空間中輔助人類理解進(jìn)而挖掘信息、發(fā)現(xiàn)知識(shí) 24. 描述統(tǒng)計(jì)。 對(duì)數(shù)據(jù)分布特征的測(cè)度 分布的集中趨勢(shì),反映數(shù)據(jù)向其中心值靠攏或聚集的程度 分布的離散程度,反映各數(shù)據(jù)之間的差異程度,也能友映中心值對(duì)數(shù)據(jù)的代表程度 分布的偏態(tài)反映數(shù)據(jù)分布的不對(duì)稱性 對(duì)于兩個(gè)變量之間的相關(guān)分析,經(jīng)常采用的描述方法是散點(diǎn)圖和相關(guān)系數(shù)統(tǒng)計(jì)量。 24.1集中趨勢(shì)的測(cè)度 24.1.1集中趨勢(shì)的含義及測(cè)度指標(biāo) 一、集中趨勢(shì)的含義 集中趨勢(shì)是指一組數(shù)據(jù)向某一仲心值靠攏的程度,集中趨勢(shì)的測(cè)度就是尋找數(shù)據(jù)一般水平的代表值或中心值。 二、集中趨勢(shì)的測(cè)度指標(biāo) (一)均值 均值也就是平均數(shù),就是數(shù)據(jù)組中所有數(shù)值的總和除以該組數(shù)值的個(gè)數(shù)。 1均值是集中趨勢(shì)中最主要的測(cè)度值,是一組數(shù)據(jù)的重心所在,解釋了一組數(shù)據(jù)的平均水平。 2均值主要適用于數(shù)值型數(shù)據(jù),但不適用于分類數(shù)據(jù)和順序數(shù)據(jù)。 3均值易受極端值的影響,極端值會(huì)使得均值向極大值或極小值方向傾斜,使得均值對(duì)數(shù)據(jù)組的代表性減弱。 (二)中位數(shù) 1.含義 把一組數(shù)據(jù)按從小到大或從大到小的順序進(jìn)行排列,位置居中的數(shù)值叫做中位數(shù)。中位數(shù)將數(shù)據(jù)分為兩部分,其中一半的數(shù)據(jù)小于中位數(shù),另一半數(shù)據(jù)大于中位數(shù)。 2.計(jì)算 根據(jù)未分組數(shù)據(jù)計(jì)算中位數(shù)時(shí),要先對(duì)數(shù)據(jù)進(jìn)行排序,然后確定中位數(shù)的位置 3.適用 中位數(shù)是一個(gè)位置代表值 主要適用于:順序數(shù)據(jù)和數(shù)值型數(shù)據(jù) 不適用于:分類數(shù)據(jù) 中位數(shù)不受極端值的影響,抗干擾性強(qiáng),尤其適用于收入這類偏斜分布的數(shù)值型數(shù)據(jù)。 (三)眾數(shù) 1.含義 眾數(shù)是指一組數(shù)據(jù)中出現(xiàn)次數(shù)(頻數(shù))最多的變量值。 2.適用 眾數(shù)適于描述分類數(shù)據(jù)和順序數(shù)據(jù)的集中趨勢(shì)。尤其是分布明顯呈偏態(tài)時(shí),眾數(shù)的代表性更好。而定量數(shù)據(jù)中,可能出現(xiàn)多眾數(shù)和無眾數(shù)的情況,因此眾數(shù)不適用于描述定量數(shù)據(jù)的集中位置。有些情況下可能出現(xiàn)雙眾數(shù)、多眾數(shù)或者沒有眾數(shù),難以描述數(shù)據(jù)的集中趨勢(shì) 24.2離散程度的測(cè)度 24.2.1離散程度的含義及測(cè)度指標(biāo) 一、離散程度的含義 離散程度反映的是數(shù)據(jù)之間的差異程度。 集中趨勢(shì)的測(cè)度值是對(duì)數(shù)據(jù)水平的一個(gè)概括性的度量,它對(duì)一組數(shù)據(jù)的代表程度,取決于該組數(shù)據(jù)的離散水平。數(shù)據(jù)的離散程度越大,集中趨勢(shì)的測(cè)度值對(duì)該組數(shù)據(jù)的代表性就越差,離散程度越小,其代表性就越好。 二、離散程度的測(cè)度指標(biāo) 衡量離散程度的指標(biāo)包括方差、標(biāo)準(zhǔn)差、離散系數(shù) 方差記憶差的平方的平均值 方差越少,說明數(shù)據(jù)值與均值的平均距離越少,均值的代表性越好。方差的單位是原數(shù)據(jù)的平方。【如】身高的方差是100(cm2) 標(biāo)準(zhǔn)差:方差的平方根 【例如】身高的方差是100(cm2),則身高的標(biāo)準(zhǔn)差就是10cm (1)不僅能度量數(shù)值與均值的平均距離,還與原始數(shù)值具有相同的計(jì)量單位 (2)標(biāo)準(zhǔn)差越小,說明數(shù)據(jù)值與均值的平均距離越小,均值的代表性越好 (3)標(biāo)準(zhǔn)差的大小不僅與數(shù)據(jù)的計(jì)量單位有關(guān),也與觀測(cè)值的均值大小有關(guān) (4)不能直接用標(biāo)準(zhǔn)差比較不同變量的離散程度 離散系數(shù): 離散系數(shù)(變異系數(shù),標(biāo)準(zhǔn)差系數(shù)) 標(biāo)準(zhǔn)差與均值的比值 【例如】平均身高是170cm,標(biāo)準(zhǔn)差是10cm則離散系數(shù)=10cm/170cm (1)離散系數(shù)主要用于才同類別數(shù)據(jù)離散程度的比較。 (2)離散系數(shù)消除了測(cè)度單位和觀測(cè)值水平不同的影響,因而可以直接用來比較變量的離散程度。 24.3分布形態(tài)的測(cè)度 24.3.1偏態(tài)系數(shù) 偏度:數(shù)據(jù)分布的偏斜方向和程度,描述的是數(shù)據(jù)分布對(duì)稱程度。 偏態(tài)系數(shù):測(cè)度數(shù)據(jù)分布偏度的統(tǒng)計(jì)量,取決于離差三次方的平均數(shù)與標(biāo)準(zhǔn)差三次方的比值。 24.3.2標(biāo)準(zhǔn)分?jǐn)?shù) 標(biāo)準(zhǔn)分?jǐn)?shù)(也稱為“Z”分?jǐn)?shù)) 一、標(biāo)準(zhǔn)分?jǐn)?shù)適用及計(jì)算 在統(tǒng)計(jì)上,均值和標(biāo)準(zhǔn)差不同時(shí),不同變量的數(shù)值是不能比較的,來自不同分布的變量值不可比,但是每個(gè)數(shù)值在變量分布中相對(duì)于均值的相對(duì)位置是可比的,因此可以通過計(jì)算標(biāo)準(zhǔn)分?jǐn)?shù)來比較不同變量的取值。標(biāo)準(zhǔn)分?jǐn)?shù)可以給出數(shù)值距離均值的相對(duì)位置, 二、標(biāo)準(zhǔn)分?jǐn)?shù)的實(shí)際應(yīng)用 在實(shí)際應(yīng)用中,當(dāng)數(shù)據(jù)服從對(duì)稱的鐘形分布時(shí),可以運(yùn)用經(jīng)驗(yàn)法則來判斷與均值的距離在特定倍數(shù)標(biāo)準(zhǔn)差之內(nèi)的數(shù)據(jù)項(xiàng)所占比例。 24.4變量間的相關(guān)分析 24.4.1變量間的相關(guān)關(guān)系 【完全相關(guān)】一個(gè)變量的取值變化完全由另一個(gè)變量的取值變化所確定,稱這兩個(gè)變量完全相關(guān)?!救纭績r(jià)格不變的條件下,某種商品的銷售總額由其銷售量決定 【不完全相關(guān)】介于完全相關(guān)和不相關(guān)之間,一般的相關(guān)現(xiàn)象都屬于不完全相關(guān)。大部分相關(guān)現(xiàn)象均屬于不完全相關(guān) 【不相關(guān)】兩個(gè)變量的取值變化彼此互不影響【如】股票的價(jià)格與氣溫的高低 正相關(guān):一個(gè)變量的取值由小變大,另一個(gè)變量的取值也相應(yīng)的由小變大即兩個(gè)變量同方向變化(兩個(gè)變量同方向變化) 負(fù)相關(guān):一個(gè)變量的取值由小變大,另一個(gè)變量的取值由大變小,即兩個(gè)變量反方向變化(兩個(gè)變量反方向變化) 相關(guān)的形式: 【線性相關(guān)】兩個(gè)相關(guān)變量之間的關(guān)系大致呈現(xiàn)為線性關(guān)系 【非線性相關(guān)】兩個(gè)相關(guān)變量之間的關(guān)系近似于某種曲線方程的關(guān)系 【提示】相關(guān)關(guān)系并不等于因果關(guān)系。比如夏天雪糕和遮陽傘的銷售量。 24.4.2相關(guān)系數(shù)的度量 相關(guān)關(guān)系的度量(散點(diǎn)圖和相關(guān)系數(shù)) 一、散點(diǎn)圖 兩變量之間的關(guān)系可以用散點(diǎn)圖來展示 二、相關(guān)系數(shù) 相關(guān)系數(shù)是度量兩個(gè)變量之間相關(guān)關(guān)系的統(tǒng)計(jì)量。最常用的相關(guān)系數(shù)是Pearson(皮爾遜)相關(guān)系數(shù)。 相關(guān)系數(shù)的取值范圍在[-1,1]之間。 散點(diǎn)圖和相關(guān)系數(shù)通常會(huì)結(jié)擊在起考核,給出散點(diǎn)圖需要知道相關(guān)系數(shù)的大致取值范圍。給相關(guān)系數(shù)的范圍也應(yīng)能大致判斷散點(diǎn)圖的形狀。重點(diǎn)考核正線性相關(guān)和負(fù)線性相關(guān), 25. 抽樣調(diào)查。 25.1.抽樣調(diào)查的基本概念 25.1.1.抽樣調(diào)查的基本概念 抽樣調(diào)查是使用頻率最高的一種調(diào)查方式 抽樣調(diào)查是指按照某種原則和程序,從總體中抽取一部分單位,通過對(duì)這一部分單位進(jìn)行調(diào)查得到信息,以達(dá)到對(duì)總體情況的了解,或者對(duì)總體的有關(guān)參數(shù)進(jìn)行估計(jì) 1.總體→調(diào)查對(duì)象的全體 2.樣本→樣本是總體的一部分,由從總體中按一定原則或程序抽出的部分個(gè)體所組成。樣本也是一個(gè)集合。抽樣調(diào)查中調(diào)查的具體實(shí)施是針對(duì)樣本而言的 3.總體參數(shù)→總體指標(biāo)值,它是未知的常數(shù),是根據(jù)總體中所有單位的數(shù)值計(jì)算的,是通過調(diào)查想要了解的,不受樣本的抽選結(jié)果影響。常用的總體參數(shù)包括總體總量、總體均值、總體比例、總體方差等 4.樣本統(tǒng)計(jì)量或估計(jì)量→是根據(jù)樣本中各單位的數(shù)值計(jì)算的,是對(duì)總體參數(shù)的估計(jì),也稱估計(jì)量。它是一個(gè)隨機(jī)變量,取決于樣本設(shè)計(jì)和正好被選入樣本的單元特定組合。常用的樣本統(tǒng)計(jì)量有樣本均值、樣本比例、樣本方差 5.抽樣框→供抽樣所用的所有抽樣單元的名單,是抽樣總體的具體表現(xiàn)?!救纭科髽I(yè)名錄、電話簿、人員名冊(cè)等。樣框中的單位必須是有序的,便于編號(hào) 25.1.2.概率抽樣與非概率抽樣 1概率抽樣(隨機(jī)抽樣) (1)按一定概率以隨機(jī)原則抽取樣本 (2)總體中每個(gè)單元被抽中的概率是已知的或者是可以計(jì)算出來的 (3)當(dāng)采用樣本對(duì)總體參數(shù)進(jìn)行估計(jì)時(shí),要考慮到每個(gè)樣本單元被抽中的概率 【提示】若每個(gè)單位被抽中的概率相等,稱為等概率抽樣;若每個(gè)單位被抽入樣本的概率不同則稱為不等概率抽樣。無論等概率或不等概率抽樣,抽取時(shí)都要通過一定的隨機(jī)化程序來實(shí)現(xiàn) 【抽樣方法】 簡(jiǎn)單隨機(jī)抽樣;分層抽樣;系統(tǒng)抽樣;整群抽樣;多階段抽樣 2非概率抽樣: 抽取樣本時(shí)并不是依據(jù)隨機(jī)原則,調(diào)查者根據(jù)自己的方便或注觀判斷抽取樣本 【抽樣方法】 (1)判斷抽樣:調(diào)查人員依據(jù)調(diào)查目的和對(duì)調(diào)查對(duì)象情況的了解,人為確定樣本單元。例如選平均型單元作為樣本。 (2)方便抽樣:依據(jù)方便原則,以達(dá)到最大限度降低調(diào)查成本的目的,比如攔截式調(diào)查,在街邊或居民小區(qū)攔住行人進(jìn)行調(diào)查。 (3)自愿樣本:不是經(jīng)過抽取,而是自愿接受調(diào)查的單元所組成的樣本,典型的是網(wǎng)上調(diào)查, (4)配額抽樣:將總體中各單元按一定標(biāo)準(zhǔn)劃分為若干類型,將樣本數(shù)額分配到各類型中,從各類型中抽取樣本的方法則沒有嚴(yán)格限制。一般采用方便抽樣的方法抽取樣本單元。 25.1.3.抽樣調(diào)查的一般步驟 25.1.4.抽樣誤差與非抽樣誤差 樣本估計(jì)值和總體參數(shù)值之間的差異稱為誤差。 抽樣誤差:由抽樣的隨機(jī)性造成的用樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)時(shí)出現(xiàn)的誤差。 非抽樣誤差:除抽樣誤差外,由其他原因引起的樣本統(tǒng)計(jì)量與總體真值之間的差異。 非抽樣誤差 (1)抽樣框誤差:樣本框不完善造成的 (2)無回答誤差:調(diào)查人員沒能夠從被調(diào)查者那里得到所需要的數(shù)據(jù)。無回答誤差分為: 隨機(jī)因素造成的,如被調(diào)查者恰巧不在家; 非隨機(jī)因素造成的,如被調(diào)查者不愿告訴實(shí)情而拒絕回答。 (3)計(jì)量誤差:由于調(diào)查所獲得的數(shù)據(jù)污其真值之間不一致造成的誤差。這種誤差可能是由調(diào)查人員、問卷設(shè)計(jì)、受訪者等原因造成的。 【例如】調(diào)查員在調(diào)查中有意無意誘導(dǎo)被調(diào)查者: 調(diào)查中的提問錯(cuò)誤或記錄答案錯(cuò)誤; 調(diào)查人員有意作弊; 由于問卷的原因受訪者對(duì)調(diào)查問題的理解有偏誤;受訪者記憶不清、受訪者提供虛假數(shù)字等。 25.2幾種基本概率抽樣方法 25.2.1五種基本概率抽樣方法 一、簡(jiǎn)單隨機(jī)抽樣 1.分類 (1)有放回簡(jiǎn)單隨機(jī)抽樣:從總體中隨機(jī)抽出一個(gè)樣本單位,記錄觀測(cè)結(jié)果后,將其放回總體中去再抽取第二個(gè),以此類推,直到抽滿n個(gè)單位為主。該方法容易造成信息重疊而影響估計(jì)效率,較少采用。 (2)不放回簡(jiǎn)單隨機(jī)抽樣:從包含N個(gè)單元的總體中逐個(gè)隨機(jī)地抽取單元并不放回,每次都在所有尚未被抽入樣本的單元中等概率地抽取下一個(gè)單元直到抽取n個(gè)單元為止。該法每個(gè)單位最多只能被抽中一次,比有放回抽樣的抽樣誤差低。 2.特點(diǎn) 最基本的隨機(jī)抽樣方法,每個(gè)單位的入樣概率相同樣本估計(jì)量形式比較簡(jiǎn)單。但該抽樣方法沒有利用抽樣框中更多的輔助信息,樣本分布分散時(shí),會(huì)增加調(diào)查的時(shí)間和費(fèi)用 3.適用條件 抽樣框中沒有更多可以利用的輔助信息;調(diào)查對(duì)象分布的范圍不廣闊;個(gè)體之間的差異不是很大 4.應(yīng)用舉例 在調(diào)查某部門平均工資時(shí),從該部門10人中隨機(jī)抽取5人進(jìn)行調(diào)查,這種抽樣方法屬于簡(jiǎn)單隨機(jī)抽樣 二、分層抽樣 1.概念 先按照某種規(guī)則把總體分為不同的層,然后在不同的層內(nèi)獨(dú)立、隨機(jī)地抽取樣本。 【提示】如果每一層都是簡(jiǎn)單隨機(jī)抽樣,則稱為分層隨機(jī)抽樣。為了組織調(diào)查的方便,各層還可以采用不同的抽樣方法。由于每層都要抽取一定的樣本單位,這樣樣本在總體中分布比較均勻,可以降低抽樣誤差 2,應(yīng)用舉例 在調(diào)查某部門(共10人)的平均工資時(shí),先將該部門員工分為經(jīng)理(4人)和普通職員(6人)兩類,再采用隨機(jī)原則分別在經(jīng)理和普通職員中抽取樣本,這種抽樣方法屬于分層抽樣 【提示】分層抽樣中,樣本量在各層中分配的方法有等比例分配和不等比例分配兩類。 (1)等比例分配下,層的樣本單位比例與該層中的總體單位比例一致,等比例分配操作簡(jiǎn)單,易于理解 (2)不等比例分配 各層單位數(shù)相差懸殊時(shí),可在總體單位少的層適當(dāng)增大樣本量或有些層內(nèi)方差過大,為了降低抽樣誤差,在方差大的層中多抽,在方差小的層中少抽。 【提示】在條件具備時(shí),如果各層的總體方差已知,不等比例抽樣的抽樣誤差可能比等比例抽樣更小。 3,適用條件 抽樣框中有足夠的輔助信息,能夠?qū)⒖傮w單位按某種標(biāo)準(zhǔn)劃分到各層之中,實(shí)現(xiàn)在同一層內(nèi),各單位之間的差異盡可能小,不同層之間各單位的差異盡可能大。(層內(nèi)差異小,層間差異大) 三、系統(tǒng)抽樣 1.概念 將總體中的所有單元按一定順序排列,在規(guī)定范圍內(nèi)隨機(jī)抽取一個(gè)初始單元,然后按事先規(guī)定的規(guī)則抽取其他樣本單元。 最簡(jiǎn)單的系統(tǒng)抽樣是等距抽樣【即】將總體N個(gè)單位按直線排列,根據(jù)樣本量確定抽樣間隔,抽樣間隔=N/n≈k,k為最接近N/n的一個(gè)整數(shù),在1~k范圍內(nèi)隨機(jī)抽取一個(gè)整數(shù),令位于位置上的單位為起始單位,往后每隔k抽取一個(gè)單位,直至抽滿n) 2.應(yīng)用舉例 調(diào)查一個(gè)居委會(huì)4000戶家庭人均收入,編號(hào)1~4000,要抽取40戶,在1~100號(hào)中隨機(jī)確走15號(hào),抽取的樣本為15:15+100;15+200;15+300;..15+3900,這種抽樣方法屬于系統(tǒng)抽樣中的等距抽樣 3.優(yōu)點(diǎn) 對(duì)抽樣框的要求比較簡(jiǎn)單,它只要求總體單位按一定順序排列,系統(tǒng)抽樣的估計(jì)效果與總體排列順序有關(guān) 四、整群抽樣 1.概念 將總體中所有的基本單位按照一定規(guī)則劃分為互不重疊的群,抽樣時(shí)直接抽取群,對(duì)抽中的群調(diào)查其全部的基本單位,對(duì)沒有抽中的群則不進(jìn)行調(diào)查。與簡(jiǎn)單隨機(jī)抽樣相比,整群抽樣的優(yōu)點(diǎn)是: (1)實(shí)施調(diào)查方便,可以節(jié)省費(fèi)用和時(shí)間,調(diào)查效率較高; (2)抽樣框編制得以簡(jiǎn)化,抽樣時(shí)只需要群的抽樣框而不要求全部基本單位的抽樣框 2.應(yīng)用舉例 (1)調(diào)查某城市在職的房地產(chǎn)從業(yè)人員工資水平,將房地產(chǎn)行業(yè)所有在職人員按照所屬企業(yè)分群,直接抽取企業(yè)單 位,入樣企業(yè)單位內(nèi)所有職工均接受調(diào)查,沒有入樣的企業(yè)單位員工都不調(diào)查; (2)以家庭為群,采用整群抽樣估計(jì)某地區(qū)的男女比例 3.適用 如果群內(nèi)各單位之間存在較大差導(dǎo),群與群的結(jié)構(gòu)相似,整群抽樣會(huì)降低估計(jì)誤差 五、多階段抽樣 1.概念 經(jīng)過兩個(gè)或兩個(gè)以上抽樣階段才能抽到最終樣本單位,這就是多階段抽樣。 如果經(jīng)過兩個(gè)階段抽樣,抽取到接受調(diào)查的最終單位,稱為二階段抽樣;以此類推。 在大范圍的抽樣調(diào)查中,采用多階段抽樣是必要的 2,應(yīng)用舉例 某城市為調(diào)查居民對(duì)市政建設(shè)的滿意度,先從該市所有居委會(huì)中隨機(jī)抽取20個(gè)居委會(huì),再從每個(gè)被抽中的居委會(huì)中隨機(jī)抽取30個(gè)居民家庭進(jìn)行入戶調(diào)查,該項(xiàng)調(diào)查采用的抽樣方式是多階段抽樣,第一階段采用整群抽樣,第二階段采用了簡(jiǎn)單隨機(jī)抽樣 25.3估計(jì)量和樣本量 25.3.1估計(jì)量的性質(zhì) 不同的抽樣方法下:同一估計(jì)量也會(huì)有不同的估計(jì)效果 同一抽樣方法下:也會(huì)有不同的估計(jì)量可供選擇 估計(jì)量的選擇標(biāo)準(zhǔn),即估計(jì)量的性質(zhì)如下: 一致性/無偏性/有效性 【一致性】 隨著樣本量的增大,估計(jì)量的值如果穩(wěn)定于總體參數(shù)的真值,這個(gè)估計(jì)量就有一致性,也稱為一致估計(jì)量 【無偏性】 對(duì)于不放回簡(jiǎn)單隨機(jī)抽樣,所有可能的樣本均值取值的平均值總等于總體均值 【有效性】 估計(jì)量的性質(zhì)考核方式有兩種: 3個(gè)性質(zhì)都是什么。記憶方法是一首歌曲名即”一無所有”,”一”是指一致性;"無”是指無偏性;"“有”是指有效性。 2每一個(gè)性質(zhì)都是什么含義。一致性對(duì)應(yīng)的關(guān)鍵詞是“穩(wěn)定”;無偏性對(duì)應(yīng)的關(guān)鍵詞是“等于”;有效性對(duì)應(yīng)的關(guān)鍵詞是“密集” 25.3.2抽樣誤差的估計(jì) 一、抽樣誤差無法避免,但可以計(jì)算 在不放回簡(jiǎn)單隨機(jī)抽樣方法中,將樣本均值作為總體均值的估計(jì)量。則估計(jì)量的方差為: 【提示】實(shí)踐中,總體方差是未知的,通常用樣本方差替代。 二、影響抽樣誤差的因素 1抽樣誤差與總體分布有關(guān),總體單位值之間差異越大,即總體方差越大,抽樣誤差越大。 2抽樣誤差與樣本量n有關(guān),其他條件相同,樣本量越大抽樣誤差越小。 3抽樣誤差與抽樣方式和估計(jì)量的選擇也有關(guān)。例如分層抽樣的估計(jì)量方差一般小于簡(jiǎn)單隨機(jī)抽樣。 4利用有效輔助信息的估計(jì)量也可以有效的減小抽樣誤差。 25.3.3樣本量的影響因素 確定樣本量需要對(duì)影響樣本量的因素進(jìn)行分析,影響樣本量的因素如下: 1.調(diào)查的精度:調(diào)查的精度是指用樣本數(shù)據(jù)對(duì)總體進(jìn)行估計(jì)時(shí)以接受的誤差水平,要求的調(diào)查精度越高,所需要的樣本量就越大 2.總體的離散程度:在其他條件相同情況下,總體方差越大,所需要的樣本量也越大 3.總體的規(guī)模:對(duì)于大規(guī)模的總體,總體規(guī)模對(duì)樣本量的需求幾乎沒有影響但對(duì)于小規(guī)模的總體,總體規(guī)模越大,為保證相同估計(jì)精度樣本量也要隨之增大 4.無回答情況:無回答減少了有效樣本量,在無回答率較高的調(diào)查項(xiàng)目中,樣本量要大一些,以減少無回答帶來的影響 5.經(jīng)費(fèi)的制約:樣本量是調(diào)查經(jīng)費(fèi)與調(diào)查精度之間的某種折中和平衡 6.其他因素:調(diào)查的限定時(shí)間、實(shí)施調(diào)查的人力資源等 26. 回歸分析。 26.1回歸模型 26.1.1回歸分析的概念 回歸分析就是根據(jù)相關(guān)關(guān)系的具體形態(tài),選擇一個(gè)合適的數(shù)學(xué)模型來近似的表達(dá)變量間的依賴關(guān)系。 進(jìn)行回歸分析時(shí),首先需要確定因變量和自變量。 回歸分析中,被預(yù)測(cè)或被解釋的變量稱為因變量,用Y表示;用來預(yù)測(cè)或解釋因變量的變量稱為自變量,一般用X表示?!纠纭吭谘芯窟呺H消費(fèi)傾向時(shí),目的是預(yù)測(cè)一定人均收入條件下的平均人均消費(fèi)金額,因此人均消費(fèi)金額是因變量,而人均收入為自變量。 26.1.2回歸分析與相關(guān)分析的關(guān)系 1聯(lián)系 (1)它們具有共同的研究對(duì)像。 (2)在具體應(yīng)用時(shí),常常必須互相補(bǔ)充。 相關(guān)分析需要依靠回歸分析來表明現(xiàn)象數(shù)量相關(guān)的具體形式;而回歸分析則需要依靠相關(guān)分析來表明現(xiàn)象數(shù)量變化的相關(guān)程度。只有高度相關(guān)時(shí),進(jìn)行回歸分析尋求其相關(guān)的具體形式才有意義。 2區(qū)別 相關(guān)分析與回歸分析在研究自的動(dòng)仿法上具有明顯的區(qū)別: (1)相關(guān)分析研究變量之間相關(guān)的貞響和相送的程度。 (2)回歸分析是研究變量之間相送關(guān)系的俱體形式,它對(duì)具有相關(guān)關(guān)系的變量之間的數(shù)量聯(lián)系進(jìn)行測(cè)定,確定相關(guān)的數(shù)學(xué)方程或,根據(jù)這個(gè)數(shù)學(xué)方程式可以叢已知量來推測(cè)未知量,從而為估算和預(yù)測(cè)提供了一個(gè)重要方法 26.1.2回歸模型 一、回歸模型分類 描述因變量如何依賴自變量和誤差項(xiàng)的方程稱為回歸模型回歸模型的類別如下: 1.根據(jù)自變量的多少,回歸模型可以分為一元回歸模型和多元回歸模型 2.根據(jù)回歸模型是否線性,回歸模型分為線性回歸模型和非線性回歸模型。 二、一元線性回歸模型 一元線性回歸模型是研究兩個(gè)變量之間相關(guān)關(guān)系的最簡(jiǎn)單的回歸模型,只涉及一個(gè)自變量。 回歸分析的一個(gè)重要應(yīng)用就是預(yù)測(cè),即利用估計(jì)的回歸模型預(yù)估因變量數(shù)值。 26.2最小二乘法 在現(xiàn)實(shí)中,模型的參數(shù)β0和β1都是未知的,需要利用樣本數(shù)據(jù)去估計(jì),采用的估計(jì)方法是最小二乘法。 26.3模型的檢驗(yàn)及預(yù)測(cè) 26.3.1回歸模型的擬合效果分析 一、回歸模型檢驗(yàn)的內(nèi)容 一般情況下,使用估計(jì)的回歸方程之前,需要對(duì)摸型進(jìn)行檢驗(yàn)。 其內(nèi)容包括: (1)結(jié)合經(jīng)濟(jì)理論和經(jīng)驗(yàn)分析回歸系數(shù)的經(jīng)濟(jì)含義是否合理 (2)對(duì)模型進(jìn)行假設(shè)檢驗(yàn) (3)分析估計(jì)的模型對(duì)數(shù)據(jù)的擬合效果如何 二、決定系數(shù) 一元線性回歸模型擬合效果的一種測(cè)度方法是決定系數(shù)。 1.決定系數(shù),也稱為R2,可以測(cè)度回歸直線對(duì)樣本數(shù)據(jù)的擬合程度。 2,決定系數(shù)的取值:在0到1之間,大體說明了回歸模型所能解釋的因變量變化占因變量總變化的比例。 決定系數(shù)越接近1,回歸直線的擬合效果越好。 R2=1,說明回歸直線可以解釋因變量的所有變化。 R2=0,說明回歸直線無法解釋因變量的變化,因變量的變化與自變量無關(guān)。 三、回歸系數(shù)的顯著性檢驗(yàn) 在大樣本假定的條件下,回歸系數(shù)的最小二乘估計(jì)量β0,β1漸進(jìn)服從正態(tài)分布,可以用t檢驗(yàn)法驗(yàn)證自變量X對(duì)因變量Y是否有顯著影響。 t檢驗(yàn)的原理是反證法。 四、模型預(yù)測(cè) 回歸分析的一個(gè)重要應(yīng)用就是預(yù)測(cè),【即】利用估計(jì)的回歸模型預(yù)估因變量數(shù)值。 五、多元回歸模型 多元回歸模型在實(shí)際應(yīng)用中,隨著自變量個(gè)數(shù)的增加,即使在有些自變量與因變量完全不相關(guān)的情況下,決定系數(shù)R2也會(huì)增大。為避免因增加自變量個(gè)數(shù)而高估擬合效果的情況,多元回歸模型一般使用修正了自由度的調(diào)整后R2。調(diào)整后R2考慮了自變量個(gè)數(shù)增加帶來的影響,在數(shù)值上小于R2。 27. 時(shí)間序列分析。 27.1時(shí)間序列的含義、分類 1.時(shí)間序列的含義及分類 一、時(shí)間序列的含義 1時(shí)間序列的含義 時(shí)間序列也稱動(dòng)態(tài)數(shù)列,是將某一統(tǒng)計(jì)指標(biāo)在各個(gè)不同時(shí)間上的數(shù)值按時(shí)間先后順序編制形成的序列, 2時(shí)間序列的構(gòu)成要素 (1)被研究現(xiàn)象所屬時(shí)間 (2)反映該現(xiàn)象一定時(shí)間條件下數(shù)量特征的指標(biāo)值 同一時(shí)間序列中,各指標(biāo)值的時(shí)間單位一般要求相等,可以是年、季、月、日。 二、時(shí)間序列的分類 按統(tǒng)計(jì)指標(biāo)值的表現(xiàn)形式 絕對(duì)數(shù)時(shí)間序列:統(tǒng)計(jì)指標(biāo)值是總量 時(shí)期序列:反映現(xiàn)象在一定付期內(nèi)發(fā)展的結(jié)果,是過程總量?!救纭繃鴥?nèi)生產(chǎn)總值時(shí)間序列 時(shí)點(diǎn)序列:反映現(xiàn)象在一定時(shí)點(diǎn)上的瞬間水平?!救纭磕昴┛?cè)丝跁r(shí)間序列 相對(duì)數(shù)時(shí)間序列:統(tǒng)計(jì)指標(biāo)值是相對(duì)數(shù)【如】城鎮(zhèn)人口比重時(shí)間序列 平均數(shù)時(shí)間序列:統(tǒng)計(jì)指標(biāo)值是平均數(shù)【如】人均國內(nèi)生產(chǎn)總值序列 27.2平均發(fā)展水平 1.平均發(fā)展水平的計(jì)算 一、發(fā)展水平的有關(guān)概念 1.發(fā)展水平 發(fā)展水平是時(shí)間序列中對(duì)應(yīng)于具體時(shí)間的指標(biāo)數(shù)值 2.最初水平、最末水平、中間水平 時(shí)間序列中第一項(xiàng)的指標(biāo)值稱為最初水平,最末項(xiàng)的指標(biāo)值稱為最末水平,處于二者之間的各期指標(biāo)值則稱為中間水平 3.基期水平和報(bào)告期水平 基期水平:是作為對(duì)比的基礎(chǔ)時(shí)期的水平; 報(bào)告期水平:是所要反映與研究的那一時(shí)期的水平。 4.平均發(fā)展水平 也稱序時(shí)平均數(shù)或動(dòng)態(tài)平均數(shù),是對(duì)時(shí)間序列中各時(shí)期發(fā)展水平計(jì)算的平均數(shù),它可以概括性描述現(xiàn)象在一段時(shí)期內(nèi)所達(dá)到的一般水平。 二、平均發(fā)展水平的計(jì)算 (一)絕對(duì)數(shù)時(shí)間序列序時(shí)平均數(shù)的計(jì)算 1.由時(shí)期序列計(jì)算序時(shí)平均數(shù):就是簡(jiǎn)單算術(shù)平均數(shù)。 2,由時(shí)點(diǎn)序列計(jì)算序時(shí)平均數(shù): (1)連續(xù)時(shí)點(diǎn)序列 ①資料逐日排列且每天登記。即已掌握了整段考察時(shí)期內(nèi)連續(xù)性的時(shí)點(diǎn)數(shù)據(jù),可采用簡(jiǎn)單算術(shù)平均數(shù)的方法計(jì)算。 ②指標(biāo)值變動(dòng)才登記:采用加權(quán)算術(shù)平均數(shù)的方法計(jì)算序時(shí)平均數(shù),權(quán)重是每一指標(biāo)值的持續(xù)天數(shù)占總天數(shù)的比例 (2)間斷時(shí)點(diǎn)序列 ①間隔時(shí)間相等的間斷時(shí)點(diǎn)序列 計(jì)算思想是“兩次平均”:先求各個(gè)時(shí)間間隔內(nèi)的平均數(shù),再對(duì)這些平均數(shù)進(jìn)行簡(jiǎn)單算術(shù)平均。 ②間隔時(shí)間不相等的問斷時(shí)點(diǎn)序列。 計(jì)算思路“兩次平均”第一次的平均計(jì)算與間隔相等的間斷序列相同;進(jìn)行第二次平均時(shí),由于各間隔不相等所以應(yīng)當(dāng)用間隔長度作為權(quán)數(shù),計(jì)算加權(quán)算術(shù)平均數(shù)。 (二)相對(duì)數(shù)或平均數(shù)時(shí)間序列序時(shí)平均數(shù)的計(jì)算 相對(duì)數(shù)或平均數(shù)時(shí)間序列是派生數(shù)列,相對(duì)數(shù)或平均數(shù)通常是由兩個(gè)絕對(duì)數(shù)對(duì)比形成的 【計(jì)算思路】分別求出分子指標(biāo)和分母指標(biāo)時(shí)間序列的序時(shí)平均數(shù),然后再進(jìn)行對(duì)比,用公式表示如下 27.2.2.增長量與平均增長量 增長量: 報(bào)告期水平-基期水平 反映報(bào)告期比基期增加(或減少)的絕對(duì)數(shù)量 根據(jù)基期的不同確定方法 1)逐期增長量:報(bào)貨期水平-報(bào)告期前一期水平 2)累計(jì)增長量:報(bào)告期水平-最初水平 同一時(shí)間序列中,累增長量等于相應(yīng)時(shí)期逐期增長量之和 平均增長量:時(shí)間序列中逐期增長量的序時(shí)平均數(shù) 27.3時(shí)間序列速度分析 1.發(fā)展速度與增長速度 發(fā)展速度:以相對(duì)數(shù)形式表示的兩個(gè)不同時(shí)期發(fā)展水平的比值--報(bào)告期水平基期水平 根據(jù)基期的選擇不同 1)環(huán)比發(fā)展速度:報(bào)告期水平除以報(bào)告期前一期水平 2)定基發(fā)展速度:報(bào)告期水平除以最初水平 定基發(fā)展速度與環(huán)比發(fā)展速度的關(guān)系 二、增長速度 報(bào)告期增長量與基期水平的比值表明報(bào)告期比基期增長(或降低)了百分之幾或若干倍 2.平均發(fā)展速度與平均增長速度 平均發(fā)展速度:是一定時(shí)期內(nèi)各期環(huán)比發(fā)展速度的序時(shí)平均數(shù),目前計(jì)算平均發(fā)展速度通常采用幾何平均法 平均增長速度:一定時(shí)期內(nèi)逐期增長(降低)變化的般程度,平均增長速度=平均發(fā)展速度-1 3.速度分析應(yīng)注意的問題 速度的分析與應(yīng)用 一、當(dāng)時(shí)間序列中的指標(biāo)值出現(xiàn)0或負(fù)數(shù)時(shí),不宜計(jì)算速度 二、速度指標(biāo)的數(shù)值與基數(shù)的大小有密切關(guān)系。 三、在環(huán)比增長速度時(shí)間序列中,各期的基數(shù)不同,因此運(yùn)用這一指標(biāo)反映現(xiàn)象增長的快慢時(shí),往往要結(jié)合“增長1%的絕對(duì)值”分析,這一指標(biāo)反映同樣的增長速度,在不同時(shí)間條件下所包含的絕對(duì)水平。 27.4平滑預(yù)測(cè)法 1.平滑預(yù)測(cè)法的含義及方法 平滑法的目的是“消除”時(shí)間序列的不規(guī)則成分所引起的隨機(jī)波動(dòng);平滑法適用于平穩(wěn)時(shí)間序列的預(yù)測(cè),即沒有明顯的趨勢(shì)、循環(huán)和季節(jié)波動(dòng)的時(shí)間序列:平滑預(yù)測(cè)法包括移動(dòng)平均法和指數(shù)平滑法等。 移動(dòng)平均法:使用時(shí)間序列中離預(yù)測(cè)期最近K期數(shù)據(jù)值的平均數(shù)作為下一期的預(yù)測(cè)值 指數(shù)平滑法的特點(diǎn)是,觀測(cè)值離預(yù)測(cè)時(shí)期越久遠(yuǎn),其權(quán)重也變得越小,呈現(xiàn)出指數(shù)下降 |
|