統(tǒng)計學(xué)習(xí)方法
統(tǒng)計學(xué)習(xí)是關(guān)于計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預(yù)測與分析的一門學(xué)科,今天學(xué)習(xí)啦小編就與大家分享:統(tǒng)計學(xué)習(xí)方法,希望對大家的學(xué)習(xí)有幫助!
統(tǒng)計學(xué)習(xí)方法一
統(tǒng)計學(xué)習(xí)
統(tǒng)計學(xué)習(xí)是關(guān)于計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預(yù)測與分析的一門學(xué)科。統(tǒng)計學(xué)習(xí)也稱為統(tǒng)計機器學(xué)習(xí)(statical machine learning)。
統(tǒng)計學(xué)習(xí)的方法是基于數(shù)據(jù)構(gòu)建統(tǒng)計模型從而對數(shù)據(jù)進行預(yù)測和分析。統(tǒng)計學(xué)習(xí)由監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)等組成。
統(tǒng)計學(xué)習(xí)方法包括假設(shè)空間、模型選擇的準(zhǔn)則、模型學(xué)習(xí)的算法,這些統(tǒng)稱為統(tǒng)計學(xué)習(xí)方法的三要素:模型(Model)、策略(Strategy)、算法(Algorithm)。
實現(xiàn)統(tǒng)計學(xué)習(xí)方法的步驟如下:
得到有限的訓(xùn)練數(shù)據(jù)集合
確定包含所有可能的模型的假設(shè)空間,即學(xué)習(xí)模型的集合
確定模型選擇的準(zhǔn)則(什么是最優(yōu)模型的標(biāo)準(zhǔn)),即學(xué)習(xí)的策略
實現(xiàn)求解最優(yōu)模型的算法(如何獲取最優(yōu)模型),即學(xué)習(xí)的算法
通過學(xué)習(xí)方法選擇最優(yōu)模型
利用學(xué)習(xí)到的最優(yōu)模型對新數(shù)據(jù)進行預(yù)測和分析
監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是學(xué)習(xí)一個模型,使模型能夠?qū)θ我獾妮斎耄瑢ζ湎鄳?yīng)的輸出做出一個好的預(yù)測。
基本概念
訓(xùn)練數(shù)據(jù)(training data):一個給定的、有限的、用于學(xué)習(xí)的數(shù)據(jù)。
輸入空間(input space):輸入的可能取值的集合;
特征空間(feature space):每個具體的輸入是一個實例,通常由特征向量表示。特征向量存在的空間稱為特征空間。(有時輸入空間和特征空間為相同空間,有時則不同,則需將實例從輸入空間映射到特征空間),模型是定義在特征空間的。
輸出空間(output space):輸出的可能取值的集合;
訓(xùn)練集:輸入(或特征向量)與輸出對組成。
輸入與輸出對又稱為樣本。
聯(lián)合概率分布:監(jiān)督學(xué)習(xí)假設(shè)輸入和輸出的隨機變量X和Y遵循聯(lián)合概率分布P(X,Y),P(X,Y)表示分布函數(shù)或分布密度函數(shù)。 訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)是依據(jù)P(X,Y)獨立同分布產(chǎn)生的。X 和 Y 具有聯(lián)合分布的假設(shè)是監(jiān)督學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)。
假設(shè)空間(hypothesis space):模型屬于輸入空間到輸出空間的映射的集合,這個集合就是假設(shè)空間。模型可以是概率模型也可以使非概率模型。由P(Y|X)或決策函數(shù) Y = f(X)表示。具體的用小寫字母表示。
(PS.輸入、輸出變量用大寫字母表示,輸入輸出變量所取得的值用小寫字母表示。)
問題形式化
監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測兩個過程,由學(xué)習(xí)系統(tǒng)與預(yù)測系統(tǒng)組成。
統(tǒng)計學(xué)習(xí)方法二
統(tǒng)計學(xué)習(xí)是關(guān)于計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預(yù)測與分析的一門學(xué)科,也稱統(tǒng)計機器學(xué)習(xí)。統(tǒng)計學(xué)習(xí)是數(shù)據(jù)驅(qū)動的學(xué)科。統(tǒng)計學(xué)習(xí)是一門概率論、統(tǒng)計學(xué)、信息論、計算理論、最優(yōu)化理論及計算機科學(xué)等多個領(lǐng)域的交叉學(xué)科。
統(tǒng)計學(xué)習(xí)的對象是數(shù)據(jù),它從數(shù)據(jù)出發(fā),提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識,又回到對數(shù)據(jù)的分析與預(yù)測中去。統(tǒng)計學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計規(guī)律性,這是統(tǒng)計學(xué)習(xí)的前提。
統(tǒng)計學(xué)習(xí)的目的就是考慮學(xué)習(xí)什么樣的模型和如何學(xué)習(xí)模型。
統(tǒng)計學(xué)習(xí)方法三
(1) 得到一個有限的訓(xùn)練數(shù)據(jù)集合;
(2) 確定包含所有可能的模型的假設(shè)空間,即學(xué)習(xí)模型的集合;
(3) 確定模型選擇的準(zhǔn)則,即學(xué)習(xí)的策略;
(4) 實現(xiàn)求解最優(yōu)模型的算法,即學(xué)習(xí)的算法;
(5) 通過學(xué)習(xí)方法選擇最優(yōu)模型;
(6) 利用學(xué)習(xí)的最優(yōu)模型對新數(shù)據(jù)進行預(yù)測或分析。