前面的博客有介紹過對連續(xù)的變量進行線性回歸分析,從而達到對因變量的預測或者解釋作用。那么如果因變量是離散變量呢?在做行為預測的時候通常只有“做”與“不做的區(qū)別”、“0”與“1”的區(qū)別,這是我們就要用到logistic分析(邏輯回歸分析,非線性模型)。
參數(shù)解釋(對變量的評價)
發(fā)生比(odds): ODDS=事件發(fā)生概率/事件不發(fā)生的概率=P/(1-P)
發(fā)生比率(odds ratio):odds ratio=oddsB/oddsA (組B相對于組A更容易發(fā)生的比率)
注:odds ratio大于1或者小于1都有意義,代表自變量的兩個分組有差異性,對因變量的發(fā)生概率有作用。若等于1的話,該組變量對事件發(fā)生概率沒有任何作用。
參數(shù)估計方法
線性回歸中,主要是采用最小二乘法進行參數(shù)估計,使其殘差平方和最小。同時在線性回歸中最大似然估計和最小二乘發(fā)估計結(jié)果是一致的,但不同的是極大似然法可以用于非線性模型,又因為邏輯回歸是非線性模型,所以邏輯回歸最常用的估計方法是極大似然法。
極大似然公式:L(Θ)=P(Y1)P(Y2)...p(YN) P為事件發(fā)生概率PI=1/(1+E-(α+βXI))
在樣本較大時,極大似然估計滿足相合性、漸進有效性、漸進正太性。但是在樣本觀測少于100時,估計的風險會比較大,大于100可以介紹大于500則更加充分。
模型評價
這里介紹擬合優(yōu)度的評價的兩個標準:AIC準則和SC準則,兩統(tǒng)計量越小說明模型擬合的越好,越可信。
若事件發(fā)生的觀測有n條,時間不發(fā)生的觀測有M條,則稱該數(shù)據(jù)有n*m個觀測數(shù)據(jù)對,
在一個觀測數(shù)據(jù)對中,P>1-P,則為和諧對(concordant)。P<1-P,則為不和諧對(discordant)。P=1-P,則稱為結(jié)。
在預測準確性有一個統(tǒng)計量C=(NC-0.5ND+0.5T)/T,其中NC為和諧對數(shù),ND為不和諧對數(shù),這里我們就可以根據(jù)C統(tǒng)計量來表明模型的區(qū)分度,例如C=0.68,則表示事件發(fā)生的概率比不發(fā)生的概率大的可能性為0.68。
使用假設條件
①數(shù)據(jù)來自隨機樣本
②共線性敏感,自變量之間是非線性關(guān)系
③因變量只能取0、1
接下來看案例
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26