更改

Logistic回归 (查看源代码)

2020年10月15日 (四) 16:07的版本

添加3,663字节、 2020年10月15日 (四) 16:07

创建页面，内容为“ 你在拉斯维加斯（也许只是单机PC版）玩着一系列“公平”赌博——如果“公平”真的存在！有的赌博胜面小，你用1元押注…”

你在拉斯维加斯（也许只是单机PC版）玩着一系列“公平”赌博——如果“公平”真的存在！

有的赌博胜面小，你用1元押注就可以获得额外1024元的回报；而有的赌博胜面大，要押注2元；于是还有4元，8元的押注……

你想用一个“风险值”（Risk Score）描述公平赌博的胜面，需要押注每大一倍，说明胜面多一些，这个赌博的“风险值”就下降1分。

用线性变化的得分描述倍增/倍减的押注额，或者解决类似问题，你需要的是Logistic回归。

=定义=

先从公平赌博开始讲：如果一场赌博，支付x元之后获胜能够超额得到A元，否则输掉这x元，那么你的胜率是多少？

令胜率为<math>P</math>，收益随机变量为X，可知

<math>0=E(X)=AP-x(1-P); P=\frac{x}{A+x}</math>

如果我们加倍赌注，胜率就变成了<math>P^*=\frac{2x}{A+2x}</math>

胜率不是在翻倍的，此时胜率/输率在翻倍（胜面对负面按比例扩张）

<math>\frac{p}{1-p}=\frac{x}{A}, \frac{p^*}{1-p^*}=\frac{2x}{A}</math>，...

使用之前的等差线性风险记分来描述胜负面比例的等比大小，在不知道胜负面大小的时候，我们使用一系列观测变量的线性组合<math>\beta_0+\sum_{i=1}^k{\beta_kX_k}</math>来估计出胜负面比例，可以构建模型如下：

<math>\mbox{Logit}(P)=log(\frac{p}{1-p}) = f(X) = \beta_0+\sum_{i=1}^k{\beta_kX_k} + \epsilon </math>

其中联合正态分布的变量集<math>\{X_k\}</math>与正态分布的误差项<math>\epsilon</math>互相独立。

=与线性回归的比较=

如果在实际问题中，我们观测到的是一批偏向于“实验设计出”的数据，往往会得到如下形式的数据：

{| class="wikitable"
|-
| <math>\bar{P}\backslash X</math>|| 观测数 || X1 || X2
|-
| 0.8 || <math>N_1</math> || 0|| 0
|-
| 0.65 || <math>N_2</math> || 1|| 0
|-
| 0.7 || <math>N_3</math> || 0|| 1
|-
| 0.55 || <math>N_4</math> || 1|| 1
|}

<math>\mbox{Logit}(P)=log(\frac{p}{1-p}) = f(X) = \beta_0+\beta_1X_1+\beta_2X_2 + \epsilon </math>

在数据点N的数目较大的情况下，先估计<math>Logit(\hat{p})</math>的方差，并给每一条观测加上适当的权重<math>\sqrt{Np(1-p)}</math>，可以把问题简化为一般线性模型并使用最小二乘法迭代求解。

这样求解的问题在于，十分依赖变量需要离散化成为水平数有限的列名型或者序数型变量，考察变量间相互作用时往往带来大量待估参数。

=Logistic回归求解=

Logistic回归的目标在于如何更准确的建立泛用性的Logistic线性模型，允许变量集<math>\{X_1,X_2,...X_k\}</math>是连续型变量，如下图所示：

{| class="wikitable"
|-
| Y <math>\backslash</math> X|| 观测数 || X1 || X2
|-
| 1 || 1 || <math>x_{1,1}</math> || <math>x_{1,2}</math>
|-
| 0 || 1 || <math>x_{2,1}</math> || <math>x_{2,2}</math>
|-
| 0 || 1 || <math>x_{3,1}</math> || <math>x_{2,3}</math>
|-
| 1 || 1 || <math>x_{4,1}</math> || <math>x_{2,4}</math>
|}

可以得到“事件发生/未发生”的单条观测，<math>x_{i,j}</math>可以取到连续值，但因为观测量只有一条，此时的目标变量变成了二值变量，无法再使用“先估计合理p再调整权重”的思路了。

为了解决这个问题，我们把Logistic回归放在“寻找参数的最大似然估计（MLE）”框架下求解。

<math></math>

=求解最优问题：Newton-Raphson迭代=

=简化版问题：信用风险评分卡=

==相关wiki==
*[[HMM隐性马可夫模型]]

[[category:概率模型]]

[[category:旧词条迁移]]

思无涯咿呀咿呀

管理员

2,443

个编辑

更改

Logistic回归 (查看源代码)

2020年10月15日 (四) 16:07的版本

导航菜单

搜索