第32行: |
第32行: |
| | | |
| 孟德尔随机化是工具变量的另一种衍生版本。 | | 孟德尔随机化是工具变量的另一种衍生版本。 |
| + | |
| + | == IV 估计法的基本思想 == |
| + | 从一个最简单的回归模型引入工具变量估计法。如下式(1)所示: |
| + | |
| + | y = βx+u(1) |
| + | |
| + | 假设y度量的是收入, x度量的是受教育的年数, u为随机误差项。简单回归模型(1)假设 x与随机误差项u不相关。x 对y的唯一直接影响是通过βx带来的,如下图(1)所示: |
| + | [[文件:Iv估计法.png|无|缩略图|158x158像素|图1]] |
| + | |
| + | |
| + | 随机误差项u包括了除受教育年数之外的所有其他未观测到的影响收入的因素,<code>能力</code> 的因素包括在 u 中,因为 <code>能力</code> 的高低与 <code>收入</code> (y) 具有相关性(一般的,能力高的人收入会高)。但同时 <code>能力</code> 的高低与 <code>受教育年数</code> (x) 也具有相关性(一般的,能力高的人倾向于接受更多的教育或技能培训),如下图(2)所示: |
| + | [[文件:Iv估计.png|无|缩略图|图2]] |
| + | |
| + | |
| + | 在模型(1)中我们遗漏了 <code>能力</code> 这个重要变量,在这种情况下,OLS 估计量 就不是 β的一致估计量,因为 ''' 包括了两部分的影响效果:一部分''' 是我们期望得到的受教育年数对收入的直接影响,'''另一部分''' 是来自于能力的间接影响,例如,能力高的人通常会有较高的受教育年数,从而有较高的收入。如果受教育时间增加 1 年与年收入增加 1,000 美元相关,我们就不能确定增加的 1,000 美元当中有多少是来自于 '''受教育年数多的影响''',有多少是来自于 '''能力高''' 的影响。 |
| + | |
| + | 我们可以使用工具变量估计法解决上述内生性问题。引入一个新的工具变量 ,它具有以下性质: 的变化与 的变化相关;除了 会间接的通过影响 来影响 之外, 的变化不会导致 的变化。例如,与大学相邻 () 可能会决定是否上大学,从而影响受教育年数 (),但并不直接决定收入 ()。如下图三所示:<blockquote>当 的工具变量 满足以下条件时,IV 估计量 是一致估计量: (1) 与 相关; (2) 与 不相关。</blockquote> |
| + | |
| + | == 2. IV 估计式 == |
| + | 在一般形式的回归模型(2)中(以矩阵形式表示): |
| + | |
| + | 是由解释变量构成的 维矩阵, 是系数向量。定义一个矩阵 与 有着相同的维度,作为 的工具变量,将(2)式两端同乘以矩阵 ,则有: |
| + | |
| + | 工具变量 与 不相关,意味着当 趋于无穷大时 的概率极限为 0。因此,我们可以从下式中定义出 IV 估计量 : |
| + | |
| + | IV 估计量的一种有趣的情况是:如果零条件均值假设满足,每一个解释变量都可以做为自己的工具变量,即 ,此时,IV 估计量就缩减为 OLS 估计量。因此,当零条件均值假设满足时,OLS 估计量是 IV 估计量的一种特殊情形。 |
| + | |
| + | |
| | | |
| == 代码实现 == | | == 代码实现 == |