如何评估有序逻辑回归中的比例优势假设:Python 实现与案例研究
比例优势模型(Proportional Odds Model)是一种针对有序分类数据的回归方法,由 McCullagh 在 1980 年首次提出。该模型扩展了二元逻辑回归,用于处理因变量为有序分类的情况。比例优势模型基于若干假设,包括观察值独立、累积概率的对数优势呈线性关系、自变量之间不存在多重共线性以及比例优势假设。比例优势假设认为不同阈值下的回归系数相同,这是确保模型有效性和可解释性的关键。 评估方法 为了评估比例优势假设是否成立,Brant 在其 1990 年的文章中提出了两种方法:似然比检验和分别拟合法。本文详细介绍了这两种方法的原理和 Python 实现方式。 似然比检验 似然比检验通过比较不受约束模型和受约束模型的似然值来评估比例优势假设。不受约束模型允许每个阈值有自己的一套回归系数,而受约束模型则假设所有阈值下的回归系数相同。计算公式如下: [ \text{logit}(\gamma_j) = \theta_j - \beta_j^T X_i ] 其中 (\gamma_j) 是因变量 (Y) 小于或等于 (j) 的累积概率,(\theta_j) 是截距,(\beta_j) 是第 (j) 类别的回归系数向量。在受约束模型中,每个类别共享同一套回归系数: [ \text{logit}(\gamma_j) = \theta_j - \beta^T X_i ] 似然比统计量 (\lambda) 被定义为: [ \lambda = 2 (\text{log}(L_{\text{full}}) - \text{log}(L_{\text{reduced}})) ] 这里 (L_{\text{full}}) 和 (L_{\text{reduced}}) 分别是不受约束模型和受约束模型的最大似然估计值的似然函数值。统计量 (\lambda) 服从自由度为 ((K-2) \times p) 的卡方分布,其中 (K) 是类别数,(p) 是自变量的数量。如果 (\lambda) 大于临界值,则拒绝比例优势假设。 分别拟合法 分别拟合法通过拟合多个二元逻辑回归模型来评估比例优势假设。对于每一对相邻类别,构造一个二元分类变量 (Z_j),如果观测值大于阈值 (j) 则为 1,否则为 0。模型公式如下: [ \text{logit}(\pi_j) = \theta_j - \beta^T X_i ] 这里 (\pi_j) 是 (Z_j = 1) 的概率。评估方法是测试所有二元模型的回归系数是否相等。具体步骤包括计算马氏距离(Mahalanobis Distance)和 Wald 统计量 (X^2),同样服从自由度为 ((K-2) \times p) 的卡方分布。 应用实例 文章以“红葡萄酒质量”数据集为例,展示了如何使用这两种方法评估比例优势假设。原始数据集中包含了 1,599 个观察值和 12 个变量,其中目标变量“质量”是有序分类变量,范围从 3 到 8。为了确保各组有足够的观察值,将类别 3 和 4 合并为一类,类别 7 和 8 也合并为一类,最终目标变量有四个级别。选择“挥发酸度”、“游离二氧化硫”和“总二氧化硫”作为自变量,并进行标准化处理。 使用上述两种方法进行评估: 似然比检验:计算得到的似然比统计量 (LR = 53.207),对应的 p 值为 (1.066 \times 10^{-9})。自由度为 6,显著水平为 5%,因此拒绝比例优势假设。 分别拟合法:计算得到的 Wald 统计量 (X^2 = 41.880),对应的 p 值为 (1.232 \times 10^{-7})。同样表明比例优势假设不成立。 结论 本文通过红葡萄酒质量数据集展示了如何应用似然比检验和分别拟合法来评估比例优势假设的有效性。两种方法都表明,在这个数据集中,比例优势假设不成立,因此可能需要考虑其他模型或链接函数来更好地拟合数据。 业内评价与公司背景 比例优势模型是序数逻辑回归中的重要工具,但其假设条件需谨慎验证。Brant 的工作不仅提供了评估比例优势假设的方法,还讨论了如何测试隐变量 (Y^*) 是否符合逻辑分布。这种方法适用于数据科学家、机器学习工程师和统计学家,有助于在处理有序分类数据时做出更准确的选择。文章鼓励读者深入学习 Brant 的原作,以获得更全面的理解。文中使用的数据集来自 UCI 机器学习库,许可协议为 CC BY 4.0,允许用户在提供适当引用的情况下自由使用和分发数据。