线性回归的假设

线性回归的假设:综合指南

你将学习线性回归假设的基本原理,以及如何使用现实世界的例子来验证它们 数据分析.

亮点

  • 线性回归是一种广泛使用的预测建模技术,用于理解变量之间的关系。
  • 残差的正态性有助于确保线性回归中的无偏预测和可信的置信区间。
  • 同方差性保证模型的预测在不同值上具有一致的精度。
  • 识别和解决多重共线性可以提高回归模型的稳定性和可解释性。
  • 数据预处理和转换技术(例如缩放和标准化)可以缓解线性回归中的潜在问题。

线性回归是一种建模和预测目标变量与一个或多个输入变量之间关系的技术。

它帮助我们了解输入变量的变化如何影响目标变量。

线性回归假设一条直线可以表示这种关系。

例如,假设您要考虑房产的大小(以平方英尺为单位)和年龄(以年为单位)来估计房产的成本。

在这种情况下,房子的价格是目标变量,大小和年龄是输入变量。

使用线性回归,您可以估计面积和年龄对房屋价格的影响。

线性回归的假设

为了使模型可靠和有效,需要满足线性回归中的六个主要假设。 这些假设是:

1. 线性

该假设表明因变量和自变量之间存在线性关系。 换句话说,因变量的变化应该与自变量的变化成比例。 可以使用散点图或通过检查残差来评估线性。

2. 误差的正态性

残差应服从均值为零的正态分布。 该假设对于正确的假设检验和构建置信区间至关重要。 误差的正态性可以使用视觉方法(例如直方图或 QQ 图)或通过统计检验(例如 Shapiro-Wilk 检验或 Kolmogorov-Smirnov 检验)来评估。

3.同方差性

该假设表明残差方差在所有自变量水平上应保持恒定。 换句话说,对于自变量的所有值,残差分布应该相似。 可以使用残差散点图或像 Breusch-Pagan 检验这样的正式检验来识别违反此假设的异方差性。

4. 错误的独立性

该假设表明数据集观测值应该彼此独立。 在处理时间序列或空间数据时,由于时间或空间上的接近性,观察结果可能相互依赖。 违反这一假设可能会导致估计偏差和不可靠的预测。 在这种情况下,时间序列或空间模型等专门模型可能更合适。

5. 不存在多重共线性(多元线性回归)

当线性回归模型中的两个或多个独立变量高度相关时,就会出现多重共线性,这使得确定每个变量对因变量的精确影响变得具有挑战性。多重共线性可能导致估计值不稳定、标准误差膨胀,以及系数解释困难。您可以使用方差膨胀因子 (VIF) 或相关矩阵来检测多重共线性。如果存在多重共线性,请考虑删除其中一个相关变量,合并相关变量,或使用以下技术 主成分分析 (PCA)或岭回归。

6. 观察的独立性

该假设表明数据集观测值应该彼此独立。 在处理时间序列或空间数据时,由于时间或空间上的接近性,观察结果可能相互依赖。 违反这一假设可能会导致估计偏差和不可靠的预测。 在这种情况下,时间序列或空间模型等专门模型可能更合适。

通过确保满足这些假设,您可以提高线性回归模型的准确性、可靠性和可解释性。 如果违反任何假设,则可能需要应用数据转换、使用替代建模技术或考虑其他方法来解决问题。

❓ 对数据分析感到困惑? 我们的综合指南将使其一目了然

点击了解更多!

假设 描述
线性度 使用散点图检查因变量和自变量之间的线性关系
常态 使用 Shapiro-Wilk 检验评估残差的正态分布
同方性 误差项的恒定方差,使用 Breusch-Pagan 检验进行评估
错误的独立性 独立误差项,使用 Durbin-Watson 检验进行验证
观察的独立性 独立收集的数据点,无自相关
不存在多重共线性 使用 VIF 和公差测量确定的自变量之间不存在多重共线性

实际例子

以下演示了具有两个自变量和一个因变量的线性回归模型问题。

在此示例中,我们将对房屋的面积和年龄与其售价之间的关系进行建模。

该数据集包含 40 栋房屋的面积、房龄和售价。

我们将使用多元线性回归来估计平方英尺和年龄对售价的影响。

这是一个包含可以复制和粘贴的数据的表:

排屋 平方英尺 年龄 价格
1150010250000.50
220005300000.75
3120015200500.25
425002400100.80
518008270500.55
6160012220800.60
722004320200.10
824001420300.90
9100018180100.15
1020007290700.40
11145011240900.65
1220506315600.20
13115016190800.75
1426003410500.50
1517509260200.55
16155013210700.85
1723003330400.45
1824502415200.90
19110017185300.65
2019008275900.80
21140012235800.55
2221006305300.40
23130014195400.25
2427003410200.75
25170010255600.20
26165011215400.60
2721505325500.50
28125015205700.85
2925504395900.90
3018509265100.65
31135013225900.40
3219507285800.15
33110016195900.80
3428003430700.55
35175010245500.20
36160012225300.10
3720007310700.50
3720007310700.50
38120015201200.90
3926004380800.65
4018008279500.25

1. 线性

通过目视检查因变量相对于每个自变量的散点图是否有可辨别的线性模式来评估线性假设。

2. 误差的正态性

通过进行 Shapiro-Wilk 检验来评估正态性假设,该检验评估残差分布是否与正态分布存在显着偏差。

在 Shapiro-Wilk 检验中,高 p 值(通常高于 0.05)表明残差分布与正态分布没有显着差异。

3.同方差性

通过执行 Breusch-Pagan 检验来评估同方差性假设,该检验检查误差项中的非恒定方差。

高 p 值(通常高于 0.05)表明数据表现出同方差性,不同值之间的方差恒定。

4. 错误的独立性

接近 2 的 Durbin-Watson 统计表明误差是独立的,存在最小的自相关性。

低于或高于 2 的值分别表示正自相关或负自相关。

p 值表示 DW 统计量与 2 没有显着差异。

5. 不存在多重共线性

使用方差膨胀因子 (VIF) 和容差测量来评估是否存在多重共线性。 低 VIF 值(通常低于 10)和高容差值(高于 0.1)表明多重共线性不是回归模型中的重要问题。

我们的数据表明变量年龄和平方英尺之间存在多重共线性。 我们需要删除其中之一。 可以通过多种方式确定要删除的变量,例如使用简单的线性回归进行测试以查看哪个更适合模型或根据基础理论进行决定。

6. 观察的独立性

为了避免违反观察的独立性假设,请确保您的数据点是独立收集的并且不表现出自相关,这可以使用 Durbin-Watson 检验进行评估。

结语

在构建线性回归模型时,检查和解决这些假设至关重要,以确保有效性、可靠性和可解释性。

通过理解和验证六个假设(线性、误差独立性、同方差性、误差正态性、观测独立性和不存在多重共线性),您可以构建更准确、更可靠的模型,从而做出更好的决策并加深对关系的理解数据中的变量之间。

抓住机会进入 免费 我们新发布的数字图书中的样本并释放您的潜力。

深入掌握高级 数据分析 方法,确定完美的样本量,并有效、清晰、简洁地传达结果。

点击链接即可发现丰富的知识: 应用统计学:数据分析.

标准差可以为负吗?

在我们的社交网络上与我们联系!

Instagram 上的每日帖子!

线性回归的假设

线性回归的假设

类似的帖子

发表评论

您的电邮地址不会被公开。 必填项 *