你将学习线性回归假设的基本原理,以及如何使用现实世界的例子来验证它们 数据分析.
线性回归是一种建模和预测目标变量与一个或多个输入变量之间关系的技术。
它帮助我们了解输入变量的变化如何影响目标变量。
线性回归假设一条直线可以表示这种关系。
例如,假设您要考虑房产的大小(以平方英尺为单位)和年龄(以年为单位)来估计房产的成本。
在这种情况下,房子的价格是目标变量,大小和年龄是输入变量。
使用线性回归,您可以估计面积和年龄对房屋价格的影响。
为了使模型可靠和有效,需要满足线性回归中的六个主要假设。 这些假设是:
1. 线性
该假设表明因变量和自变量之间存在线性关系。 换句话说,因变量的变化应该与自变量的变化成比例。 可以使用散点图或通过检查残差来评估线性。
2. 误差的正态性
残差应服从均值为零的正态分布。 该假设对于正确的假设检验和构建置信区间至关重要。 误差的正态性可以使用视觉方法(例如直方图或 QQ 图)或通过统计检验(例如 Shapiro-Wilk 检验或 Kolmogorov-Smirnov 检验)来评估。
3.同方差性
该假设表明残差方差在所有自变量水平上应保持恒定。 换句话说,对于自变量的所有值,残差分布应该相似。 可以使用残差散点图或像 Breusch-Pagan 检验这样的正式检验来识别违反此假设的异方差性。
4. 错误的独立性
该假设表明数据集观测值应该彼此独立。 在处理时间序列或空间数据时,由于时间或空间上的接近性,观察结果可能相互依赖。 违反这一假设可能会导致估计偏差和不可靠的预测。 在这种情况下,时间序列或空间模型等专门模型可能更合适。
5. 不存在多重共线性(多元线性回归)
当线性回归模型中的两个或多个独立变量高度相关时,就会出现多重共线性,这使得确定每个变量对因变量的精确影响变得具有挑战性。多重共线性可能导致估计值不稳定、标准误差膨胀,以及系数解释困难。您可以使用方差膨胀因子 (VIF) 或相关矩阵来检测多重共线性。如果存在多重共线性,请考虑删除其中一个相关变量,合并相关变量,或使用以下技术 主成分分析 (PCA)或岭回归。
6. 观察的独立性
该假设表明数据集观测值应该彼此独立。 在处理时间序列或空间数据时,由于时间或空间上的接近性,观察结果可能相互依赖。 违反这一假设可能会导致估计偏差和不可靠的预测。 在这种情况下,时间序列或空间模型等专门模型可能更合适。
通过确保满足这些假设,您可以提高线性回归模型的准确性、可靠性和可解释性。 如果违反任何假设,则可能需要应用数据转换、使用替代建模技术或考虑其他方法来解决问题。
❓ 对数据分析感到困惑? 我们的综合指南将使其一目了然
假设 | 描述 |
---|---|
线性度 | 使用散点图检查因变量和自变量之间的线性关系 |
常态 | 使用 Shapiro-Wilk 检验评估残差的正态分布 |
同方性 | 误差项的恒定方差,使用 Breusch-Pagan 检验进行评估 |
错误的独立性 | 独立误差项,使用 Durbin-Watson 检验进行验证 |
观察的独立性 | 独立收集的数据点,无自相关 |
不存在多重共线性 | 使用 VIF 和公差测量确定的自变量之间不存在多重共线性 |
以下演示了具有两个自变量和一个因变量的线性回归模型问题。
在此示例中,我们将对房屋的面积和年龄与其售价之间的关系进行建模。
该数据集包含 40 栋房屋的面积、房龄和售价。
我们将使用多元线性回归来估计平方英尺和年龄对售价的影响。
这是一个包含可以复制和粘贴的数据的表:
排屋 | 平方英尺 | 年龄 | 价格 |
---|---|---|---|
1 | 1500 | 10 | 250000.50 |
2 | 2000 | 5 | 300000.75 |
3 | 1200 | 15 | 200500.25 |
4 | 2500 | 2 | 400100.80 |
5 | 1800 | 8 | 270500.55 |
6 | 1600 | 12 | 220800.60 |
7 | 2200 | 4 | 320200.10 |
8 | 2400 | 1 | 420300.90 |
9 | 1000 | 18 | 180100.15 |
10 | 2000 | 7 | 290700.40 |
11 | 1450 | 11 | 240900.65 |
12 | 2050 | 6 | 315600.20 |
13 | 1150 | 16 | 190800.75 |
14 | 2600 | 3 | 410500.50 |
15 | 1750 | 9 | 260200.55 |
16 | 1550 | 13 | 210700.85 |
17 | 2300 | 3 | 330400.45 |
18 | 2450 | 2 | 415200.90 |
19 | 1100 | 17 | 185300.65 |
20 | 1900 | 8 | 275900.80 |
21 | 1400 | 12 | 235800.55 |
22 | 2100 | 6 | 305300.40 |
23 | 1300 | 14 | 195400.25 |
24 | 2700 | 3 | 410200.75 |
25 | 1700 | 10 | 255600.20 |
26 | 1650 | 11 | 215400.60 |
27 | 2150 | 5 | 325500.50 |
28 | 1250 | 15 | 205700.85 |
29 | 2550 | 4 | 395900.90 |
30 | 1850 | 9 | 265100.65 |
31 | 1350 | 13 | 225900.40 |
32 | 1950 | 7 | 285800.15 |
33 | 1100 | 16 | 195900.80 |
34 | 2800 | 3 | 430700.55 |
35 | 1750 | 10 | 245500.20 |
36 | 1600 | 12 | 225300.10 |
37 | 2000 | 7 | 310700.50 |
37 | 2000 | 7 | 310700.50 |
38 | 1200 | 15 | 201200.90 |
39 | 2600 | 4 | 380800.65 |
40 | 1800 | 8 | 279500.25 |
为了避免违反观察的独立性假设,请确保您的数据点是独立收集的并且不表现出自相关,这可以使用 Durbin-Watson 检验进行评估。
在构建线性回归模型时,检查和解决这些假设至关重要,以确保有效性、可靠性和可解释性。
通过理解和验证六个假设(线性、误差独立性、同方差性、误差正态性、观测独立性和不存在多重共线性),您可以构建更准确、更可靠的模型,从而做出更好的决策并加深对关系的理解数据中的变量之间。
通过本文,您将学习如何以 APA 风格报告简单线性回归。确保研究结果准确、可信。
掌握如何以 APA 风格报告多元线性回归结果,涵盖系数、模型拟合和诊断。
掌握回归分析中残差的计算,以提高模型准确性并获得更深入的数据洞察。重要的指南。
掌握统计分析中同方差和异方差的概念,以进行准确的预测和推断。
在我们的初学者综合指南中了解什么是回归分析、其类型、关键概念、应用程序和常见陷阱。
通过我们的指南掌握 scikit-learn 的线性回归,并提高您的数据科学技能以有效地进行预测和分析。