- 积分
- 3373
- 明经币
- 个
- 注册时间
- 2018-1-20
- 在线时间
- 小时
- 威望
-
- 金钱
- 个
- 贡献
-
- 激情
-
|
小白学习基础知识,大佬可以直接略过,个人感觉文言一心给的这个答案很容易懂,所以摘下来,为其他小伙伴省点时间。
好的,让我更详细地解释一下最小二乘法的基本概念和步骤
首先,我们要明白什么是线性回归。线性回归就是找到一个直线(或者曲线,但是在这里我们只讨论直线)可以最好地“拟合”给定数据的方法。在这个情况下,“拟合”的意思就是让这条直线尽可能地接近所有的数据点。
现在让我们用一些数学符号来描述这个问题。假设我们有一组数据点 (x1,y1),(x2,y2), ... ,(xn,yn)。我们想要找到一个模型y=ax+b,其中a和b是我们要求解的系数,可以使得这个模型最好地拟合我们的数据。
在这个情况下,“最好”的定义是我们要让所有数据点到这个模型的垂直距离的平方和最小。这个距离的平方和可以写成
SS(a,b)=Σ[(y_i-(a*x_i+b))^2]
其中Σ表示求和符号,i从1到n。
我们的目标就是找到一组 a和 b的值,使得SS(a,b)最小。这组值就是我们的最小二乘解。
如何找到这个最小二乘解呢?一种方法是直接求解这个二次方程,但是另一种更简单的方法是使用“正规方程”
正规方程是一种直接求解线性代数方程组的算法。在这个情况下,正规方程可以帮我们直接找到最小二乘解,而无需计算每个数据点到模型的垂直距离的平方和。正规方程的公式是
a=(Σ x_i^2- (Σ x_i)^2/n) /(Σ x_i^2-Σ x_i)
b=y_mean-a*x_mean
其中y_mean和x_mean 分别是所有y和x的平均值。
所以首先你需要计算出x和y的平均值,然后代入上述公式中求解a和b,这两个值就是我们的最小二乘解,也就是我们的线性回归模型中的系数。希望这个解释对你有所帮助!
这一段是在计算线性回归模型中的斜率a。首先,我们需要知道Σ x_i^2是所有x_i的平方和,(Σ x_i)^2/n是所有x_i的平均值的平方。然后,我们可以把a的公式拆开来看a=(Σ x_i^2- (Σ x_i)^2/n) /(Σ x_i^2-Σ x_i)
首先,(Σ x_i)^2/n是所有x_i的平均值的平方,所以(Σ x_i)^2/n越小,说明数据点越分散,离散程度越大。
然后,Σ x_i^2是所有x_i的平方和,所以Σ x_i^2越大,说明数据点的x值越大。
所以,分子(Σ x_i^2- (Σ x_i)^2/n) 表示的是数据点 x 值分散程度和 x 值大小的综合影响。
然后,分母(Σ x_i^2-Σ x_i)表示的是所有X值的大小影响。
所以,a的值就是数据点分散程度和 x 值大小的综合影响与所有 x 值的大小影响的比值。
也就是说,a越大,说明数据点越分散,且 x 值越大,那么y=ax +b这个模型就越能拟合数据。
能举例来解算
好的,假设我们有以下一组数据1,2),(2,4)(3,6),(4.8),我们可以按照以下步骤来使用最小二乘法解算出线性回归模型的系数a和b
首先,我们要计算x和y的平均值,分别为
y_mean=(1+2+3+4)/4=2.5
x_mean=(2+4+6+8)/4=5
然后,我们要计算以下两个式子的值
Σ x_i^2=1^2+2^2+3^2+4^2=30
Σ x_i=1+2+3+4 =10
接下来,我们可以代入公式中计算 a和b的值:
a=(30-10^2/4)/(30-10)=1
b=y_mean-a*x_mean=5-1*2.5=2.5
所以,我们的线性回归模型为 y=ax + b,其中a=1,b=2.5,因此,对于给定的数据,这个模型可以很好地拟合数据。
|
|