机器学习之回归入门

原创 2018-03-03 18:18 阅读(140)次

什么是回归问题

转换成数学问题

线性回归



什么是回归问题

        预测明天甚至未来一周的气温,这是回归问题。
预测 iphone的价格走势,这是回归问题
预测房价的走势,这是回归的问题。
甚至位于数学界最深渊的问题,预测股价,也是回归问题
从上面这4个问题我们能发现回归问题预测的是连续的结果(这是相对于分类的离散值而言),是一个具体的数值。

这就是机器学习的回归问题。

同时他也是监督学习的一种。

监督学习:首先他需要由一定数量的训练数据集,数据集中包含训练需要的特征项,同时也包含正确的"答案"。   

从这些训练集中找到隐藏的规律,用于其他数据,预测出答案就是监督学习。




转换成数学问题

就是将现实世界的问题转换成数字的表示,并求解。

回归问题是为了预测连续,具体值。假设将数据的已知特征项当成在直角坐标系的x,而答案是y,那拟合这些数据的预测函数表示就是一条线,一个方程,随着自变量x的变化的方程。如:y = ax+b,  y = 2x^2  + x + 3。如果他是一个线性方程,那他是一条直线,如果是一个非线性方程,那他是一条曲线。

当然这边是基于只有一个特征项x的假设,如果很多的特征项,如x1,x2,那就是一个3d坐标线,如果有更多的特征项,,维度也就是特征项数n再加1(y的维度),所以就会有4d.,5d,..,.那这些多维空间内,这个预测函数是一个平面,一个曲面或者更复杂东西。


线性回归

回归问题中最简单的是线性回归。因为他是一条直线。求解的时候也避免的指数计算。

线性回归中最简单的单参数的线性回归。只有1个参数的线性回归,可以直接在二维的直角坐标系上表示出来。不只是理解,就是作图也更容易的多。

线性回归的求解: 就是找出一条直线去拟合训练集。也就是找到一元一次方程。这个方程符合的条件就是他跟训练集所有数据的“距离“”之和是最小的。

最理想是数据集刚好都在这条直线上。但我们知道2个点可以确定一条直线,超过2个点确定出来的就是折线了。因此显然所有数据都能满足这个线性方程的几乎是0(个别情况完全满足方程,就要小心了,需要注意是不是选择的训练数据过于简单导致"过拟合"),但却一定有一条直线是距离这些数据最近的。

详细内容见下一篇: 线性回归的求解原理和cost function



本站作品的版权皆为作品作者所有。

本站文字和内容为本站编辑或翻译,部分内容属本站原创,所以转载前务必通知本站并以超链接形式注明内容来自本站,否则以免带来不必要的麻烦。

本站内容欢迎分享,但拒绝有商业目的的转载!