机器学习概述
逻辑回归
逻辑回归是一种广义的线性模型。虽然被称为回归,但在实际应用中常被用作分类,用于估计某个事件发生的概率。例如某用户购买商品的可能性,某病人患有某种疾病的可能性,某广告被用户点击的可能性等。
- 首先基于线性模型。为了解决分类问题,需要把线性模型的输出做一个变换,利用Sigmoid函数,将实数域的输出映射到(0,1)区间,为输出提供了很好的概率解释。
- 其次策略方面,采用了交叉熵损失函数;
- 第三算法方面,为了最小化损失函数,采用了梯度下降方法。
- 采用L1正则化(使权重稀疏,被称为Lasso Regulation)和L2正则化(权重衰减,被称为Ridge Regulation)改进
线性回归
线性回归是对一个或多个自变量之间关系进行建模的方法。
- 假设因变量与自变量之间线性相关。
- 构建损失函数。
- 通过令损失函数最小来确定参数。
支持向量机
在线性可分时,在原空间寻找两类样本的最优分类超平面。在线性不可分时,加入松弛变量并通过使用非线性映射将低维度输入空间的样本映射到高维度空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。
在分开数据的超平面的两边建有两个互相平行的临界超平面,建立方向合适的分隔超平面将使两个与之平行的超平面间的距离最大化。其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。
K-means聚类
K-means算法是一种 无监督学习 方法,是最普及的聚类算法,算法使用 一个没有标签 的数据集,然后将数据聚类成不同的组。
K-means算法具有一个迭代过程,在这个过程中,数据集被分组成若干个预定义的不重叠的聚类或子组,使簇的内部点尽可能相似,同时试图保持簇在不同的空间,它将数据点分配给簇,以便簇的质心和数据点之间的 平方距离之和最小 ,在这个位置,簇的质心是簇中数据点的算术平均值。
1:选择K个点作为初始质心。
2:将每个点指派到最近的质心,形成K个簇。
3:对于上一步聚类的结果,进行平均计算,得出该簇的新的聚类中心。
4:重复上述两步/直到迭代结束:质心不发生变化。