机器学习问答

为了让学习到的模型更贴近真实数据的分布,我们最小化模型数据分布与训练数据分布之间的 KL 散度,$KL(A||B) = - S(A) + H(A, B)$,而因为训练数据的分布是固定的,因此最小化 $KL(A||B)$ 等价于最小化交叉熵 $H(A, B)$。就逻辑回归而言,似然函数的最大化就是交叉熵的最小化。 Q2:最小二乘和极大似然。 最小二乘法的几何 ...

生成模型

面试前整理的一些自己不熟悉的知识点,好想拥有一个硬盘一样的脑袋,可以不忘掉的那种。 --> 生成模型是区别于判别模型而言的一种监督学习模型,它是一种概率模型,比如决策树、朴素贝叶斯、HMM、GMM、条件随机场等。 而非概率模型有感知机、支持向量机、kNN、AdaBoost、K-means、神经网络等。 EM 算法 EM 算法是一种迭代算法,用于含有隐变量的概 ...

聚类算法

面试前整理的一些自己不熟悉的知识点,好想拥有一个硬盘一样的脑袋,可以不忘掉的那种。 --> 基于距离 K-means 是基于距离的聚类方法的代表,这类方法的聚类结果都是球状的簇,当数据中存在非球状结构时,其效果并不好。 K-means 适用条件 但 K-means 算法简单有效,其适用条件为: 空间中存在距离度量 ``,且满 ...

集成学习

面试前整理的一些自己不熟悉的知识点,好想拥有一个硬盘一样的脑袋,可以不忘掉的那种。 --> Bagging 与 Boosting Bagging 方法 Bootstrap 采样生成相互独立的 k 个训练集 用这 k 个训练集训练 k 个模型 用这 k 个模型投票或平均的结果作为模型的输出 例如 Bagging + 决策树 = 随机 ...

正则化与优化算法

正则化的来源可以从两个角度考虑: 带约束条件的优化求解(拉格朗日乘子法) 贝叶斯学派的:最大后验概率 L1 正则可以通过假设权重 w 的先验为 Laplace 分布,由 MAP 导出。 L2 正则可以通过假设权重 w 的先验为 Gaussian 分布,由 MAP 导出。 总的来讲,L1 比 L2 更容易获得 sparse 的 w,L2 比 L1 更容易获得 smo ...