1. 首页
  2. 技术文章

10大机器学习算法(2021)

在几乎所有手动任务都被自动化的世界中,手动的定义正在发生变化。机器学习算法可以帮助计算机下棋,进行手术并变得更聪明,更个性化。

10大机器学习算法

我们生活在技术不断进步的时代,看看这些年来计算机的发展如何,我们可以预测未来的发展。

毫无疑问,在过去的几年中,机器学习/人工智能的子领域越来越受欢迎。由于大数据是当前技术行业中最热门的趋势,因此机器学习具有强大的功能,可以基于大量数据进行预测或计算得出的建议。机器学习的最常见示例是Netflix的算法,该算法根据您过去看过的电影提出电影建议,或者Amazon的算法根据您以前购买的书来推荐书籍。

这场革命的主要特征之一就是计算工具和技术如何实现民主化。在过去的五年中,数据科学家通过无缝地执行高级技术来构建复杂的数据处理机器。结果令人震惊。在本文中,我们将详细介绍以下算法:

  1. 线性回归
  2. 逻辑回归
  3. 决策树
  4. 支持向量机算法
  5. 朴素贝叶斯算法
  6. KNN算法
  7. K均值
  8. 随机森林算法
  9. 降维算法
  10. 梯度提升算法和AdaBoosting算法
10大机器学习算法

什么是算法?

算法是任何形式的自动化指令。大多数算法比大多数人想象的要简单。有时,如果→then语句,它们可以是单个。如果按下此按钮,请执行该操作。

一个算法可以是一系列简单的if→then语句,也可以是一系列更复杂的数学方程式。算法的复杂性将取决于它需要执行的每个步骤的复杂性,并取决于算法需要执行的步骤的数量。

学习这些重要算法如何增强您的机器学习技能

如果您是数据科学家或机器学习爱好者,则可以使用这些技术来创建实用的机器学习项目。

机器学习算法有三种类型,即-监督学习,无监督学习和强化学习。在以下10种常见机器学习算法列表中使用了这三种技术: 

机器学习算法

1.线性回归

要了解此算法的工作功能,请想象一下如何按照木材重量的增加顺序排列随机的原木。有一个陷阱。但是–您无法权衡每个日志。您仅通过查看原木的高度和周长(视觉分析)就可以猜测其重量,并结合使用这些可见参数进行排列。这就是机器学习中的线性回归。

在此过程中,通过将自变量和因变量拟合到一条直线上来建立它们之间的关系。该线称为回归线,由线性方程Y = a * X + b表示。

在此等式中:

  • Y –因变量
  • a –坡度
  • X –自变量
  • b –拦截

通过最小化数据点和回归线之间的距离的平方差之和得出系数a和b。

2. Logistic回归

Logistic回归用于从一组独立变量中估计离散值(通常为0/1等二进制值)。它通过将数据拟合到logit函数来帮助预测事件的可能性。这也称为logit回归。

以下列出的这些方法通常用于帮助改进逻辑回归模型:

  • 包括互动条款
  • 消除功能
  • 正则化技术
  • 使用非线性模型

3.决策树

机器学习中的决策树算法是当今使用最广泛的算法之一。这是一种用于分类问题的监督学习算法。对于分类因变量和连续因变量,它都能很好地进行分类。在此算法中,我们根据最重要的属性/自变量将总体分为两个或更多的同类集。

4. SVM(支持向量机)算法

SVM算法是分类算法的一种方法,在该方法中,您将原始数据绘制为n维空间(其中n是您拥有的要素数)中的点。然后,将每个要素的值绑定到特定的坐标,从而轻松地对数据进行分类。称为分类器的线可用于拆分数据并将其绘制在图形上。

5.朴素贝叶斯算法

朴素贝叶斯分类器假定类中某个特定功能的存在与任何其他功能的存在无关。

即使这些功能相互关联,在计算特定结果的概率时,朴素贝叶斯分类器也会独立考虑所有这些属性。

朴素贝叶斯模型易于构建,对大量数据集很有用。它很简单,并且表现出色,甚至胜过非常复杂的分类方法。

6. KNN(K最近邻)算法

该算法可以应用于分类和回归问题。显然,在数据科学行业中,它被广泛用于解决分类问题。这是一种简单的算法,可以存储所有可用案例,并通过对其k个邻居的多数表决对任何新案例进行分类。然后,将案例分配给与其最共有的类。距离功能执行此测量。

通过将KNN与现实生活进行比较,可以轻松理解KNN。例如,如果您想要有关某个人的信息,那么与他或她的朋友和同事交谈是很有意义的!

选择K最近邻居算法之前要考虑的事项: 

  • KNN在计算上很昂贵
  • 变量应归一化,否则较大范围的变量可能会使算法产生偏差
  • 数据仍然需要进行预处理。

7. K-均值

它是一种无监督的学习算法,可以解决聚类问题。数据集被分类为特定数量的集群(我们称其为数字K),以使集群中的所有数据点与其他集群中的数据同质和异质。

K-均值如何形成聚类:

  • K均值算法为每个聚类选择k个点,称为质心。
  • 每个数据点形成一个具有最接近质心的聚类,即K个聚类。
  • 现在,它将基于现有集群成员创建新的质心。
  • 使用这些新质心,可以确定每个数据点的最近距离。重复此过程,直到质心不变。

8.随机森林算法

决策树的集合称为随机森林。为了基于新对象的属性对新对象进行分类,每棵树都要进行分类,并且该树会对该类“投票”。森林选择投票最多的类别(在森林中的所有树木上)。

每棵树的种植和生长如下:

  • 如果训练集中的案例数为N,则随机抽取N个案例的样本。该样本将成为树木生长的训练集。
  • 如果有M个输入变量,则指定数字m << M,以便在每个节点上从M中随机选择m个变量,并使用对该m的最佳拆分来拆分该节点。在此过程中,m的值保持恒定。
  • 每棵树都生长到最大程度。没有修剪。 

9.降维算法

在当今世界,公司,政府机构和研究组织正在存储和分析大量数据。作为数据科学家,您知道这些原始数据包含许多信息-挑战在于识别重要的模式和变量。

降维算法(例如决策树,因子分析,缺失值比率和随机森林)可以帮助您找到相关的详细信息。

10.梯度提升算法和AdaBoosting算法

这些是需要处理大量数据以进行高精度预测时使用的增强算法。Boosting是一种集成学习算法,结合了多个基本估计量的预测能力来提高稳健性。

简而言之,它结合了多个弱或平均预测变量以构建强预测变量。这些增强算法在像Kaggle,AV Hackathon,CrowdAnalytix之类的数据科学竞赛中始终能很好地发挥作用。这些是当今最优选的机器学习算法。将它们与Python和R代码一起使用,可获得准确的结果。

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ1841324605,本站将立刻清除。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

服务热线:130-0886-1890

QR code