当前位置: 首页>编程语言>正文

R语言mlr3包系列1——机器学习概述

说在前面的话

最近学习了一些关于机器学习的知识,而现在作为目前R语言最火的mlr3包已经成为代替python做机器学习的工具,所以从该篇文章开始,我开始记录自己学习mlr3的过程,同时也进行归纳与总结。在原理上我会用通俗易懂的语言让大家理解,只要大家有R语言的基础,其他原理方面、统计知识方面等都能保证大家听懂,如果大家有有新的想法和思路或者有什么不懂的问题,望大家与我多联系多沟通,互相学习。

什么是机器学习?

在正式开始讲解mlr3前,我们要先知道什么是机器学习。首先机器学习属于目前很火的人工智能(AI)的一个组成部分,而随着chatGPT的出世以来被大家所知的深度学习则属于机器学习的一部分,它是从机器学习神经网络算法分支演变而成的结果。

R语言mlr3包系列1——机器学习概述,第1张

事实上,机器学习算法其实就是初高中大家用到的函数解析式。拿初高中数学举例,已知x1=1、y1=1,x2=2、y2=2,x3=3、y3=3,求得方程式为y=x,这个y=x,或者说高中用的f(x),就是机器学习算法,只不过机器学习算法要比我们知道的y=x要复杂很多。

机器学习总共分为三大类:有监督学习、无监督学习和强化学习。在日常使用中,我们使用更多的是前两者。有监督学习算法是你使用的数据里需要包括x与y,而无监督学习算法则是使用的数据中只含x即可。所以归根到底,有监督学习和无监督学习的区别就在于有无因变量。这里对大家进行相关术语的规范:数学中所谓自变量称为特征,所谓的因变量称为目标,这里大家要用明确的概念。通常来说,有监督学习适用于分类回归问题;无监督学习适用于聚类降维问题。具体的内容后面再给大家讲算法时会仔细讲解。

有监督学习

特征1 特征2 目标

有监督学习需要的数据类型如上表所示。特征与目标的数据类型可以为很多类型:数值型、类别型。若目标为数值型,则为回归模型;若目标为类别型,则为分类模型(这里的可以简单理解为:回归模型类似于已知y和x求f(x)的过程;分类模型则顾名思义)。

无监督学习

该算法需要的数据类型则为上述表去掉目标,仅保留特征。实际上,无监督学习本质上是一个统计手段,在没有目标的数据里可以发现潜在的一些结构的一种训练方式。这种方式显而易见的特点就是没有明确的目的,不知道会生成什么样的东西。

使用的数据集

数据可分为结构化数据非结构化数据
结构化数据是可以用date.frame()的数据;非结构化数据相反,例如图片、文本、语音等。
机器学习通常处理的是结构化数据,而非结构化数据,通常需要深度学习才能处理。

数据集划分

分为测试集和非测试集。

  1. 非测试集:训练模型用的数据,用的时候需要再划分为:
    ● 训练集:用来训练模型参数的数据集,模型直接根据训练集来调整模型参数以获得更好的预测效果。
    ● 验证集:用于在训练过程中检验模型的性能;
  2. 测试集:测试模型用的数据,用来评价模型的泛化能力,即是否适应所有模型的能力

以上便是我对机器学习算法的概述以及所使用数据的展示情况,有了这些基础知识我们才能获得进阶的一些基础知识,为后续的机器学习算法的讲解做铺垫。当然可能会将这些进阶的基础知识与算法融合进行讲解,视具体情况而定。希望大家能持续关注该系列,教你学会mlr3并熟练进行机器学习!


https://www.xamrdz.com/lan/5c81848848.html

相关文章: