am928 发表于 2025-4-1 14:44:58

机器学习:定义、原理、挑战局限、前沿及应用要点概述

在搜索时输入“什么是机器学习?”,由此打开了一个潘多拉的论坛。学术研究以及本文的目的在于简化机器学习的定义和理解。

我们不仅要明确机器学习(ML)的工作定义,还打算简略地阐述机器学习的基本原理,说明让机器“思考”所面临的挑战和存在的局限性,以及当今深入研究解决的一些问题(机器学习的“前沿”),同时也要提及开发机器学习应用程序的关键要点。

本文将分为以下几个部分:

什么是机器学习?我们怎样达到专家研究人员所定义的机器学习基本概念?ML 模型的视觉表示是怎样的?我们如何让机器学习?ML 的挑战和局限有哪些?深度学习的简介是什么?

机器学习是一门让计算机能够像人类那样学习和行动的科学。它通过以观察以及与现实世界互动的形式,向计算机提供数据和信息,从而让计算机以自主的方式改善自身的学习。

上述定义涵盖了机器学习的理想目标或终极目标,这正如该领域的诸多研究人员所表述的那样。本文的目的在于为具有商业头脑的读者提供关于如何界定机器学习及其工作原理的专家见解。机器学习与人工智能在许多人的观念中有着相同的定义,但读者也应当认识到一些显著的差别。 本文末尾包含参考文献和相关研究人员的访谈,以便进一步挖掘。

我们怎样到达我们的定义呢:如同任何概念那样,机器学习的定义或许会稍有不同,这要依据你的要求而定。我们对互联网进行梳理,从信誉良好的资源里找到五个实用的定义:“最基础的机器学习是运用算法来解析数据,从数据中进行学习,接着对世界上的某件事做出决定或进行预测的行为。”“机器学习是让计算机在未进行明确编程的情况下采取行动的科学。”华盛顿大学的机器学习领域旨在回答:我们如何建立能根据经验自动改进的计算机系统,以及管理所有学习过程的基本法则是什么?“ - 卡内基梅隆大学机器学习的基本概念

有许多不同类型的机器学习算法,每天会发布数百种。这些算法通常会按照学习风格来划分,比如监督学习、无监督学习、半监督学习等;也会通过形式或功能的相似性来分类,像分类、回归、决策树、聚类、深度学习等。不管是哪种学习风格或功能,机器学习算法的所有组合都包含以下这些内容。

图片来源:华盛顿大学Pedro 博士

机器学习算法的基本目标在于概括超出训练样本的内容,也就是说要成功地解释那些之前从未“见过”的数据。

机器学习模型的可视化表示

目前,概念和要点仅能用于理解。人们问“什么是机器学习?”时,常常想知晓它是什么以及它的作用。这里有一些机器学习模型的可视化表示,还有附带的链接可获取更多信息。更多资源可在本文底部找到。

决策树模型

高斯混合模型

神经网络

https://img2.baidu.com/it/u=41669191,1341701249&fm=253&fmt=JPEG&app=138&f=JPEG?w=800&h=1067

使用卷积神经网络合并色度和亮度

我们如何让机器学习

机器学习有许多不同的方法,包括使用基本决策树、进行聚类以及使用人工神经网络层(目前后者已让位于深度学习)。这取决于要完成的任务类型以及可用的数据量。这种动态在各种应用中发挥着作用,例如医疗诊断和自动驾驶汽车。

重点通常聚焦在选择最佳学习算法方面。然而,研究人员察觉到,一些最为有趣的问题是由可用的机器学习算法所引发的。在大多数情形下,这是训练数据方面的问题。并且,在新的领域中运用机器学习时,也会出现这种情况。

处理实际应用程序时所进行的研究通常能推动该领域的进展。原因有二:其一,有发现现有方法界限和局限性的趋势;其二,研究人员和开发人员会与领域专家合作,借助时间和专业知识来提升系统性能。

有时这种情况是由“意外”引发的。我们或许会考虑采用模型集合或者许多学习算法的组合,以此来提升准确性,这就是一个例子。2009 年,Price 的团队发现,将学习者与其他团队的学习者进行结合时,他们能够取得最佳成绩,进而改进了推荐算法。

在业务和其他领域的应用方面,基于对该领域专家的访谈和对话,有一个重要观点。这个观点是,机器学习不仅仅是自动化,甚至超越了自动化,而这是一个经常被误解的概念。如果你持有这样的想法,那么你一定会错过机器能够提供的宝贵见解以及由此产生的机会,比如在制造业和农业等行业中重新思考整个商业模式。

学习的机器对人类是有用的。因为它们具备所有的处理能力,所以能够更快速地突出显示或者找到人类可能会错过的大(或者其他)数据中的模式。机器学习是一种工具,它可以用来增强人类解决问题的能力,并且能够从广泛的问题中做出明智的推断,从帮助诊断疾病到提出全球气候变化的解决方案。

挑战与极限

机器学习不能凭空创造。它的作用在于能够从相对较少的内容里获取更多的信息。

https://img1.baidu.com/it/u=2029048038,1970930878&fm=253&fmt=JPEG&app=138&f=JPEG?w=500&h=655

机器学习中有两个重要且持续的问题。其一涉及过度拟合,即模型对训练数据存在偏见,无法推广到新数据和/或变化,也就是在训练新数据时会学习到随机事物;其二涉及维度,具有更多特征的算法在更高或更多维度上工作,这会使理解数据变得更加困难。在某些情况下,获取足够大的数据集也是一个主要问题。

机器学习初学者常见错误之一是成功测试了训练数据且有成功假象;强调在测试模型时要将一些数据集分开,仅用保留数据来测试所选模型,然后学习整个数据集。

当学习算法(也就是学习者)不起作用时,通常更快获得成功的办法是给机器提供更多数据。这种数据的可用性如今已成为近期机器和深度学习算法进步的主要推动因素。然而,这可能会引发可扩展性问题,虽然我们有了更多的数据,但花费时间去了解这些数据依然是个问题。

深度学习与神经网络的现代发展

深度学习涉及对机器算法的研究与设计,目的是在多个抽象级别(即安排计算机系统的方式)上学习数据的良好表示。最近,通过某些机构以及其他机构对深度学习的宣传,凸显了它作为机器学习的“下一个前沿”。

国际机器学习大会(ICML)被广泛视作世界上极为重要的机会之一。他们专注于应对当下深度学习所面临的挑战:

小数据集里的无监督学习,这种学习是基于模拟的,并且具有对现实世界的可转移性。

深度学习系统在过去十年里,在诸如对象检测与识别、文本到语音、信息检索等领域都取得了极大的进步。研究当下专注于开发数据高效的机器学习,也就是能够在更少的时间和更少的数据中以更高效率进行学习的深度学习系统。在个性化医疗保健、机器人强化学习、情感分析等前沿领域,也有相关的研究。

应用机器学习的关键要点

以下是一系列应用机器学习的最佳实践和概念,我们从对播客系列的采访以及本文末尾引用的选择来源中进行了整理。我们希望这些原则中的部分内容能够阐明如何使用 ML,并且能够帮助公司和研究人员在启动 ML 相关项目时避免一些常见的陷阱。
页: [1]
查看完整版本: 机器学习:定义、原理、挑战局限、前沿及应用要点概述