清华人工智能报告第一期五大维度
用什么中药治疗白癜风 https://m-mip.39.net/nk/mipso_4447698.html机器学习已经成为了当今的热门话题,但是从机器学习这个概念诞生到机器学习技术的普遍应用经过了漫长的过程。在机器学习发展的历史长河中,众多优秀的学者为推动机器学习的发展做出了巨大的贡献。从年Pascal发明的手摇式计算机,到年DonaldHebb提出的赫布理论——解释学习过程中大脑神经元所发生的变化,都蕴含着机器学习思想的萌芽。事实上,年图灵在关于图灵测试的文章中就已提及机器学习的概念。到了年,IBM的亚瑟·塞缪尔(ArthurSamuel,被誉为“机器学习之父”)设计了一款可以学习的西洋跳棋程序。塞缪尔和这个程序进行多场对弈后发现,随着时间的推移,程序的棋艺变得越来越好。塞缪尔用这个程序推翻了以往“机器无法超越人类,不能像人一样写代码和学习”这一传统认识。并在6年正式提出了“机器学习”这一概念。本期的智能内参,我们推荐清华人工智能研究院的研究报告《人工智能之机器学习》,从机器学习的发展史、技术特点、人才概况、行业应用和未来趋势五大维度剖析机器学习技术。
上一篇文章: 注意职业癌症的诊断并不依赖于工作场所检 下一篇文章: 央视新闻报道每天每分钟6人被诊断为癌症,
本期内参来源:清华人工智能研究院
原标题:
《人工智能之机器学习》
作者:未注明
什么是机器学习?对机器学习的认识可以从多个方面进行,有着“全球机器学习教父”之称的TomMitchell则将机器学习定义为:对于某类任务T和性能度量P,如果计算机程序在T上以P衡量的性能随着经验E而自我完善,就称这个计算机程序从经验E学习。普遍认为,机器学习(MachineLearning,常简称为ML)的处理系统和算法是主要通过找出数据里隐藏的模式进而做出预测的识别模式,它是人工智能(ArtificialIntelligence,常简称为AI)的一个重要子领域。从机器学习发展的过程上来说,其发展的时间轴如下所示:▲机器学习发展历程机器学习算法可以按照不同的标准来进行分类。比如按函数f(x,θ)的不同,机器学习算法可以分为线性模型和非线性模型;按照学习准则的不同,机器学习算法也可以分为统计方法和非统计方法。但一般来说,我们会按照训练样本提供的信息以及反馈方式的不同,将机器学习算法分为监督学习、无监督学习和强化学习。▲机器学习分类年机器学习作为一支独立的力量登上了历史舞台。在这之后的10年里出现了一些重要的方法和理论,典型的代表是:分类与回归树(CART,)、反向传播算()、卷积神经网络()。从到01年,机器学习逐渐走向成熟和应用,在这0多年里机器学习的理论和方法得到了完善和充实,可谓是百花齐放的年代。代表性的重要成果有:支持向量机(SVM,)、AdaBoost算法()、循环神经网络和LSTM()、流形学习()、随机森林()。机器学习代表算法包括:线性回归;分类与回归树(CART);随机森林(RandomForest);逻辑回归;朴素贝叶斯(NaiveBayesian);k最近邻(kNN);AdaBoost;K-均值算法(K-Means);支持向量机(SVM);人工神经网络ANN(ArtificialNeuralNetwork);1、生成对抗网络及对抗机器学习生成对抗网络(GenerativeAdversarialNetworks,GAN)是用于无监督学习的机器学习模型,由IanGoodfellow等人在年提出,由神经网络构成判别器和生成器构成,通过一种互相竞争的机制组成的一种学习框架,GAN在深度学习领域掀起了一场革命。传统的生成模型最早要追溯到80年代的RBM,以及后来逐渐使用深度神经网络进行包装的AutoEncoder,然后就是现在称得上最火的生成模型GAN。▲GAN发展脉络对抗机器学习是一个机器学习与计算机安全的交叉领域。对抗机器学习旨在给恶意环境下的机器学习技术提供安全保障。由于机器学习技术一般研究的是同一个或较为稳定的数据分布,当部署到现实中的时候,由于恶意用户的存在,这种假设并不一定成立。比如研究人员发现,一些精心设计的对抗样本(adversarialexample)可以使机器学习模型失败输出正确的结果。针对模型的攻击问题,我们主要分为两大类,就是从训练阶段和推理(inference)阶段来进行讨论。训练阶段的攻击。训练阶段的恶意攻击(TraininginAdversarialSettings),主要的目的就是针对模型的参数进行微小的扰动,从让而模型的性能和预期产生偏差。这样的行为主要是通过数据投毒来完成的。推理阶段的攻击(InferenceinAdversarialSettings)。当训练完成一个模型之后,这个模型就可以看做一个BOX,那么这个盒子中,对于我们如果是透明的话,我们就把它当成是“白盒”模型,如果这个盒子中,我们什么都看不了,我们就把它当成“黑盒”模型。(我们在这个部分不讨论灰盒模型)那么针对白盒和黑盒的进攻手段自然是不同的,但是最终的目的都是希望能对模型的最终结果产生破坏,与预期脱离。其影响力以及攻击的构造粒度也是有所不同的。、自动机器学习自动机器学习(AutoML)旨在通过让一些通用步骤(如数据预处理、模型选择和调整超参数)自动化,来简化机器学习中生成模型的过程。AutoML是指尽量不通过人来设定超参数,而是使用某种学习机制,来调节这些超参数。这些学习机制包括传统的贝叶斯优化,多臂老虎机(multi-armedbandit),进化算法,还有比较新的强化学习。自动机器学习不光包括大家熟知的算法选择,超参数优化,和神经网络架构搜索,还覆盖机器学习工作流的每一步。自动机器学习的用处就在于此,它帮助研究人员和从业者,自动构建机器学习管道,将多个步骤及其对应的多个选项集成为工作流,以期快速找到针对给定问题的高性能机器学习模型。AutoML的基本过程如下图所示:虚框是配置空间,包括特征、超参数和架构;左边训练数据进入,上面的优化器和它相连,定义的测度发现最佳配置,最后出来的是模型;测试数据在模型中运行,实现预测的目的。▲AutoML基本过程近日,在ACMCHI计算系统中人的因素会议上,麻省理工学院,香港科技大学和浙江大学的研究人员共同研发出一种工具,将AutoML方法的分析和控制权给到用户手中。该工具名为ATMSeer,它将AutoML系统、数据集和有关用户任务的一些信息作为输入,然后在用户友好型的界面内实现可视化搜索过程,界面中还能提供更多关于模型性能的信息。▲ATMSeer自动机器学习定制化工具的用户友好型交互界面上图是ATMSeer生成的一个用户友好界面,显示有关所选模型性能的深入信息,以及可调整的算法和参数的选项。对没有AutoML经验的机器学习专家的案例研究表明,让用户掌握控制权确实有助于提高AutoML应用的性能和效率。对生物学、金融等不同科学领域的13位研究生的研究也表明,确定用户对AutoML的搜索的自定义关键有三点:搜索的算法数量、系统运行时间以及查找表现最好的模型。研究人员表示,这些信息可用来为用户量身定制系统。3、可解释性机器学习可解释性是指人类能够理解决策原因的程度。机器学习模型的可解释性越高,人们就越容易理解为什么做出某些决定或预测。模型可解释性指对模型内部机制的理解以及对模型结果的理解。其重要性体现在:建模阶段,辅助开发人员理解模型,进行模型的对比选择,必要时优化调整模型;在投入运行阶段,向业务方解释模型的内部机制,对模型结果进行解释。比如基金推荐模型,需要解释:为何为这个用户推荐某支基金。机器学习流程步骤:收集数据、清洗数据、训练模型、基于验证或测试错误或其他评价指标选择最好的模型。第一步,选择比较小的错误率和比较高的准确率的高精度的模型。第二步,面临准确率和模型复杂度之间的权衡,但一个模型越复杂就越难以解释。一个简单的线性回归非常好解释,因为它只考虑了自变量与因变量之间的线性相关关系,但是也正因为如此,它无法处理更复杂的关系,模型在测试集上的预测精度也更有可能比较低。而深度神经网络处于另一个极端,因为它们能够在多个层次进行抽象推断,所以他们可以处理因变量与自变量之间非常复杂的关系,并且达到非常高的精度。但是这种复杂性也使模型成为黑箱,我们无法获知所有产生模型预测结果的这些特征之间的关系,所以我们只能用准确率、错误率这样的评价标准来代替,来评估模型的可信性。事实上,每个分类问题的机器学习流程中都应该包括模型理解和模型解释。4、在线学习传统的机器学习算法是批量模式的,假设所有的训练数据预先给定,通过最小化定义在所有训练数据上的经验误差得到分类器。这种学习方法在小规模规模上取得了巨大成功,但当数据规模大时,其计算复杂度高、响应慢,无法用于实时性要求高的应用。与批量学习不同,在线学习假设训练数据持续到来,通常利用一个训练样本更新当前的模型,大大降低了学习算法的空间复杂度和时间复杂度,实时性强。在大数据时代,大数据高速增长的特点为机器学习带来了严峻的挑战,在线学习可以有效地解决该问题,引起了学术界和工业界的广泛转载请注明:http://www.makingchance.com/lcbx/4401.html