人工智能算法大致可分作监督学习、无监督学习与强化学习 。其中,监督学习通过不断训练程序(模型)从人类已有经验中学习规律 。在这一类机器学习中,研究人员会通过标记数据的方法,不断调整模型参数以达到学习目的 。类似于父母会向孩子展示不同颜色、大小乃至种类的苹果,教会孩子认识“未曾见过”的苹果 。这便是监督学习的目的:样本外预测 。
无监督学习则通过训练程序,使机器能直接从已有数据中提取特征 , 对信息进行压缩,用于完成其他任务 。如传统的主成分分析,可以将高维特征使用低维度向量近似 。例如,我们可以使用主成分分析技术压缩图片,以达到节省储存空间的作用 。因此,这类机器学习算法并不需要以往经验 , 也被称之为无监督学习 。
当然,无监督学习与监督学习之间并不是彼此对立的关系,对于存在部分标注的数据 , 我们也可以使用半监督学习算法 。比如最近比较流行的对抗神经网络——我们可以使用该算法学习一系列甲骨文后,令它生成多个足以以假乱真、却从不代表任何意义的“甲骨文” , 相当于计算程序“照虎画虎”却不知为虎 。
【什么是算法什么是人工智能算法 什么是人工智能算法】
此外,强化学习与以上(无、半)监督学习算法不同,强化学习是动态优化的延伸,而(无、半)监督学习则与统计学更为接近 。强化学习通过使智能程序不断地与环境交互,通过调整智能程序的决策参数(过程)达到最大化其累积收益的目的 。强化学习是最接近于人类决策过程的机器学习算法,类似于让一个智能体无限、快速地感知世界,并通过自身失败或者成功的经验,优化自身的决策过程 , 在这一过程中计算机程式并不那么需要老师 。当然,强化学习也并不能完全同监督学习割裂开来 。比如AlphaGo就是通过强化学习手段所训练的计算程序,但在AlphaGo训练的第一阶段,研究人员使用了大量的人类玩家棋谱供AlphaGo模仿学习,这里人类已有经验类似于老师;但是在AlphaGo的升级版本ZeroGo中,模仿学习已经完全被摒弃 。