读AI相关文章,经常会出现监督学习、无监督学习、自监督学习、强化学习等概念,如何轻松理解?
今天读万维钢老师《AI专题:算力就是王道》,其中有一些解释如下:
监督学习(Supervised learning)
需要给训练数据打标签,让模型学习到“是非对错”。
应用示例:从分子式中判断哪个可能是新型抗生素。需要给模型提供已知的抗生素数据进行训练。
无监督学习(Unsupervised learning)
不需要给训练数据打标签,让模型自行发现数据中的模式。
应用示例:GPT语言模型通过学习大量语料的方式进行训练。
自监督学习(Self-supervised learning)
一种监督学习的变种,让模型通过与结果的对比自行生成标签。
应用示例:先让GPT根据文章上半部分预测下半部分,再与真实下半部分对比,从中学习文章的内在结构。
强化学习(Reinforcement learning)
通过奖惩机制进行训练,使得模型朝着设置的优化目标进化。
应用示例:下围棋、自动驾驶等都属于强化学习。
监督学习/自监督学习:作用是「判断」,追求的是「是不是」
无监督学习:作用是「生成」,追求的是「像不像」
强化学习:作用是「控制」,追求的是「好不好」