共计 737 个字符,预计需要花费 2 分钟才能阅读完成。
这篇“chatgpt 的算法原理是什么”文章的知识点大部分人都不太理解,所以丸趣 TV 小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“chatgpt 的算法原理是什么”文章吧。
InstructGPT 是基于 GPT- 3 模型训练出来的,具体步骤如下:
1、从 GPT- 3 的输入语句数据集中采样部分输入,基于这些输入,采用人工标注完成希望得到输出结果与行为,然后利用这些标注数据进行 GPT- 3 有监督的训练。该模型即作为指令式 GPT 的冷启动模型。
2、在采样的输入语句中,进行前向推理获得多个模型输出结果,通过人工标注进行这些输出结果的排序打标。最终这些标注数据用来训练 reward 反馈模型。
3、采样新的输入语句,policy 策略网络生成输出结果,然后通过 reward 反馈模型计算反馈,该反馈回过头来作用于 policy 策略网络。以此反复,这里就是标准的 reinforcement learning 强化学习的训练框架了。
所以总结起来 ChatGPT(对话 GPT)其实就是 InstructGPT(指令式 GPT)的同源模型,然后指令式 GPT 就是基于 GPT-3,先通过人工标注方式训练出强化学习的冷启动模型与 reward 反馈模型,最后通过强化学习的方式学习出对话友好型的 ChatGPT 模型。如下是论文中相应对话友好型的定量结果(其中 PPO-ptx 曲线就是 InstructGPT 模型),可以看到在回答友好型上 InstructGPT 是远超原始 GPT 的:
以上就是关于“chatgpt 的算法原理是什么”这篇文章的内容,相信大家都有了一定的了解,希望丸趣 TV 小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注丸趣 TV 行业资讯频道。