ChatGPT技术报告

ChatGPT是一个由OpenAI开发的大型语言模型,是GPT(Generative Pretrained Transformer)系列模型的一部分。它使用了 Transformer 架构,并在大量的文本数据上进行了预训练。预训练的目的是使模型能够从大量的文本中学习语言知识和模式,从而在接下来的任务中更好地进行语言生成。

ChatGPT 的应用领域广泛,包括聊天机器人,问答系统,文本生成,语音识别等。在聊天机器人领域,ChatGPT可以提供人类般的自然语言回答,并且在语法和语义方面的表现十分出色。

GPT发展历程
Generative Pre-trained Transformer (GPT),是一种基于互联网可用数据训练的文本生成深度学习模型。它用于问答、文本摘要生成、机器翻译、分类、代码生成和对话 AI。

1.GPT-1

2018 年,GPT-1 诞生,这一年也是 NLP(自然语言处理)的预训练模型元年。性能方面,GPT-1 有着一定的泛化能力,能够用于和监督任务无关的 NLP 任务中。其常用任务包括:

自然语言推理:判断两个句子的关系(包含、矛盾、中立)
问答与常识推理:输入文章及若干答案,输出答案的准确率
语义相似度识别:判断两个句子语义是否相关
分类:判断输入文本是指定的哪个类别
虽然 GPT-1 在未经调试的任务上有一些效果,但其泛化能力远低于经过微调的有监督任务,因此 GPT-1 只能算得上一个还算不错的语言理解工具而非对话式 AI。

2.GPT-2

GPT-2 也于 2019 年如期而至,不过,GPT-2 并没有对原有的网络进行过多的结构创新与设计,只使用了更多的网络参数与更大的数据集:最大模型共计 48 层,参数量达 15 亿,学习目标则使用无监督预训练模型做有监督任务。在性能方面,除了理解能力外,GPT-2 在生成方面第一次表现出了强大的天赋:阅读摘要、聊天、续写、编故事,甚至生成假新闻、钓鱼邮件或在网上进行角色扮演通通不在话下。在“变得更大”之后,GPT-2 的确展现出了普适而强大的能力,并在多个特定的语言建模任务上实现了彼时的最佳性能。

3.GPT-3

之后,GPT-3 出现了,作为一个无监督模型,几乎可以完成自然语言处理的绝大部分任务,例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等等。而且,该模型在诸多任务上表现卓越,例如在法语-英语和德语-英语机器翻译任务上达到当前最佳水平,自动产生的文章几乎让人无法辨别出自人还是机器,更令人惊讶的是在两位数的加减运算任务上达到几乎 100% 的正确率,甚至还可以依据任务描述自动生成代码。一个无监督模型功能多效果好,似乎让人们看到了通用人工智能的希望,这就是 GPT-3 影响如此之大的主要原因。

 

由于 GPT-3 更强的性能和明显更多的参数,它包含了更多的主题文本,显然优于前代的 GPT-2 。作为目前最大的密集型神经网络,GPT-3 能够将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本,甚至模仿已故的各位哲学家——预测生命的真谛。且 GPT-3 不需要微调,在处理语法难题方面,它只需要一些输出类型的样本(少量学习)。可以说 GPT-3 似乎已经满足了我们对于语言专家的一切想象。

 

ChatGPT“前身”InstructGPT
InstructGPT 的工作原理是开发人员通过结合监督学习+从人类反馈中获得的强化学习。来提高 GPT-3 的输出质量。在这种学习中,人类对模型的潜在输出进行排序;强化学习算法则对产生类似于高级输出材料的模型进行奖励。开发人员将提示分为三个部分,并以不同的方式为每个部分创建响应:人类作家会对第一组提示做出响应。开发人员微调了一个经过训练的 GPT-3 ,将它变成 InstructGPT 以生成每个提示的现有响应。

下一步是训练一个模型,使其对更好的响应做出更高的奖励。对于第二组提示,经过优化的模型会生成多个响应。人工评分者会对每个回复进行排名。在给出一个提示和两个响应后,一个奖励模型(另一个预先训练的 GPT-3)学会了为评分高的响应计算更高的奖励,为评分低的回答计算更低的奖励。

开发人员使用第三组提示和强化学习方法近端策略优化(Proximal Policy Optimization, PPO)进一步微调了语言模型。给出提示后,语言模型会生成响应,而奖励模型会给予相应奖励。PPO 使用奖励来更新语言模型。

二、ChatGPT的技术原理

总体来说,Chatgpt 和 InstructGPT 一样,是使用 RLHF(从人类反馈中强化学习)训练的。不同之处在于数据是如何设置用于训练(以及收集)的。

ChatGPT是一个大型语言模型,由OpenAI训练,具有高效的语言处理能力。它的底层原理主要包括三个方面:Transformer架构、自注意力机制和预训练。

Transformer架构:Transformer是一种用于处理序列数据(如文本)的神经网络架构,是在自注意力机制的基础上构建的。编码器和解码器是它的两个主要组成部分,分别用于处理输入数据和生成输出数据。
自注意力机制:自注意力机制是Transformer架构的核心,它通过编码输入单元并计算每个输入单元与每个输出单元的相关性,来实现对输入数据的分析。
预训练:预训练是一个在大量文本数据上训练语言模型的过程。通过预测文本中下一个词语的概率,模型学习语言的语法、语义和模式。预训练后的模型可以在新的数据上获得更好的表现。
ChatGPT的训练过程分为以下三个阶段:

第一阶段:训练监督策略模型

GPT3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调GPT-3.5模型(获得SFT模型,Supervised Fine-Tuning) 。此时的SFT模型在遵循指令/对话方面已经优于GPT-3,但不一定符合人类偏好。

第二阶段:训练奖励模型(Reward Mode,RM)

这个阶段的主要是通过人工标注训练数据(约33K个数据),来训练回报模型。在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。

接下来,使用这个排序结果数据来训练奖励模型。对多个排序结果,两两组合,形成多个训练数据对RM模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。

第三阶段:采用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略。

PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习,这个转化过程被称之为lmportance Sampling。这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。

 

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/263247.html<

(0)
运维的头像运维
上一篇2025-05-04 11:43
下一篇 2025-05-04 11:44

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注