ChatGPT原理

　　OpenAI 于 2022 年 11 月 30 日推出了一款新的对话助手，它以其提供的令人难以置信的答案质量在互联网上引起了轰动。该聊天机器人基于语言模型（大型语言模型的 LLM）GPT-3，或者更准确地说，基于其版本 3.5。ChatGPT 取得令人难以置信的成功归功于它能够自动生成类似于人类的文本的能力，以及它能够在考虑对话上下文的同时避免其祖先的缺点的能力，

　　Chat GPT，或基于聊天的生成式预训练转换器模型，是一种人工智能，允许用户使用自然语言与虚拟助手进行交互。该技术基于 GPT-3 的原理，GPT-3 是流行的第三代生成式预训练变压器模型。ChatGPT 的关键功能之一是它能够根据用户的输入实时生成响应。

　　推荐：国内使用ChatGPT的方法

Chat GPT 背后的公司

　　ChatGPT 由总部位于旧金山的人工智能研究实验室 OpenAI 开发，该实验室由埃隆·马斯克（ Elon Musk）共同创立，能够理解自然的人类语言，并在收到提示后生成类似人类的深思熟虑的散文。

　　该组织于 2015 年由 Sam Altman、Elon Musk 等人在旧金山创立，他们共同认捐了 10 亿美元。2019年，OpenAI LP获得了微软10亿美元的投资。2020 年 6 月，OpenAI 发布了 GPT-3，这是一种对来自互联网的数万亿个单词进行训练的语言模型。它还宣布了一个相关的 API，简称为“API”，将成为其第一个商业产品的组成部分。

　　GPT-3 已经接受了来自 Common Crawl、WebText2、Books1/2 和 Wikipedia 的数千亿个英语单词的训练。它还接受了使用 CSS、JSX、Python 等编码的程序示例的培训。它接受 2048 个标记作为输入，这使其能够处理大约 1,500 个单词的非常大的句子（OpenAI 认为标记是单词的一部分大约四个字符，并以 1,000 个标记代表大约 750 个单词为例）。

　　GPT-3 被归类为生成模型，这意味着它主要接受训练以预测输入句子末尾的下一个标记，即下一个单词。现在在搜索引擎或 Outlook 中发现的一种自动完成机制。GPT-3 因其生成极其接近记者或作者能力的文本的能力而被多次引用。只需给它一个句子的开头，它就会逐字完成段落或文章的其余部分。通过扩展，该模型已经证明它能够处理大量的语言处理任务，例如翻译、回答问题和填充文本中缺失的单词。

　　GPT-3.5 是 GPT-3 模型的变体。在 2021 年第四季度之前，它已经使用选定的文本和代码的混合物进行了训练。这解释了为什么 ChatGPT 无法在该日期之后唤起事实。重要的是要考虑到 ChatGPT 与 GPT-3 不同，因为它遵循用户的指令，而不是简单地扩展用户的句子。例如，如果用户写“给我讲个故事”，它会按照说明操作，而不是“只是”延长句子。考虑到这种差异很重要，因为正是这种方法将塑造 ChatGPT 的工作方式。

　　推荐：如何使用ChatGPT写文章

ChatGPT 工作原理

　　ChatGPT 模型由 OpenAI 团队采用三步法进行训练：

　　1、收集演示数据并以监督模式训练生成规则（策略）。第一步对应于通过监督学习获得的 GPT-3.5 模型的微调。这种调整是使用问题/答案对完成的。问题由系统从问题数据库中自动提供，AI 培训师（标注员）负责回答问题。他们让培训师获得建议（来自模型）以帮助他们撰写答案。该团队选择的方法是有监督的 Fune-Tuning（或 SFT），它通过强制模型保持对输入和输出数据的拟合来改进网络。反向反向传播使用这些新数据调整模型的参数。

　　2、收集对比数据，训练奖励模型。第二步包括自动生成问题/答案对，并让 AI 培训师按照偏好对答案进行排序。系统生成两个答案，AI 培训师必须按质量降序排列。选择的方法是学习奖励模型（奖励模型的 RM），该模型根据生成的答案和 AI 培训师提供的命令工作。数据来自 AI 培训师与聊天机器人的对话。这些消息是随机选择的；他们抽取了几种可能的完成方式，并要求 AI 培训师对它们进行排名。

　　3、使用强化学习（RL）算法优化关于奖励模型的调节原则。第三步也是最后一步包括使用强化学习机制，通过小步骤，管理模型的规则和生成原则，称为近端策略优化（PPO）模型。模型的输入是来自数据库的问题。该模型生成由奖励模型评估的输出。将奖励注入生成规则管理模型以提高其性能。

　　OpenAI 没有解释机器人的对话部分是如何工作的。ChatGPT 可以使用自我提问的原则，即使用用户的问题生成一个自我问题，然后将其重新引入到模型中。该系统还可以使用“思维链”（CoT）原则，该原则对应于将问题演变为一系列允许回答复杂问题的推理步骤。重要的是要考虑问题的形式非常重要，尤其是使用自我提问机制。即使最初问题的微小变化也可能导致完全不同的答案。因此，如果您对答案不完全满意，请毫不犹豫地改写和修改最初的问题以获得更好的答案。

　　推荐：ChatGPT是如何训练的

Chat GPT 限制

　　与任何文本生成系统一样，ChatGPT 模型可以根据它从语言中保留的内容生成无意义的文本，但不理解其含义。正如 OpenAI 在其描述中所说，最难解决的问题是强化学习中没有真实来源，这导致没有加权。与任何训练系统相比，生成网络学习什么是好的答案（通过克隆行为）。不幸的是，模型没有学习到正确的答案，因此答案将取决于模型保留了什么。因此，它将无法呈现专家认为准确的内容。

即使问题是模棱两可的，它们也会提供答案，并且不会搜索对问题的更好理解（消歧）。
ChatGPT 鹦鹉学舌地支持现有内容，虽然它“听起来”很权威，但它可能是完全错误的。
AI 还不能分辨事实与虚构，而 ChatGPT 是根据已经存在两年的数据进行训练的。
ChatGPT 实际上会创建新文章、新闻项目或博客文章，甚至是学校论文，很难将它们与真实的、人工创作的文章区分开来，
ChatGPT 会让人们更容易不去思考，从而使情况变得更糟。
在共享内容时，所有用户都应该清楚地表明它是由人工智能生成的。

总结

　　以上是晓得博客为你介绍的ChatGPT原理的全部内容，ChatGPT 模拟真实对话的能力非凡。即使我们知道它是一台机器，一种算法，我们也只能陷入向它提出许多问题的游戏中，以至于机器因其超大的知识而显得神圣。但它仍然是一个句子生成器，没有像人类那样的理解和自我批评。ChatGPT 代表了最好的，即使它有时在答案上仍然是不完美的。

　　推荐：国内注册ChatGPT的方法(100%可用)