ChatGPT - 维基百科，自由的百科全书

训练
ChatGPT 使用监督学习和强化学习在 GPT-3.5 之上进行了微调。[8]

ChatGPT使用基于人类反馈的强化学习进行训练，这种方法通过人类干预以增强机器学习的效果，从而获得更为逼真的结果。[9]其使用基于GPT-3.5架构的语言模型。 [10]在训练过程中，人类训练师扮演着用户与人工智能助手的角色。模型在Microsoft Azure的超级计算机上训练，并通过近端策略优化算法（proximal policy optimization）进行微调。[11]这种策略优化算法比信任域策略优化（trust region policy optimization）算法更为高效。[12]

特点和局限
虽然聊天机器人的核心功能是模仿人类对话者，但ChatGPT用途广泛。 例如，具有编写和调试计算机程序的能力；[2] 创作音乐、电视剧、童话故事和学生论文； 回答测试问题（在某些测试情境下，水平高于普通人类测试者）；写诗和歌词；模拟Linux系统等。[13]

与其前身InstructGPT相比，ChatGPT试图减少有害和误导性的回复。例如，当InstructGPT接受“告诉我2015年克里斯托弗·哥伦布何时来到美国”的提问时，它会认为这是对真实事件的描述，而ChatGPT针对同一问题则会使用其对哥伦布航行的知识和对现代世界的理解来构建一个答案，假设如果哥伦布在2015年来到美国时可能会发生什么。[11]ChatGPT的训练数据包括各种文档以及关于互联网、编程语言等各类知识。[13]

与其他多数聊天机器人不同的是，ChatGPT能够记住与用户之前的对话内容和给它的提示。[14]此外，为了防止ChatGPT接受或生成冒犯性言论，输入内容会由审核API进行过滤，以减少潜在的种族主义或性别歧视等内容。[11][14]目前，有部分地区无法使用此项服务。

ChatGPT也存在一些局限。其奖励模型围绕人类监督而设计，可能导致过度优化，从而影响性能，即古德哈特定律。[15]例如在训练过程中，不管实际理解或事实内容如何，审核者都会偏好更长的答案。[11]训练数据有时也存在算法偏见，比如当程序接受到首席执行官之类的模糊描述时可能会假设此人是白人男性。[16]

服务

OpenAI的总部位于旧金山的先驱大楼
ChatGPT于2022年11月30日由OpenAI位于旧金山的总部推出。该服务最初是免费向公众推出的，并计划以后通过该服务获利[17]。到12月4日，OpenAI估计ChatGPT已有超过一百万用户[18]。2023年1月，ChatGPT的用户数超过1亿，成为该时间段内增长最快的消费者应用程序[19]。2022年12月15日，CNBC写道，该服务“仍然不时地发生故障”[20]。

《纽约时报》在2022年12月转述称，GPT的下一版本GPT-4据传言将于2023年某个时候推出。OpenAI计划推出ChatGPT专业版计划，每月收费42美元，需求较低时可使用免费计划[21]。

ChatGPT 人工智能机器学习

参考