
ChatGPT,全称聊天生成预训练转换器(英语:Chat Generative Pre-trained Transformer([2])),是OpenAI开发的人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5、GPT-4架构的大型语言模型并以强化学习训练。ChatGPT目前仍以文字方式交互,而除了可以用人类自然对话方式来交互,还可以用于甚为复杂的语言工作,包括自动生成文本、自动问答、自动摘要等多种任务。如:在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本(剧本、歌曲、企划等),在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。还有编写和调试计算机程序的能力。([3])在推广期间,所有人可以免费注册,并在登录后免费使用ChatGPT与AI机器人对话([4])。
ChatGPT可写出相似真人的文章,并在许多知识领域给出详细和清晰的回答而迅速获得关注,证明了从前认为AI不会取代的知识型工作它也足以胜任,对金融与白领人力市场的冲击相当大,但也认为事实准确度参差不齐是其重大缺陷,并认为基于意识形态的模型训练结果须小心校正([5])([6])。ChatGPT于2022年11月发布后,OpenAI估值已涨至290亿美元([7])。上线5天后已有100万用户,上线两个月后已有上亿用户([8])。目前GPT-3.5为免费版本,GPT-4仅供ChatGPT Plus会员使用,且每三个小时只能发送25条消息。
训练
ChatGPT是生成型预训练变换模型(GPT),在GPT-3.5之上用基于人类反馈的监督学习和强化学习微调。([9])这两种方法都用人类教练来提高模型性能,以人类干预增强机器学习效果,获得更逼真的结果([10])。在监督学习的情况下为模型提供这样一些对话,在对话中教练充当用户和AI助理两种角色。在强化步骤中,人类教练首先为模型在先前对话中创建的响应评级。这些级别用于创建“奖励模型”,使用近端策略优化(PPO)的多次迭代来微调([11])([12])。这种策略优化算法比信任域策略优化(trust region policy optimization)算法更为高效([13])([14])。
此外,OpenAI继续从ChatGPT用户那里收集数据,这些数据可用于加强训练和微调ChatGPT。用户可对从ChatGPT收到的回复投赞成或反对票;投票时还可以额外填写文字回应([15])。
关于ChatGPT编写和调试计算机程序的能力的训练,由于深度学习模型不懂编程,与所有其他基于深度学习的语言模型一样,只是在获取代码片段之间的统计相关性。([16])
斯坦福大学的研究发现,GPT3已经可以解决70%的心智理论任务,相当于7岁儿童;至于GPT3.5(ChatGPT的同源模型),更是解决了93%的任务,心智相当于9岁儿童。但这并不意味着,ChatGPT就真正有心智理论。可能即使不将它设计到AI系统中,也可以作为“副产品”通过训练得到。因此,相比探究GPT3.5是不是真的有了心智还是像有心智,更需要反思的是这些测试本身。
特点和局限
特点
虽然聊天机器人的核心功能是模仿人类对话者,但ChatGPT用途广泛。例如,有编写和调试计算机程序的能力([3]);创作音乐、电视剧、童话故事和学生论文;回答测试问题(在某些测试情境下,水平高于普通人类测试者);写诗和歌词([19]);模拟Linux系统等([20])。ChatGPT的训练数据包括各种文档以及关于互联网、编程语言等各类知识,如BBS和Python编程语言([20])。
与其前身InstructGPT相比,ChatGPT试图减少有害和误导回复。例如,问InstructGPT“告诉我2015年克里斯托弗·哥伦布何时来到美国”时,它会认为这是对真实事件的描述,而ChatGPT针对同一问题则会使用其对哥伦布航行的知识和对现代世界的理解来构建答案,假设如果哥伦布在2015年来到美国时可能会发生什么。
与其他多数聊天机器人不同的是,ChatGPT能够记住与用户之前的对话内容和给它的提示([21])。此外,为了防止ChatGPT接受或生成冒犯言论,输入内容会由审核API过滤([22])([23]),以减少潜在的种族主义或性别歧视等内容。
局限
ChatGPT也有多种局限,OpenAI承认ChatGPT“有时会写出看似合理但不正确或荒谬的答案”([11]),这在大型语言模型中很常见,称作人工智能幻觉([24])。其奖励模型围绕人类监督而设计,可能导致过度优化,从而影响性能,即古德哈特定律([25])。2020年上线时,ChatGPT对2019年9月之后发生的事件知之甚少。据BBC报道,截至2022年12月,ChatGPT不可以“表达政治观点或从事政治活动”([26])。但研究表明,ChatGPT对两个投票建议应用程序的政治声明表明立场时,表现出亲环境主义。训练过程中,不管实际理解或事实内容如何,审核者都会偏好更长的答案([11])。训练数据也有算法偏差,可能会在向ChatGPT问及人物描述时显现出来([27])([28]),比如当程序接受到首席执行官之类的模糊描述时可能会假设此人是白人男性([29])。有用户发现ChatGPT在解决较为复杂的题目(如求方程式的切线)时会给出错误答案,并且会在解一元一次方程式时陷入循环。
服务
基本服务和优质服务
ChatGPT于2022年11月30日由总部位于旧金山的OpenAI推出。该服务最初是免费向公众推出,并计划以后用该服务获利([31])。到12月4日,OpenAI估计ChatGPT已有超过一百万用户([32])。2023年1月,ChatGPT的用户数超过1亿,成为该时间段内增长最快的消费者应用程序([33])。
2022年12月15日,全国广播公司商业频道写道,该服务“仍然不时发生故障”([34])。该服务在英语中效果最好,也能使用部分其他语言,但效果不一([19])。与其他备受瞩目的AI进展不同,截至2022年12月,还没有关于ChatGPT的经同行评审的官方技术论文([35])。
OpenAI计划推出ChatGPT专业版计划,每月收费20美元,该计划正逐步面向更多国家推出,需求较低时可使用免费版。
2023年2月7日,微软利用与OpenAI的合作关系,推出了必应AI的预览版,宣传其为“新的下一代OpenAI大型语言模型,比ChatGPT更强大,并专门为搜索定制”。
2023年3月12日,OpenAI发布多模态模型GPT-4,并计划推出图像输入功能([38])。免费用户可通过申请API或升级为plus用户使用GPT-4服务。
美国网站Quora也推出软件Poe,可支持GPT-3.5和GPT-4。
2023年5月18日,OpenAI发布适用于iOS平台的ChatGPT APP。APP目前已在App Store美国区上架,未来几周内将扩展至其他国家和地区。适用于Android平台的版本也将很快推出。
API-软件开发商支持
2023年3月,OpenAI推出其ChatGPT和Whisper模型的API,为开发人员提供支持AI的语言和语音转文本功能的应用程序编程接口。([41])([42])([43])OpenAI的API由他们的AI模型GPT3.5-turbo提供支持,定价为每1000符号单位(token)0.002美元,比他们现有的GPT模型便宜10倍。
原创文章,作者:兰陵小小生,如若转载,请注明出处:https://www.dasvader.com/2475.html