AI技术正在飞速地发展和进化中,而在这股AI发展浪潮中,AIGC这一概念成功出圈,人们逐渐可以借用AI自主生成各式各样的内容或数据。那么,当前AIGC行业发展到了怎样的阶段?其中的关键性应用模型ChatGPT,又有着怎样的表现?

 

二、ChatGPT介绍及发展趋势1. 文本生成式AI:聊天机器人ChatGPTOpenAI:由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联 合创始人彼得·蒂尔等硅谷科技大亨于2015年12月创立,主要用于制造“通用”机器人和使用自然语言的聊天机器。

2020年5月, OpenAI 发布了以Transformer为基础的NLP(自然语言生成)预训练模型GPT-3,此前已经历过GPT-1、GPT-2。

2022年11月30日,OpenAI公司发布聊天机器人模型ChatGPT,ChatGPT对GPT-3模型进行微调, 并引入RLHF(基于人类反馈的强化学习)方法。只需向ChatGPT文字提出需求,即可让其完成回答问题、书写代码、创作文本等指令,发布一周内用户量超过百万。

ChatGPT的连续对话能力、强大的理解力、回答的准确度和创造性使其迅速走红。World Of Engineering数据显示,ChatGPT发布短短两个月时间,用户数便突破1亿。具体而言,ChatGPT能理解并生成文字,属于AIGC(AI-Generated Content,人工智能生产内容)技术应用中的文本生成模态应用模型。

4. ChatGPT具备诸多先进性特征chatGPT嵌入了人类反馈强化学习以及人工监督微调,因而具备了理解上下文、连贯性等诸多先进特征,解锁了海量应用场景。当前,ChatGPT所利用的数据集只截止到2021年。在对话中,ChatGPT会主动记忆先前的对话内容信息(上下文理解),用来辅助假设性的问题的回复,因而ChatGPT也可实现连续对话,提升了交互模式下的用户体验。同时,ChatGPT也会屏蔽敏感信息,对于不能回答的内容也能给予相关建议。

5. ChatGPT商业化进程加快微软近日考虑宣布将向OpenAI进行近百亿美元的投资,此前微软分别于2019年和2021年对OpenAI进行投资,若此次投资完成微软将拥有OpenAI 49%的股权。微软对单个100GPU的收费是3美元/时,按照 ChatGPT加载模型和文本的速度,生成一个单词的费用约为0.0003美元;而ChatGPT的回复通常至少有30个单词,因此ChatGPT每回复一次,至少花OpenAI 1美分。微软既能提供钱,又能提供算力。

2023年1月,ChatGPT的活跃用户数或已达1亿,可能是史上增长最快的消费者应用。因访问量过大, OpenAI对ChatGPT进行了大规模限流,包括限制每小时的提问数量,以及高峰时段排队等举措。

OpenAI于2023年2月正式推出ChatGPT Plus版本(率先对美国地区用户开放),收费20美元/月,Plus版 ChatGPT全天可用,无需排队。

6. 国内外科技巨头积极布局生成式AI,部分公司已有成型产品在ChatGPT发布后,谷歌CEO在公司内部发布了“红色警报” (Code Red),敦促团队解决ChatGPT对公司搜索引擎业务构成的威胁,同时批准了在谷歌搜索引擎中加入AI聊天机器人的计划。2月4日,谷歌注资3亿美元投资ChatGPT竞品——Anthropic,谷歌将获得约10%的股份, Anthropic计划将次轮资金用于购买谷歌云计算部 门的计算资源;Anthropic开发了一款名为Claude的智能聊天机器人,据称可与ChatGPT相媲美(仍未发布)Anthropic和Open AI渊源颇深,其联合创始人曾担任OpenAI研究副总裁。

微软将ChatGPT视为新一代技术,将ChatGPT整合进Bing搜索引擎、Office全家桶、Azure云服务、Teams程序等产品中,微软近期宣布推出视频会议及远程协作平台的高级付费版Microsoft Teams Premium,订阅者可享用OpenAI GPT提供支持的大型语言模 型技术,用AI自动生成会议笔记,此举或对Zoom、谷歌会议等平台形成巨大冲击。

百度:1月10日,百度宣布将升级百度搜索的“生成式搜索”能力,智能解答用户的搜索提问;2月7日,百度宣布将在3月份 完成其ChatGPT产品的内测,面向公众开放,该项目名字为文心一言(ERNIE Bot),百度指出,生成式AI和搜索引擎是互补关系而不是替代;据路透社报道,百度计划于 3 月将类似 ChatGPT 的 AI 对话服务作为独立应用推出,之后再逐步将其合并到搜索引擎中。

腾讯:2月3日,腾讯公布一项人机对话专利,能够实现机器与用户之间自然且顺畅的沟通 ,广告为主,支持广告智能制作,以 AIGC技术生成广告文案和视频,降低 了制作成本,目前市场规模快速增长,未来 5 年内 AIGC 产生的图片的占比预计会达到 10-30% 前期可作为UGC和PGC的辅助,帮助广告主设计文案,到后期就是AI技术整体的发展,后期可能是有望代替人工的工作。

字节:已经开始布局,主要是 AI 内容,比如自动生成投稿和辅助写作,在今日头条上利用AIGC生产内容,目前 AIGC 整体的生成质量的内容还是较好的,要好于普通的UGC,但和PGC相比还有所欠缺。抖音方面也有应用,通过 AI 的模式来生成短视频。

阿里、京东等电商类平台:在智能客服领域有布局,其次是 AI 营销,例如阿里巴 巴,可以结合商品,自动生成高质量文案描述商品,提高营销效率 。

三、ChatGPT商业化1. ChatGPT试点订阅计划2023年2月2日,OpenAI发布ChatGPT试点订阅计划——ChatGPT Plus,每月20美元 ChatGPT Plus订阅者可获得比免费版本更稳定、更快的服务,及尝试新功能和优化的优先权。

2. 类人聊天机器人类人聊天机器是一种旨在模拟与用户进行类人对话的电脑程序。它们已被应用于多个行业,包括客户服务、电子商务和娱乐等。

ChatGPT带来的变革:此前的聊天机器人只能根据设定问题 回复固定内容,同chatGPT融合之后,将文本生成、图像生成、多模态转换技术融合起来,环境感知、理解能力在大幅增强,实现和人的形似到神似。基于ChatGPT的类人聊天机器人可以提供客户服务、虚拟代理、内容创意和文本生成、 以及信息知识提供等服务。

1)国外重点企业

openAI:公司核心宗旨在于“实现安全的通用人工智能(AGI)”,目前推出的“ChatGPT类人聊天机器人”火爆全球,其公司在图片生成和视频生成的应用上也有很深的造诣。

Google:公司在AIGC领域布局很久,目前也有“bard”类人聊天机器人的诞生试用,在AIGC的多种技术领 域也处于前列。

2)国内重点企业

百度:是国内布局AI赛道最早的公司之一,目前已宣布“文心一言”类人聊天机器人将很快进入公测环节,图片 生成方面也有突破。

小冰:从微软独立拆分出来的人工智能公司,推出的 “小冰”机器人是目前全球范围内承载交互量最大的人工智能系统。

3. 解码预训练语言模型GPT (Generative Pre-trained Transformer) 是由 OpenAI 提出的只有的预训练模型。相较于之前的模型,不再需要对于每个任务采取不同 的模型架构,而是用一个取得了优异泛化能力的模型,去针对性地对下游任务进行微调。包括 GPT-1、GPT-2 和 GPT-3,上图列举了 GPT 若干模型的信息。

GPT-1 在文章“Improving Language Understanding by Generative PreTraining”中被提出。在 GPT 被提出之前,大多数深度学习方法都需要大量人工标注的高质量数据,但是标注数据的代价是巨大的,这极大程度上限制了模型在各项任务性能的上限。如何利用容易获取的大规模无标注数据来为模型的训练提供指导成为 GPT-1 中需要解决的第一个问题。

另外自然语言处理领域中有许多任务依赖于自然语言在隐含空间中的表征,不同任务对应的表征很可能是不同的,这使得根据一种任务数据学习到的模型很难泛化到其他任务上。因此如何将从大规模无标注数据上学习到的表征应用到不同的下游任务成为 GPT-1 需要解决的第二个问题。

GPT-1 的结构很简单,由 12 层 Transformer Block(自注意力模块和前馈神经网络模块)叠加而成。针对第一个问题,GPT-1 中使用了自左到右 生成式的目标函数对模型进行预训练。这个目标函数可以简单理解为给定前 i − 1 个 token,对第 i 个 token 进行预测。基于这样的目标函数,GPT-1 就可以利用无标注的自然语言数据进行训练,学习到更深层次的语法信息与语义信息。

针对第二个问题,在完成了无监督的预训练之后,GPT-1 接着使用了有标注的数据进行有监督的微调使得模型能够更好地适应下游任务。给定输入 token 序列x1, x2, …, xm 与标签 y 的数据集,对模型的参数进行再次训练调整,用到的优化模型是在给定输入序列时预测的标签最接近真实值。

具体来说,GPT-1 在大规模无标注语料库上预训练之后,再利用有标注数据在特定的目标任务上对模型参数进行微调,实现了将预训练中获得的 知识迁移到下游任务。

在 GPT-1 提出之前,自然语言处理领域常用的预训练方法是 Word2Vec在此之后,GPT-1 提出的两步走的训练方法成为许多大型语言模型的训练范式。

从这个角度来看,GPT-1 和 Word2Vec 在 具体下游任务中发挥的作用是类似的,通过无监督的方法获取自然语言的隐含表示,再将其迁移至其他目标任务。但是从更高的层面来看,GPT-1 与以 往的词向量表示方法是不同的,其数据量与数据规模的增大使得模型能够学习到不同场景下的自然语言表示。图 2.1是 GPT-1 原文中的总览图,左侧是 GPT-1 的架构以及训练时的目标函数;右侧是对于不同任务上进行微调 时模型输入与输出的改变。

与 GPT-1 中的通过预训练-微调范式来解决多个下游任务不同,GPT-2更加侧重于 Zero-shot 设定下语言模型的能力。

Zero-shot 是指模型在下 游任务中不进行任何训练或微调,即模型不再根据下游任务的数据进行参数 上的优化,而是根据给定的指令自行理解并完成任务。

简单来讲,GPT-2 并没有对 GPT-1 的模型架构进行创新,而是在 GPT-1 的基础上引入任务相关信息作为输出预测的条件,将 GPT-1 中的条件概率 p(outputinput) 变为 p(outputinput;task);并继续增大训练的数据规模以及模型本身的参数量,最终在 Zero-shot 的设置下对多个任务都展示了巨 大的潜力。

虽然 GPT-2 并没有模型架构上的改变,但是其将任务作为输出预测的条件引入模型从而在 Zero-shot 的设置下实现多个任务的想法一直延续至今。这样的思想事实上是在传达只要模型足够大,学到的知识足够多,任何有监督任务都可以通过无监督的方式来完成,即任何任务都可以视作生成任务。

GPT-3使用了与 GPT-2 相同的模型和架构。文中为了探索模型规模对于性能的影响,一共训练了 8 个不同大小的模型,并将最大的具有 1750 亿参数的模型称为 GPT-3。上图综合统计了 GPT-1、GPT-2 和 GPT-3 的 参数量,模型架构以及预训练的数据集,方便读者直观上理解 GPT 的迭代趋势。

GPT-3 最显著的特点就是大。大体现在两方面,一方面是模型本身规模大,参数量众多,具有 96 层 Transformer Decoder Layer,每一层有 96 个 128 维的注意力头,单词嵌入的维度也达到了 12,288;另一方面是训练过程中使用到的数据集规模大,达到了 45TB。

在这样的模型规模与数据量的情况下,GPT-3 在多个任务上均展现出了非常优异的性能,延续 GPT-2 将无监督模型应用到有监督任务的思想,GPT-3 在 Few-shot,One-shot 和 Zero-shot 等设置下的任务表现都得到了显著的提升。

虽然 GPT-3 取得了令人惊喜的效果,但是也存在许多限制,例如天然的从左到右生成式学习使得其理解能力有待提高;对于一些简单的数学题目仍不能够很好完成,以及模型性能强大所带来的社会伦理问题等。

同时由于 GPT 系列模型并没有对模型的架构进行改变,而是不断通过增大训练数据 量以及模型参数量来增强模型效果,训练代价巨大,这使得普通机构和个人无法承担大型语言模型训练甚至推理的代价,极大提高了模型推广的门槛。

今年1月24日,即ChatGPT发布第二个月,微软宣布数十亿美元投资 OpenAI,并且计划在算力、商业化以及 AI 技术方面进行长期合作。据报道,本轮融资后OpenAI公司估值高达290亿美元,接近2000亿元人民币。随后2月7日,微软推出ChatGPT版Bing(必应)搜索引擎和Edge浏览器,并在3月更新GPT-4后同时升级,引发全球广泛关注。

如今新的 AI 浪潮下,微软开始希望全面评估GPT大模型对于人类、整个 AI 技术行业发展的影响。具体来说,本论文核心主题是关于GPT-4的人工智能系统,它展示了人工智能的一种形式,即人工通用智能(AGI)。论文通过实验研究与讨论GPT-4在推理、创造力、演绎等核心思维能力方面的表现,以及它在文学、医学和编码等领域获得专业知识的范围,和它所能执行的各种任务。

此外,该文件还探讨了如何定义AGI本身,构建缺失组件以实现AGI,并更好地理解最近LLMs所展示的智能起源。论文指出,微软团队测试了语言理解方面的反馈。最终,GPT-4很好地完成了多个任务并超过ChatGPT水平。

另外,微软团队还利用1994年国际共识智力定义执行多个实验测试,以观察GPT-4在推理、解决问题、抽象思考、理解和快速学习等方面能力,最终现实,GPT-4拥有对世界的常识并在这基础上做出推理的能力,甚至可以用ABC记谱法创作音乐,并按人类要求修改。

所以结果表明,微软认为,GPT-4是一种非常强大的人工智能系统,它在许多任务和领域中表现出了惊人的能力,并且在某些方面甚至可以与人类相媲美。然而,GPT-4仍然存在一些局限性和挑战,需要进一步研究和发展才能实现更深入、更全面的AGI系统。

高盛3月27日发布报告指出,全球预计将有3亿个工作岗位最终被 AI 取代。假设生成式 AI 实现了各企业承诺的能力,劳动力市场将面临挑战,AI 可以接手美国和欧洲高达四分之一的工作。报告预计,随着劳动生产力提高,AI 应用有望使全球在下一个10年内,推动全球GDP(国内生产总值)年复合增长率将达到7%。

五、ChatGPT可能遇到的问题1. 合规性问题ChatGPT产生的答复是否产生相应的知识产权?

ChatGPT进行数据挖掘和训练的过程是否需要获得相应的知识产权授权?

ChatGPT是基于统计的语言模型,这一机制导致回答偏差会进而导致虚假信息传播的法律风险,如何降低其虚假信息传播风险?

2. 技术性问题ChatGPT的回答可能过时,因为其数据库内容只到2021年,对于涉及2022年之后,或者在2022年有变动的问题无能为力。

ChatGPT在专业较强的领域无法保证正确率,即使在鸡兔同笼此类初级问题中仍然存在错误,并且英文回答和中文回答存在明显差异化。

ChatGPT对于不熟悉的问题会强行给出一定的答案,即使答案明显错误,依然会坚持下去,直到明确戳破其掩饰的内容,会立马道歉,但本质上会在不熟悉的领域造成误导。

本文由 @情入药 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。