ChatGPT一周年,你错过了多少革命性时刻?一图总结2023生成式AI里程碑大事件时间线

admin5个月前笔记84

2022 年 11 月 30 日,OpenAI 宣布正式推出 ChatGPT。365 天过去,斗转星移,我们一起见证了生成式 AI 的寒武纪大爆发。

image.png

Generated by DALL·E3

这一年来,国内外的生成式 AI 、大模型和产品以令人眼花缭乱的速度更新迭代,新的创业浪潮风起云涌,大家登记 waitlist 的速度都快赶不上产品推陈出新的频率。国内更是开始了百模大战,不少国产大模型陆续宣布性能赶超 GPT3.5。大浪淘沙后,也有不少企业宣告解散,知名大模型项目「套壳」开源项目屡见不鲜。

回顾 ChatGPT 发布的这一年,都有哪些大事件,你会用哪些关键词总结?

01 生成式文本

image.png

Generated by Stable Diffusion

ChatGPT 自 2022 年 11 月 30 日上线以来,一直引领着生成式 AI 的发展。

2023 年 1 月底 2 月初,ChatGPT 成为互联网史上最快获得 1 亿用户的产品。

2 月,ChatGPT plus 版本上线。

3 月 15 日,GPT4 炸裂发布,正式宣告生成式 AI 大爆发的开始,无数人开始研究如何能注册和使用上这个用数十亿美元打造出来的大杀器。

4 月,ChatGPT 开放了插件,原本简单的基于历史数据的对话,一下有了全新的能力和可能性,开发者多少对如此简单的接入感到兴奋和害怕。

OpenAI 还在 5 月和 8 月分别推出了 ChatGPT 的 iOS 和 Android 应用,并在 11 月向所有用户开放移动应用的语音对话能力。

7 月,OpenAI 开放了 GPT4 API 、强大的代码解释器,并允许用户自定义指令

8 月,ChatGPT 企业版上线,3.5 turbo 模型支持微调

9 月,ChatGPT 集成新的语音和图像能力,联网浏览功能也恢复了,多模态能力进一步增强

10 月,继续是多模态能力,沉寂已久的 DALL·E 更新到第三代,GPT4V 接口也发布了

11 月,OpenAI 高层戏剧化政变,Sam Altman 几进几出,全球观众不眠不休追剧

除了 ChatGPT, 对话式 AI 产品也诞生了几个实力强大的竞争者。

关系微妙的好基友 Bing Chat 紧随 ChatGPT,在 2 月就占得先机,原本几乎没有什么市场份额的 Bing 搜索引擎重获新生。在「普惠」这件事情上,没有人比微软做得更快更好,不但云服务全线铺开,而且 Copilot 在 11 月已经深度集成到 Windows 生态中。

另一方面,挑战者 Anthropic 的 Claude 在 3 月紧随 GPT4 上线,并率先在 5 月份支持长达 100k 的上下文。7 月 Claude2 发布,到 11 月,Claude2.1 已经支持 200k 的上下文,并开放了数据调用能力。

Google 在生成式 AI 的浪潮中,多少给人一种「起了个大早,赶了个晚集」的感觉。最早提出 transformer 架构,在大模型技术储备上让人望其项背,但因为搜索引擎牵一发动全身,Google 在 3 月仓促推出 Bard,一时差评如潮。

随着 PaLM 和新版搜索引擎的改进,以及 Duet AI 、新一代 Gemini 模型的推出,Google 在几个月内完成了生成式 AI 生态的完整布局,不得不让人感叹家底雄厚。

在其他应用领域,产品和创新就更加不胜枚举了。现在回头看 Poe 套壳应用的巨大成功,不知道 OpenAI 董事会的 Quora(孵化了Poe) 创始人 Adam D’Angelo 到底扮演了什么角色,这让故事蒙上了阴谋论的迷雾。Notion AI 也是最早集成 AI 能力的产品之一,在场景化的应用中树立了标杆。

最后(也是最重要的)一件事,是 4 月 LLaMA 的史诗级泄露,大模型进化树全新开源分支一骑绝尘。GPT 和 LLaMA 这一对 iOS 和 Android,联手开启了生成式 AI 的寒武纪大爆发的开关。

02 生成式图像

image.png

Generated by Stable Diffusion

文生图领域同样迎来了突飞猛进的一年。生成式图像的生态可以划分为三大阵营:

开源工具

以 Stable Diffusion 为代表,这一类好比安卓系统,生态丰富而且活跃,既有完全开源的Stable Diffusion,也包括很多基于 SD 做了二次封装的文生图工具比如 Dreamstudio、leonardo.ai、dreamlike.art、playground ai 等等。

Stable Diffusion 2.0 并不成功,4 月 SDXL beta 版本发布,让大家重新对文生图能力充满了期待,7 月 SDXL 正式上线,目前还处在降低算力要求的推广融合阶段。随着 civitai(C站)和 WebUI 、ComfyUI 的普及,还有 Meta 在基础模型和算法方面的持续贡献,开源工具会继续推动生成式图像生态的繁荣和创新。

闭源工具

以 Midjourney 为代表,可以类比苹果手机,生态封闭但用户体验较好,还包括 DALL·E3、Bing Image Creator、文心一格等。

Midjourney 在 2023 年成为“小团队-大产品”的代言人。3 月 V5 版本上线, 5 月 5.1 版本,6 月 5.2 版本,每一个版本都让人惊叹 Midjourney 的画质如此出色,甚至怀疑跟 Stable Diffusion 还是不是同源技术。

设计工具2.0

以 Adobe Firefly 为代表,是在原有的设计工具中集成 AI 辅助的功能,还包括 Canva AI、Microsoft Designer、Framer AI 等等。

Firefly 可以说是成也专业,败也专业。直接集成在 Adobe Creative 尤其是 Photoshop 中,能完败绝大多数的文生图应用,但是也会相对局限在专业设计师和创意人群中。

11 月,图像 AI 生成领域迎来了实时绘制的浪潮,KREA 和 Clipdrop 相继上线实时绘制功能,相信这对设计工具 2.0 会是一次重大突破,专业画手被冲击的部分又有了新的价值展现!

03 生成式视频

2023 年是 Generative video 的元年。在大家还在摸索文生图的时候,文本生成视频的快速进化让人眼花缭乱。

进入下半年,由 Runway ML 引领的生成式视频领域车速猛增,先是 Gen-2 上线,生成式视频开启卷王模式,Pika,LumaAI,Morph Studio,Moonvalley,PlaiDay,Mootion 等一众文生视频应用百花齐放。

image.png

Generated by Stable Video Diffusion

11 月,竞争进入白热化阶段,Gen-2 受 Pika 等刺激完成了大更新,视频质量有了跃迁。Pika 1.0 在可控性方面又有了极大提升。

文生视频也迎来更大的开源玩家:Meta 发布 Emu,Stability AI 发布 Stable video diffusion,学术界同时在争相发布降低生成成本的研究。明年,生成式视频一定会迎来大爆发,图像创意工作者的创作流程将会被改变。

04 生成式代码

生成式代码是高端玩家的竞技场。主要也有三股力量:

代码平台:以 Github Copilot 为代表,还包括模型社区 Hugging Face 发布的 StarCoder。因为坐拥海量的源代码和模型,解放生产力是优先的场景。

大模型和开源生态:很多综合大模型都会有专门的代码生成模块,这也许会成为评估模型能力的重要指标。Meta 2023 年一头扎进开源搞建设,大有成为 AI 安卓之势(不是)。

商业养蛊:Salefore 和幻方发布了自己的代码生成模型,CodeGen2 在 5 月发布,DeepSeek 11 月上线。有钱人往往也有远见,先用资源垒出壁垒,让别人在日后难以竞争,是为商业养蛊~

对了,请不要忽略 5 月份新的 AI/ML 编程语言 Mojo 的发布,期待明年会有更精彩的生态演绎。

05 开源应用

2023 年什么最火?ChatGPT。

2023 年哪里最热闹?GitHub 😄 (抱抱脸和 X.com 稍微不服气)

2 月,文生图领域拯救 Stable Diffusion 的 ControlNet 在 上线,作者还开发了 Fooocus(取代难用的 A1111 WebUI,不是)

3 月,2022 年已经发布的的 Langchain 一下踩中了风口,成为生成式 AI 第一开源股(不是)。半年后逐渐取代 SD WebUI 的 ComfyUI 悄悄 init 了

4 月,AutoGPT 大红大紫,带动了 Agent 概念极速发展

6 月,DragGan 引发了可控文生图的热潮

7 月,AnimateDiff 开始推动文生视频的发展

11 月,LCM 带来低显存福音,1 秒出图不是梦,3060 生成视频不是梦

 

06 模型

大模型这一块,相信各种商业分析、创业社区、大中小厂官网,已经日常轰炸大家许久。这里就不念 PPT 了,大家可以在月历中查阅。

image.png

Generated by Stable Diffusion

07 算力

算力领域的故事比较单薄,英伟达强者恒强,宣扬 AI 的「iPhone 时刻」到来并表示 all in 生成式 AI。11 月,英伟达发布 H200 芯片,地球最强没跑了,尤其在训练场景,试图进一步拉大产品性能及产业链上下游的优势。

位于第二梯队的 Google 研发出为机器学习定制的专用芯片 TPU,5 月已经发布第五代。追赶者 AMD 也在 6 月推出了 MI300X AI 芯片,反响一般。深感算力不够用的大厂纷纷开始准备自研芯片,包括微软、 Meta、亚马逊、华为等。


08 政策

关于监管,关于数据安全,关于版权,关于隐私,关于 AGI,可以说 gov 都是慢半拍。7 月份公布的《生成式人工智能服务管理暂行办法》备受关注。欧盟受在大模型竞争中全面落后,不过发布了全球第一部人工智能法案。

2023 年绝对是历史性的一年,人类走出 COVID-19 的阴霾,迎来了生产力的革新。

对从业者来说,这是一惊一乍的一年。对创业者来说,这是不眠不休的一年。对创作者来说,这是眼界大开的一年。对普通人来说,这是历史车轮加速向前的一年。

想一想又有点不对,AI 一天,人间已一年。 

最后,祝愿大家在 2024 年少一点疲于奔命,多一些笃定,多一分创作。


相关文章

Python高级技巧:深入理解Python魔法方法

Python高级技巧:深入理解Python魔法方法

在 Python 中,魔法方法是指那些以双下划线开头和结尾的特殊方法。它们是 Python 的内置方法,对应于 Python 对象的各种运算符。通过实现这些魔法方法,我们可以改变 Python 对象的...

AI 绘画基础 - 细数 Stable Diffusion 中的各种常用模型

AI 绘画基础 - 细数 Stable Diffusion 中的各种常用模型

AI 绘画新手魔导士在刚开始玩 Stable Diffusion 时总会遇到各种新的概念,让人困惑,其中就包括各种模型和他们之间的关系。safetensors在了解各种模型之前,有必须先了解下 saf...

ChatGPT3.5和ChatGPT4.0的共同点和区别

聊天机器人是人工智能领域中的一项重要技术,越来越多的人开始使用它们来进行在线交互。ChatGPT3.5和ChatGPT4.0是目前市面上最受欢迎的聊天机器人之一。本文将讨论这两个版本的共同点和区别,以...

如何在 MariaDB 中配置主从复制

如何在 MariaDB 服务器上配置一个主从复制。复制是用于为我们的数据库创建多个副本,这些副本可以在其它数据库上用于运行查询,像一些非常繁重的查询可能会影响主数据库服务器的性能,或者我们可以使用它来...

前端SEO—详细讲解

一、搜索引擎工作原理当我们在输入框中输入关键词,点击搜索或查询时,然后得到结果。深究其背后的故事,搜索引擎做了很多事情。在搜索引擎网站,比如百度,在其后台有一个非常庞大的数据库,里面存储了海量的关键词...

RAID5工作原理介绍

RAID5工作原理介绍

RAID 5是一种存储性能、数据安全和存储成本兼顾的存储解决方案。以四个硬盘组成的RAID 5为例,其数据存储方式如图4所示:图中,P0为D0,D1和D2的奇偶校验信息,P1为D3,D4,D5的奇偶校...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。