1) AI写作:Jasper AI
作为 AIGC 圈新贵,Jasper AI已经不是一个陌生的名字。在去年10月,Jasper AI就宣布了以15亿美元估值的A轮融资,而Jasper AI的产品上线也就18个月时间。
Jasper以“AI文字生成”为主打产品,用户借助AI可以轻松生成各类文字,例如帮着起Instagram的标题、编写TikTok视频脚本、广告营销文本、博客、电子邮件内容等等,这些功能,令Jasper在社交媒体、电商、视频制作等多个领域非常火爆。
Jasper的底层技术就是OpenAI的GPT-3,但团队在此基础上,对语言模型做了大量的改进,特别是在广告和营销的内容生成这部分,Jasper也加大了用户在生成内容时的反馈机制。相比于其他AI写作应用,Jasper更专注于长篇内容。
除了文字内容外,Jasper也推出了AI绘图产品Jasper Art,与其他热门产品类似,也是用户输入图片描述,AI会自动生成图片。当然Jasper 的定位会更偏向市场营销应用设计。
2) AI写作:Copy.ai
Copy.ai与刚刚介绍的Jasper AI类似,也是基于GPT-3模型的AI写作创业项目,Copy.ai可以用几秒钟,就生成高质量的广告和营销文案,针对ToB企业场景。
Copy.ai也引入了人工修正,不断训练出更优秀的人工智能模型。Copy.ai的核心目标不是完全取代人工,而是通过AI的建议,将人类创作文案的构思阶段缩短80%,营销人员用自己的创造力来填补剩余的20%。Copy.ai提供了大量的场景模版,几乎涵盖了市场营销需要文案的所有场景。
对于用户来说,只需要输入标题和简单的几句话介绍来描述需求,例如根据内容发布平台的调性,来选择文章的调性。如果有语法错误,还可以通过另一款应用Grammarly来自动修改。
3) AI声音:podcast.ai
Podcast.ai是一个完全由AI生成的播客,每周都会深入探讨一个新话题。
Podcast.ai的第一期节目引爆全网,Podcast.ai通过乔布斯的传记,和收集网络上关于他的所有录音,用Play.ht的语言模型大量训练,最终生成了一段美国知名播客主持人Joe Rogan采访乔布斯的播客内容。在这期播客里,乔布斯的各种语音、语调都模拟的非常相似。
在这段20分钟的对话里,乔布斯“死而复生”,与Joe Rogan讨论了关于曾经的大学时光、对计算机的看法、工作状态以及信仰等等。
图片来源:https://podcast.ai/
Podcast.ai所采用的Play.ht,是一个AI文本转换语音生成器,模型覆盖了数千种说话的声音,还可以学习人类的情感、说话语气以及笑声等。从文本语言模型到音频语言模型时,音频数据速率增高是一个大难题,一个句子的几十个字符用音频波形表达,所包含的数值往往多达数十万个。此外,由于文本和音频之间的一对多关系,也即是一个语句可以有不同的说话风格、情感等,这也成为了语音模型研究中需要解决的问题。
总体来说,Podcast.ai的效果已经相当接近真人,感兴趣的朋友可以去这里听一下Podcast.ai关于乔布斯的这期节目:https://podcast.ai/
4) AI绘图:Midjourney
Midjourney是一众AI绘画产品中的佼佼者,高质量、高精度、耗时短,在网上非常出圈。Midjourney目前直接搭载在Discord频道上,你不需要写代码,只需输入描述指令,AI就帮你生成惊艳的绘画,这个过程和发微信聊天几乎一样。
图片来源:https://discord.com/channels/662267976984297473/@home
如今,无数人都在用Midjourney生成图片。例如《经济学人》用Midjourney生成的图片做了杂志封面:
以及《空间歌剧院》,在美国科罗拉多州博览会上获得一等奖,随后其作者Jason Allen才透露,这幅作品是出自Midjourney AI之手。
再比如英国艺术家Daniel Oxford,运用Maya、PS等软件配合AI辅助创作,一幅幅油画质感的CG从他手下产生:
又或者是当你输入“指环王”,Midjourney生成的是这样的:
由于用Midjourney画画,基本上和用微信聊天差不多,所以你的描述非常重要,比如你需要想清楚:
- What:种类是什么?油画?水彩?陶瓷?木雕?
- Who:主题是什么?人?物?景?
- When:何时?早中晚?季节?年代?时期?
- Where:何地?什么场景?陆海空?外太空?
- How:怎么画?风格?引擎?渲染?照明?镜头?清晰度?真实度?
这些问题都可独立,也可搭配在一起,看你想让AI画到什么程度。描述的越多,AI会以自己的理解,按权重优先级进行绘制;而如果描述的少,AI也会根据自己的理解绘画,也许能给出惊喜的创意。
建筑师也在使用来寻找灵感。例如芝加哥建筑师斯蒂芬·库拉斯(Stephen Coorlas)使用Midjourney为芝加哥北岸地区设计的露天展馆。
图片来源:库拉斯建筑(Coorlas Architecture)
基于这个概念图像进行简单的3D建模后,库拉斯将这些模型的图像反馈给Midjourney,并令其迭代建筑图纸。然后就得到了这个展馆的建筑图纸,虽然还缺乏细节。
图片来源:Coorlas建筑
扎哈·哈迪德建筑伦敦工作室的计算研究小组(ZHACODE)设计师Tim Fu,使用Midjourney设计的钢琴家的住宅:
由Tim Fu使用Midjourney设计的钢琴家的住宅。图片来源:Tim Fu
这些进步,得益于生成扩散模型和多模态预训练模型等技术的快速发展,在图文生成效果上有了显著进步,让AI可以快速、灵活地生成不同模态的数据内容。
在2021年之前,AIGC还主要是文字生成。而新一代的模型可以处理任何内容格式,包含文字、语音、代码、图像、视频、3D模型、机器人的动作等等。比如近期以DALL-E2和stable-diffusion为代表的AIGC技术在图文生成效果上,能够广泛应用于内容生成、编辑和创作等领域。
5)AI绘图:Stability AI
Stability AI也在去年10月宣布完成了1.01亿美金的种子轮融资,估值达10亿美金,Stability AI成立仅2年时间。
与Midjourney类似,Stability AI也是一个开放的AI绘图工具,用户输入描述图片的文字信息,来创建图像。
图片来源:https://stability.ai/
Stability AI是一项开源技术,用户可以在其代码的基础上构建与设计、电影、增强现实、视频游戏、广告甚至电子商务相关的应用程序。通过这套开源技术,Stability AI的社区已经创造出了几乎涵盖所有媒体内容形态的AI模型,包括图像、语言、音频、视频以及3D内容。
图片来源:https://stability.ai/
Stability AI在训练自己的模型时,也花费了很高的成本。根据Business Insider的报道,Stability AI目前拥有一个,在AWS中运行的由4000多个Nvidia A100 GPU组成的芯片集群,用于训练Stability的各个AI模型,这导致其在运营和云服务方面的支出超过了5000万美元。AI公司在训练方面的确耗资巨大,此前微软对OpenAI的10亿美元投资,其中一半是用云计算等服务折算的。
由此也可以看出Stability AI的野心,它并未聚焦于某个单一场景,而是通过开源来拓展场景,再去寻找具体的商业模式。当然,更大的想象空间,也需要更多的投入,所以Stability AI在种子轮就拿了这么多钱。
Stability建立的社区,包括了全球各地的专家与合作伙伴。 图片来源:https://stability.ai/
6) AI修图:Lensa
刚刚介绍了几款AI绘图应用,下面我们要介绍的,是一款AI修图产品。
图片来源:https://prisma-ai.com/lensa
Lensa的日常操作,其实与美图秀秀、VSCO类似,只不过后者需要手动,而Lensa加入了一些AI能力。Lensa在Twitter等社交媒体上爆红,主要是它的Magic Avatars功能,可以供你生成魔法头像。用户需要上传10-20张自拍照,然后选择一个性别,Magic Avatars就会通过AI自动生成上百张不同风格的头像。
这些AI生成的照片风格各异,有动漫效果、科幻色彩、水彩感、或是油画风格等等,一下子形成了病毒式传播。此外,这是一个完全付费的产品,生成的这50/100/200张的价格分别为3.99/5.99/7.99美元。
图片来源:https://prisma-ai.com/lensa
Lensa引爆了C端,这也是对AIGC市场非常重要的价值。
7)AI音视频编辑:Descript
去年11月,Descript宣布了5000万美金的融资,这一轮由OpenAI旗下的OpenAI Startup Fund领投。
Descript想结合AI实现的目标,是重新设计视频编辑器,让制作音视频的过程,像修改Word文档和做PPT一样简单。
图片来源:https://www.descript.com/
Descript首先第一个打破的,就是传统编辑器中的时间轴概念,以期在不触及时间轴的情况下完成各种新的操作,可能是对视频中的每个画面利用AI做更多操作,例如删除视频里面的背景,添加新画面等等。
第二个好用的功能是语音克隆,也就是用户先录好一段声音后,后续只需要写文本就能实现整个录制,AI会用克隆好的声音自动录制出来。也可以选择其模版库里的其它声音模版。当你对文本进行修改,录音也会自动调整。
第三是通过AI自动删除语气词或是重复的短句。剪辑过音频的朋友都知道,我们日常说话时其实会有大量的语气词或是重复词,说的时候没感觉,但在听录音的时候非常明显。但这种剪辑很麻烦,需要一点一点去抠。如今通过AI自动处理,很方便也令音视频更加专业。另外就是字幕处理,Descript会根据上下文自动调整字幕的停顿断句,也会自动补充各种日常习惯语法。
图片来源:https://www.descript.com/
8) AI编程:GitHub Copilot
AI编程也是近几年新崛起的重要赛道,美国风投界认为2023年AI编程投资会非常火热。
GitHub Copilot是微软旗下代码托管平台GitHub推出的AI编程工具,Copilot的主要定位是提供代码补全与建议功能,可根据当前文件的内容和光标位置自动生成代码。
图片来源:https://github.com/features/copilot
GitHub Copilot支持的编程语言包括Python、JavaScript、TypeScript、Java、Ruby和Go。有了GitHub Copilot,软件开发人员可以在编辑器中使用内联注释来获取JavaScript、Python、TypeScript和Ruby等编程语言的代码建议。
然后只要用户给出提示,GitHub Copilot就可以根据上下文自动编写完整的函数,或实现完整的功能,包括docstrings、注释、函数名、代码。
在底层技术方面,GitHub Copilot就是基于OpenAI的文本生成技术。曾经有GitHub Copilot高管对其描述是:
“这就像有一个小机器人坐在你的肩膀上,你们坐在桌子的同一侧,目视同样的东西,当这个机器人可以‘出手’的时候,它会自动为你提供帮助。……最近一项研究的统计数据非常有趣,该研究要求程序员从头开始编写Web服务器代码,程序员在使用Copilot的情况下完成这一任务的速度要比不使用Copilot快50%以上。然后,我们从遥测中得知,在启用这一功能的情况下,在程序员编写新代码的过程中,例如Python 等流行编码语言中,Copilot为程序员编写了多达40%的代码。这是个了不起的成就。”
图片来源:https://github.com/features/copilot
9)AI笔记:Mem
Mem是一款专注于工作的应用程序,可以利用AI自动组织笔记。Mem也是OpenAI领投的,投资金额为2350万美元,投资后估值为1.1亿美元。
Mem由华裔工程师Dennis Xu和Kevin Moody共同创办,他们曾表示,Mem与传统记事应用程序的不同之处在于它的“轻量级”。
简单来说,Mem像是一种整合个人信息数据的工具,将你的个人邮件、日历活动和笔记信息等自动汇集到一起,并利用AI来自动整合这些信息,并在特定的时间点上给你所需要的。
在工作流程上,Mem主打快速记录与内容搜索,围绕搜索和按时间顺序排列的时间线,可以附加主题标签,标记其他用户,并为笔记添加循环提醒信息。
当然,快速记录信息只是最开始的第一步,Mem如何将信息数据从其他平台快速同步整合到Mem上更为重要。Mem在背后形成了一个知识图谱,由一个个Node(节点)组成,每个节点都是一个Entity,这个Entity可以是一条Mem(笔记),也可以是某个具体的日程活动、一个联系人信息或者是一条任务等等。Mem会通过AI将这些不同节点上的Entity进行分析和连接,比如你在一条笔记中提到了某位朋友推荐的一家餐馆,这两个信息点都会在知识图谱中进行分析和归类,并自动形成关联,当外部条件触发时,这些信息就会自动呈现在用户的面前。
Mem也做了AI Writer的部分,可以说是基于个人信息数据的AI写作助理。比如一个可能的场景就是当你在写作中提到某个日程安排或者某条视频内容时,Mem会自动将这些信息自动同步到文档中,同时这个AI Writer还具备GPT-3的所有能力,可以将各种网上的信息比如最畅销的10本书等等进行自动搜集和补全。
10) AI游戏:AI Dungeon
AI Dungeon是一个由AI驱动的基于文本的RPG游戏,也可以说是由AI驱动剧情发展的游戏。通过AI应用,用户可以在能想象到的任何场景中,去进行角色扮演编写故事,与其他人物互动。
AI 会根据故事大背景设定的世界观,来设计不同角色的性格和任务,并且实时根据用户的行动,回以新的事件和对话,对每个人都会反馈出不同的答案和行动,所以在剧情拓展方面,不可预测并且自由度空前。
图片来源:https://play.aidungeon.io/
AI Dungeon目前使用GPT-3的模型来生成故事。
AI Dungeon文本游戏虽还很稚嫩,但AI应用于游戏代表了游戏业的未来。图片来源:https://play.aidungeon.io/
AI Dungeon代表了ChatGPT对游戏行业可能的颠覆性。当AI应用于游戏,游戏里的剧情将变得不可预测,而是会根据每个用户的选择,形成无限的可能性。并且游戏里的NPC都可以有各自的“生活”,或是影响游戏结局,从而给玩家带来独特的体验。
当然,当下的AI游戏大多数还是基于文本,所以其互动效果类似ChatGPT,事实上这块能力也是基于OpenAI的语言模型构建的。不同点在于游戏版会更具逻辑性,也能够保留对过去交互的记忆,并且是基于大的故事背景而做出的互动。
但在可以想见的未来,当游戏制作时,把游戏中的每一个人物都设计一个AI模型,那将是AIGC深度开发的巨大潜力与机会,制作出真正沉浸感的新游戏。
AIGC会令游戏行业变得更加灵活与复杂;图片来源:A16Z
这10款应用只是AIGC领域的冰山一角,从GPT-3、Bloom的文本生成,DALL-E和Stable Diffusion的图像生成,以及RunwayML、Make-A-Video的视频生成,各类生成式AI产品在近几年中如雨后春笋般涌现。
正如OpenAI CEO Sam Altman所说,AI将是移动互联网后新的基础平台,之后会出现新公司的爆炸式增长。
当然,对于中国来说,当务之急可能还不在应用层,而是模型层。众多有意思的AI产品,背后的基石都是GPT-3.5等基础模型,而国内现在还缺乏一个足够好的基础大模型。这就类似于新AI时代的“IOS、Android”、或是比喻成“云计算操作系统”,如果没有它也就根本无法开发应用,这是一个必须的基础设施。而基于“数据和模型的飞轮效应”,AI大模型开发的时间窗口正在迅速缩短。
当然,目前的GPT-3.5,并不具备真正的推理能力,虽然ChatGPT能回答各种问题,但事实上对回答背后的意义,或是数学公式的理解、诗词背后的情感,ChatGPT还是没有概念的。GPT从1.0发展到3.5,迭代的是收集整合和语言组织能力,而非思维层面。
就像清华教授钱颖一曾经说的,未来人工智能在知识层面会做的很好,但“大学教育的价值不在于记住很多事实,而是训练大脑会思考。”
创造性思维=知识×好奇心和想象力,这在AIGC时代将尤为重要。