欢迎阅读 OSCHINA 编辑部出品的开源日报,每天更新一期。
# 2024.5.14
今日要点
腾讯官宣:「混元文生图大模型」全面开源
混元文生图大模型(下称:混元 DiT,Scalable Diffusion Models with Transformers)由腾讯开源,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。
混元 DiT 是一个基于 Diffusion transformer 的文本到图像生成模型,此模型具有中英文细粒度理解能力,混元 DiT 能够与用户进行多轮对话,根据上下文生成并完善图像。这也是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。
开源编程助手Devon上线
用户仅需通过一个命令来安装和运行该工具,以在其 IDE 中进行项目的完整编辑和执行。开源地址:https://github.com/entropy-research/Devon
IBM 开源 Granite 代码模型
IBM 开源了它用于辅助编程的 Granite 代码模型,源代码托管在 GitHub 上,采用 Apache License 2.0 许可证,允许商业使用。
与其它 AI 模型不同的是,IBM 致力于避免模型的版权问题,使用了开放数据集如 GitHub Code Clean、Starcoder、开放代码库和 GitHub issues 等进行训练。Granite 是 decoder-only 代码模型,可用于修 bug、解释代码和生成代码文档,使用了 116 种编程语言的代码进行训练,参数规模 30 亿、80 亿、200 亿和 340 亿。IBM 称测试显示 Granite 在开源代码模型中表现最出色。
https://github.com/ibm-granite/granite-code-models
今日观察
社交观察
OpenAI再次制造了一波焦虑,准确地讲这是一次伪装成春季update的智能交互变革
1.从之前读文看图以及迟滞感明显的语音交互,到GPT-4o的实时多模态自然交互,知道的人知道这意味着什么,大模型从此呆瓜变"真人”,实时能看懂能插嘴说能思考响应还能有各种小情绪的自然交互,让智能真正成其为智能的同时,瞬间变得人人随时随地唾手可得。不能低估交互,能力、场景、用户基数瞬间几何级放大;
2.百分百可以肯定不只是GPT4的后端能力+前端Chatbot聊天机器人,多模态自然交互这部分是GPT-5能力的选择性释放,OpenAI在控制节奏,不会也不愿一次性把GPT5全都放出来,之前表达过这种观点;
3.冲击就是:一批基于GPT做语音等多模态自然交互的,一批基于家庭做情感陪伴的,包括一批基于机器人做具身智能交互界面的,智能硬件底层逻辑需要进一步重构,手机厂商自研模型还需努力,包括一批做情绪计算的,助手、教育、翻译等更危了......想套壳GPT或OTT的,基本都会被GPT反过来盖帽。
4.Siri呆若木鸡,Claude相形失色,Gemini反正不会......客观而言,其它闭源开源还没这么能打的。不过就GPT4动不动卡壳掉链子的那副表现,GPT-4o的用户体验从流畅度来说好不到哪里去,能到发布会演示水平的一丢丢就不错了。尽管昨夜刚上线快到起飞。也明白为什么GPT4之前越来越卡成狗,不愿投入资源了。有了GPT-4o,付费用户没几个人再愿用4。
5.GPT-4o免费可限量用,付费可多用,和GPT3.5以及最近部分免费一样,典型的敞口漏斗营销策略,不过还没充分拉开梯度,导致需求量较大的非开发者非企业用户经常受限的情况在GPT-4o估计会更严重。
6.重新理解摄像头,重新理解机器视觉、听觉。手机等移动终端和碎片场景下的应用爆发力,将不输AI PC等生产力场景,甚至移动引爆会走在前面。这就不是几亿而是几十亿用户的问题了。
如果预估OpenAI手里还没打出来的几张牌,直觉会认为竞争对手一时不好追,竞品在一些基准测试成绩接近GPT4是当下的竞争尺度和维度之一,但接下来维度实际有好几个。
- 微博 胡延平EarthRambler
GPT-4o将免费使用是OpenAI硬刚谷歌
我们都知道OpenAI知所以在这个时间点开这个发布会,主要原因就是因为谷歌的I/O大会会在一天后开始。
OpenAI CEO 山姆·奥特曼的屡次举动,也明显得表现出来,他最忌惮的竞争对手就是谷歌。比如Sora视频曝光,就选择了谷歌Gemini Pro 1.5发布的同期。在Google Cloud Next大会期间,又临时发布了ChatGPT-4 Turbo模型。相反,OpenAI对Anthropic就不太在意,几乎没有对Claude3发布做实质性回应。所以这次OpenAI发布会的实质,预期说是OpenAI的一次技术发布,还不如说是商业策略(竞争)的一次发布。
根据之前的一些相关资料分析,OpenAI担心谷歌的主要原因是,后者的算力资源十分庞大,这就代表着谷歌可以以大力出奇迹的方式,碾压OpenAI的先发优势。当然,更不用说谷歌毕竟是Transformer架构的发明公司,虽然论文的八名作者都离开了,但是起码证明人力资本储备不会比OpenAI差。
- 微博 高飞
GPT-4o深夜炸场,国内外差距又拉大了
国内现在的顶流,我说句不好听的,好多就是拿着现在的开源改一改,训练一下模型。一个开源模型不行,就拿多个,美其名曰“agent”,所以一直都在别人的屁股后面。
老实说,我们有数据,照理说应该最能训练模型。
花大价钱去国外把那些最顶流的华人请回来,我觉得可以搞定。
- 微博 IT源哥
支持将整个网站转变为 LLM 能直接使用的 Markdown
Firecrawl厉害,支持将整个网站转变为 LLM 能直接使用的 Markdown,可以作为爬虫来使用。
Firecrawl是一项 API 服务,它获取 URL,抓取它,并将其转换为干净的 Markdown。他会抓取所有可访问的子页面,并为每个页面提供清晰的markdown内容。无需站点地图。
开源,支持自己托管服务。
项目:github.com/mendableai/firecrawl
主页:firecrawl.dev
- 微博 黄建同学
一个开发思路,程序员可用来赚钱
1、动态漫画,目前非常流行,在各大视频平台都是爆款。
2、动态漫画的逻辑很简单,将小说按镜头拆分,然后给每个镜头配图,配个语音,就能合成视频。
3、AI开源大模型、AI开源文字转语音、AI开源绘画,技术已经成熟,简单整合,就是一个动态漫画的行业解决方案。
具体流程如下:
A. 用开源大模型,将小说拆分成镜头语言。Llama 3、ChatGLM3、Mistral 7B.... 可选模型特别多。
B. 用开源AI生成图片,根据镜头语言,生成图片。stable Diffusion 就能轻松驾驭。
C. 用开源的文字转语音,将小说转换成音频。XTTS、VITS、eSpeak.... 可选模型特别多。
简单整合一下,做成WEB页面,直接卖授权,很好卖的。
目前市面上的解决方案,主要是卖接口,面向C端,生成1分钟的视频收费0.6元+。
面向B端,类似的程序源码几千块,调用API每分钟还得几毛钱。
本地部署,卖个几千块,竞争力很强,不愁客户。
- 微博 天玑-无极领域
媒体观察
OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真
OpenAI说要改变历史,他们做到了。看完发布会的观众们,久久未从巨大的震惊中走出——科幻电影中的「Her」,在此刻成真了!在全场欢呼中,CTO Mira Murati走到台上,为全世界揭晓了OpenAI神秘新产品的面纱。
GPT-4o加持的ChatGPT,和人类的对话丝滑得像个真人,惊掉在场所有观众的下巴。眼看着科幻中的设想一件件成真,活在这个奇点临近的时代,我们何其幸运。
- 新智元
新研究发现部分人工智能系统已擅长“说谎”
近期美国麻省理工学院一个研究团队称,部分人工智能系统已经学会如何欺骗人类,其中包括部分号称已被训练成乐于助人和诚实的系统。该研究成果发表在美国细胞出版社旗下的《模式》杂志上。
文章第一作者、美国麻省理工学院人工智能安全领域博士后彼得·帕克和他的同事们分析了一些文献,重点关注了人工智能系统传播虚假信息的方式——通过习得性欺骗,它们系统地学会了“操纵”他人。
- 人民网
OpenAI隐藏“王炸”,这一次要革Google的命?
AI搜索,真的有机会革掉Google的命吗?现在看来,还有一段不短的路要走。
长达20年未有大变的搜索引擎领域,需要一个新的故事起点。
毕竟,作为Google或者百度搜索用户的我们,对搜索页面泛滥且无用的广告、以及常常“言不及义”的低精度关键词搜索和虚假信息早已经疲惫不堪。
不过也得承认,目前可见的OpenAI的搜索产品形态,并未有“历史性”的创新。 也就是说,AI搜索距离“iPhone时刻”和通用AI搜索爆发的奇点,仍然遥远。
但如果你也相信光的话,你一定会相信奥特曼。
- 智谷趋势
我是如何赢得GPT-4提示工程大赛冠军的
提示工程是一门融合了艺术和科学的学科 —— 它既需要对技术的理解,也需要创造力和战略思维。这篇文章汇编了我一路以来学习到的提示工程策略,这些策略能让 LLM 切实完成你想完成的任务并做到更多!
- 机器之心
今日推荐
开源项目
zellij-org/zellij
https://github.com/zellij-org/zellij
Zellij 是一个终端工作区。它具有终端多路复用器的基本功能(类似于 tmux
或 screen
),但包含许多内置功能,允许用户对其进行扩展并创建自己的个性化环境。
每日一博
逃离 HTML + CSS
当下,构建交互式应用程序的主流技术是 Web 技术,其中包括 HTML、CSS 与 JavaScript。在过去的 10 年,Web 技术生态发生了翻天覆地的变化,包括层出不穷的开发框架,诸如 React、Vue、Svelte,也包括日新月异的前端工程化工具,比如 Webpack、esbuild、Vite 等等。但归根结底,他们都逃不开 HTML、CSS、JavaScript 三剑客的范畴。
Web 技术生态成熟、稳定,然而却存在一个致命的问题,因为使用 Web 技术去构建跨平台应用程序并不是一件简单的事情。
事件点评
腾讯云、阿里云宣布对 .art 域名价格进行调整
腾讯云发布公告称,因收到上游注册局成本价格变动通知,腾讯云决定于 2024 年 5 月 22 日 0 点,对.art 域名后缀(普通词)续费 / 转入价格进行调整:
- 首年注册价格:不变
- 续费价格:175 元
- 转入价格:170 元
点评
这一价格调整反映了域名注册市场的动态变化。腾讯云和阿里云作为主要的云服务提供商,其对.art域名的价格调整可能影响了整个域名注册市场的定价策略。
域名价格的变动还可能影响用户选择注册或续费特定域名的决策。例如,价格上涨可能会导致用户寻找更经济实惠的替代方案,或者在价格较高时选择不续费。
这一事件也显示了云服务提供商在市场中的竞争地位。腾讯云和阿里云作为市场上的主要玩家,他们的价格调整可能会对其他云服务提供商产生影响,迫使他们也进行相应的价格调整。
谷歌展示在 Android 虚拟机中运行 ChromeOS
根据 Android Authority 的报道,谷歌开发了支持在 Android 智能手机中基于虚拟机运行的 ChromeOS。
报道称,这个特别的 ChromeOS 构建版本内部代号为 “ferrochrome”,目标就是用于在虚拟机中运行。根据演示视频,“ferrochrome” 已经能够流畅地在 Google Pixel 8 运行 —— 并且是跑在虚拟机中。
点评
谷歌在Android虚拟机中运行ChromeOS的能力展示了Android操作系统的强大灵活性。通过在Android设备上运行ChromeOS,谷歌证明了Android不仅可以用于智能手机,还可以在多种设备上运行,包括平板电脑、智能手表、电视和汽车仪表盘等。表明Android操作系统具有广泛的应用潜力。
其次,这一技术的发展可能对个人电脑市场产生影响。ChromeOS与Android的结合可能会为用户提供一种新的计算体验,尤其是在移动设备上。虽然目前尚不清楚谷歌是否计划在未来的Pixel设备上推出这一特别版本的ChromeOS,但这种技术的发展可能会为未来的设备带来新的可能性。
最后,这一技术的发展还可能对谷歌自身的产品线产生影响。谷歌目前拥有Android和ChromeOS两个成功的操作系统,它们在功能上相互补充。ChromeOS在Android设备上的运行可能意味着谷歌将更加注重这两个平台的协同发展,而不是将它们合并成一个操作系统。
开源之声
媒体观点
让“真创新”受到“真保护”
“与已有规则不同,本案裁判把握开源许可协议约束力,界定开源代码权利人与软件二次开发者的权利边界,彰显了开源代码基础上二次研发的新成果应予保护,不必完全受制于国外机构单方制定的强制开源规则的鲜明导向。判决结果对于激励创新、促进软件业健康规范发展具有一定意义,给软件开发者吃了‘定心丸’。”苏州知识产权法庭庭长赵晓青谈及该案判决时如是说。
- 人民法院报
李开复谈大模型:ofo式烧钱不可取,看谁先打造出“AI微信”
李开复认为,国内大模型赛道的竞跑从狂奔到长跑,终局发展将取决于各个选手如何有效达到“TC-PMF”(技术成本和产品市场契合度)。
“大模型从训练到服务都很昂贵,算力紧缺是这一赛道的集体挑战,行业应当共同避免陷入不理性的ofo式流血烧钱打法,让大模型能够健康地蓄能长跑。”
- 中国新闻网
算法闭源、调用限次 ,谷歌找到新的AI变现路径?
AlphaFlod 3的未来可能会像GPT一样被包装成一款商用软件,面向不同的用户推出不同的版本。譬如,预测结构的排序可能会成为付费项目的一部分,需要研究人员有偿使用。如今绝大多数研究人员已经习惯了在论文之中附上AlphaFlod 2的预测结果,但随着工具闭源,这一习惯或许也将逐渐改变。
不过,无论是开源还是闭源,是免费还是商用,我们都应尊重DeepMind 与 Isomorphic Labs的选择。毕竟,面对分子生物学理解、调节生物系统复杂的原子相互作用这一命题,AlphaFlod 3确实带领行业向前迈出了一大步,有望实现在统一的框架内准确预测各种生物分子系统的结构。
- 动脉vcbeat
ChatGPT没有做的AI搜索,是不是下一个战场
多模态“抢镜”已久,单纯的语言模型似乎有点寂寞,而AI搜索似乎重新点燃了这方面的热情。它会是继视频和音乐创作之后的下一个AIGC热点领域吗?是不是很快就会进入激烈的“千搜大战”了?
- 视智未来
用户观点
OpenAI发布GPT-4o全能模型:支持实时语音视频交互、速度比GPT-4 Turbo快2倍
- 观点 1:未来需要新的芯片和计算机架构才能实现AGI。不管Sora还是chatGPT,都不是通用人工智能,也没有自主意识, 两次因果放大,跨越三个空间层级——自主信息系统的特点。DNA通过RNA读取信息,表现在蛋白质等生物大分子上,维持细胞运转,这是一次因果放大,更微观层面的扰动引起DNA的突变,也是一次因果放大,所以以DNA为主信息系统实现了两次因果放大,跨越了三个空间层级。同样,大脑思考学习表现在身体行为上,是一次因果放大,自主意识、偶发灵感亦源于更微观层面的扰动,也是一次因果放大,所以说大脑-神经系统也做到了两次因果放大,跨越了三个空间层级。而且这两级因果放大,后一级是非常稳定的,前一级是不稳定的。如果两级放大都非常稳定,就会融合成一级了,若两级都不稳定,那跟自然界一直都有发生的蝴蝶效应没什么区别了。对于前一级放大稳定,后一级不稳定,这其实就是普遍存在的主体行为变化产生的外界影响。现在的计算机只做到了一次因果放大,跨越两个空间层级,所以只是自动信息系统。未来若要冲刺人工智能则需要再下探一级。
甲骨文宣布面向 Java 开发者的 AI 编程工具
- 观点 1:能自动优化屎山代码么😏
- 观点 2:必须推出合适的离线使用环境
---END---
最后,欢迎扫码下载「开源中国 APP」,阅读海量技术报告、程序员极客分享!