开源日报 | OpenAI硬刚谷歌；部分人工智能系统已擅长“说谎”；看谁先打造出“AI微信”；一个能搞钱的开发思路

运维资讯 2024-05-14 大猫手机阅读

欢迎阅读 OSCHINA 编辑部出品的开源日报，每天更新一期。

# 2024.5.14

今日要点

腾讯官宣：「混元文生图大模型」全面开源

混元文生图大模型（下称：混元 DiT，Scalable Diffusion Models with Transformers）由腾讯开源，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构，不仅可支持文生图，也可作为视频等多模态视觉生成的基础。

混元 DiT 是一个基于 Diffusion transformer 的文本到图像生成模型，此模型具有中英文细粒度理解能力，混元 DiT 能够与用户进行多轮对话，根据上下文生成并完善图像。这也是业内首个中文原生的 DiT 架构文生图开源模型，支持中英文双语输入及理解，参数量 15 亿。

开源日报 | OpenAI硬刚谷歌；部分人工智能系统已擅长“说谎”；看谁先打造出“AI微信”；一个能搞钱的开发思路-每日运维

开源编程助手Devon上线

用户仅需通过一个命令来安装和运行该工具，以在其 IDE 中进行项目的完整编辑和执行。开源地址：https://github.com/entropy-research/Devon

开源日报 | OpenAI硬刚谷歌；部分人工智能系统已擅长“说谎”；看谁先打造出“AI微信”；一个能搞钱的开发思路-每日运维

IBM 开源 Granite 代码模型

IBM 开源了它用于辅助编程的 Granite 代码模型，源代码托管在 GitHub 上，采用 Apache License 2.0 许可证，允许商业使用。

与其它 AI 模型不同的是，IBM 致力于避免模型的版权问题，使用了开放数据集如 GitHub Code Clean、Starcoder、开放代码库和 GitHub issues 等进行训练。Granite 是 decoder-only 代码模型，可用于修 bug、解释代码和生成代码文档，使用了 116 种编程语言的代码进行训练，参数规模 30 亿、80 亿、200 亿和 340 亿。IBM 称测试显示 Granite 在开源代码模型中表现最出色。

https://github.com/ibm-granite/granite-code-models

今日观察

社交观察

OpenAI再次制造了一波焦虑，准确地讲这是一次伪装成春季update的智能交互变革

1.从之前读文看图以及迟滞感明显的语音交互，到GPT-4o的实时多模态自然交互，知道的人知道这意味着什么，大模型从此呆瓜变＂真人”，实时能看懂能插嘴说能思考响应还能有各种小情绪的自然交互，让智能真正成其为智能的同时，瞬间变得人人随时随地唾手可得。不能低估交互，能力、场景、用户基数瞬间几何级放大；

2.百分百可以肯定不只是GPT4的后端能力+前端Chatbot聊天机器人，多模态自然交互这部分是GPT-5能力的选择性释放，OpenAI在控制节奏，不会也不愿一次性把GPT5全都放出来，之前表达过这种观点；

3.冲击就是：一批基于GPT做语音等多模态自然交互的，一批基于家庭做情感陪伴的，包括一批基于机器人做具身智能交互界面的，智能硬件底层逻辑需要进一步重构，手机厂商自研模型还需努力，包括一批做情绪计算的，助手、教育、翻译等更危了......想套壳GPT或OTT的，基本都会被GPT反过来盖帽。

4.Siri呆若木鸡，Claude相形失色，Gemini反正不会......客观而言，其它闭源开源还没这么能打的。不过就GPT4动不动卡壳掉链子的那副表现，GPT-4o的用户体验从流畅度来说好不到哪里去，能到发布会演示水平的一丢丢就不错了。尽管昨夜刚上线快到起飞。也明白为什么GPT4之前越来越卡成狗，不愿投入资源了。有了GPT-4o，付费用户没几个人再愿用4。

5.GPT-4o免费可限量用，付费可多用，和GPT3.5以及最近部分免费一样，典型的敞口漏斗营销策略，不过还没充分拉开梯度，导致需求量较大的非开发者非企业用户经常受限的情况在GPT-4o估计会更严重。

6.重新理解摄像头，重新理解机器视觉、听觉。手机等移动终端和碎片场景下的应用爆发力，将不输AI PC等生产力场景，甚至移动引爆会走在前面。这就不是几亿而是几十亿用户的问题了。

如果预估OpenAI手里还没打出来的几张牌，直觉会认为竞争对手一时不好追，竞品在一些基准测试成绩接近GPT4是当下的竞争尺度和维度之一，但接下来维度实际有好几个。

- 微博胡延平EarthRambler

GPT-4o将免费使用是OpenAI硬刚谷歌

我们都知道OpenAI知所以在这个时间点开这个发布会，主要原因就是因为谷歌的I/O大会会在一天后开始。
OpenAI CEO 山姆·奥特曼的屡次举动，也明显得表现出来，他最忌惮的竞争对手就是谷歌。比如Sora视频曝光，就选择了谷歌Gemini Pro 1.5发布的同期。在Google Cloud Next大会期间，又临时发布了ChatGPT-4 Turbo模型。相反，OpenAI对Anthropic就不太在意，几乎没有对Claude3发布做实质性回应。所以这次OpenAI发布会的实质，预期说是OpenAI的一次技术发布，还不如说是商业策略（竞争）的一次发布。

根据之前的一些相关资料分析，OpenAI担心谷歌的主要原因是，后者的算力资源十分庞大，这就代表着谷歌可以以大力出奇迹的方式，碾压OpenAI的先发优势。当然，更不用说谷歌毕竟是Transformer架构的发明公司，虽然论文的八名作者都离开了，但是起码证明人力资本储备不会比OpenAI差。

- 微博高飞

GPT-4o深夜炸场，国内外差距又拉大了

国内现在的顶流，我说句不好听的，好多就是拿着现在的开源改一改，训练一下模型。一个开源模型不行，就拿多个，美其名曰“agent”，所以一直都在别人的屁股后面。

老实说，我们有数据，照理说应该最能训练模型。

花大价钱去国外把那些最顶流的华人请回来，我觉得可以搞定。

- 微博 IT源哥

支持将整个网站转变为 LLM 能直接使用的 Markdown

Firecrawl厉害，支持将整个网站转变为 LLM 能直接使用的 Markdown，可以作为爬虫来使用。

Firecrawl是一项 API 服务，它获取 URL，抓取它，并将其转换为干净的 Markdown。他会抓取所有可访问的子页面，并为每个页面提供清晰的markdown内容。无需站点地图。

开源，支持自己托管服务。

项目：github.com/mendableai/firecrawl
主页：firecrawl.dev

- 微博黄建同学

一个开发思路，程序员可用来赚钱

1、动态漫画，目前非常流行，在各大视频平台都是爆款。

2、动态漫画的逻辑很简单，将小说按镜头拆分，然后给每个镜头配图，配个语音，就能合成视频。

3、AI开源大模型、AI开源文字转语音、AI开源绘画，技术已经成熟，简单整合，就是一个动态漫画的行业解决方案。

具体流程如下：

A. 用开源大模型，将小说拆分成镜头语言。Llama 3、ChatGLM3、Mistral 7B.... 可选模型特别多。

B. 用开源AI生成图片，根据镜头语言，生成图片。stable Diffusion 就能轻松驾驭。

C. 用开源的文字转语音，将小说转换成音频。XTTS、VITS、eSpeak.... 可选模型特别多。

简单整合一下，做成WEB页面，直接卖授权，很好卖的。

目前市面上的解决方案，主要是卖接口，面向C端，生成1分钟的视频收费0.6元+。

面向B端，类似的程序源码几千块，调用API每分钟还得几毛钱。

本地部署，卖个几千块，竞争力很强，不愁客户。

- 微博天玑-无极领域

媒体观察

OpenAI一夜改写历史，GPT-4o干翻所有语音助手！丝滑如真人引爆全网科幻成真

OpenAI说要改变历史，他们做到了。看完发布会的观众们，久久未从巨大的震惊中走出——科幻电影中的「Her」，在此刻成真了！在全场欢呼中，CTO Mira Murati走到台上，为全世界揭晓了OpenAI神秘新产品的面纱。

GPT-4o加持的ChatGPT，和人类的对话丝滑得像个真人，惊掉在场所有观众的下巴。眼看着科幻中的设想一件件成真，活在这个奇点临近的时代，我们何其幸运。

- 新智元

新研究发现部分人工智能系统已擅长“说谎”

近期美国麻省理工学院一个研究团队称，部分人工智能系统已经学会如何欺骗人类，其中包括部分号称已被训练成乐于助人和诚实的系统。该研究成果发表在美国细胞出版社旗下的《模式》杂志上。

文章第一作者、美国麻省理工学院人工智能安全领域博士后彼得·帕克和他的同事们分析了一些文献，重点关注了人工智能系统传播虚假信息的方式——通过习得性欺骗，它们系统地学会了“操纵”他人。

- 人民网

OpenAI隐藏“王炸”，这一次要革Google的命？

AI搜索，真的有机会革掉Google的命吗？现在看来，还有一段不短的路要走。

长达20年未有大变的搜索引擎领域，需要一个新的故事起点。

毕竟，作为Google或者百度搜索用户的我们，对搜索页面泛滥且无用的广告、以及常常“言不及义”的低精度关键词搜索和虚假信息早已经疲惫不堪。

不过也得承认，目前可见的OpenAI的搜索产品形态，并未有“历史性”的创新。也就是说，AI搜索距离“iPhone时刻”和通用AI搜索爆发的奇点，仍然遥远。

但如果你也相信光的话，你一定会相信奥特曼。

- 智谷趋势

我是如何赢得GPT-4提示工程大赛冠军的

提示工程是一门融合了艺术和科学的学科 —— 它既需要对技术的理解，也需要创造力和战略思维。这篇文章汇编了我一路以来学习到的提示工程策略，这些策略能让 LLM 切实完成你想完成的任务并做到更多！

- 机器之心

今日推荐

开源项目

zellij-org/zellij

开源日报 | OpenAI硬刚谷歌；部分人工智能系统已擅长“说谎”；看谁先打造出“AI微信”；一个能搞钱的开发思路-每日运维

https://github.com/zellij-org/zellij

Zellij 是一个终端工作区。它具有终端多路复用器的基本功能（类似于 tmux 或 screen），但包含许多内置功能，允许用户对其进行扩展并创建自己的个性化环境。

每日一博

逃离 HTML + CSS

当下，构建交互式应用程序的主流技术是 Web 技术，其中包括 HTML、CSS 与 JavaScript。在过去的 10 年，Web 技术生态发生了翻天覆地的变化，包括层出不穷的开发框架，诸如 React、Vue、Svelte，也包括日新月异的前端工程化工具，比如 Webpack、esbuild、Vite 等等。但归根结底，他们都逃不开 HTML、CSS、JavaScript 三剑客的范畴。

Web 技术生态成熟、稳定，然而却存在一个致命的问题，因为使用 Web 技术去构建跨平台应用程序并不是一件简单的事情。

开源日报 | OpenAI硬刚谷歌；部分人工智能系统已擅长“说谎”；看谁先打造出“AI微信”；一个能搞钱的开发思路-每日运维

事件点评

腾讯云、阿里云宣布对 .art 域名价格进行调整

腾讯云发布公告称，因收到上游注册局成本价格变动通知，腾讯云决定于 2024 年 5 月 22 日 0 点，对.art 域名后缀（普通词）续费 / 转入价格进行调整：

首年注册价格：不变
续费价格：175 元
转入价格：170 元

开源日报 | OpenAI硬刚谷歌；部分人工智能系统已擅长“说谎”；看谁先打造出“AI微信”；一个能搞钱的开发思路-每日运维

点评

这一价格调整反映了域名注册市场的动态变化。腾讯云和阿里云作为主要的云服务提供商，其对.art域名的价格调整可能影响了整个域名注册市场的定价策略。

域名价格的变动还可能影响用户选择注册或续费特定域名的决策。例如，价格上涨可能会导致用户寻找更经济实惠的替代方案，或者在价格较高时选择不续费。

这一事件也显示了云服务提供商在市场中的竞争地位。腾讯云和阿里云作为市场上的主要玩家，他们的价格调整可能会对其他云服务提供商产生影响，迫使他们也进行相应的价格调整。

谷歌展示在 Android 虚拟机中运行 ChromeOS

根据 Android Authority 的报道，谷歌开发了支持在 Android 智能手机中基于虚拟机运行的 ChromeOS。

报道称，这个特别的 ChromeOS 构建版本内部代号为 “ferrochrome”，目标就是用于在虚拟机中运行。根据演示视频，“ferrochrome” 已经能够流畅地在 Google Pixel 8 运行 —— 并且是跑在虚拟机中。

开源日报 | OpenAI硬刚谷歌；部分人工智能系统已擅长“说谎”；看谁先打造出“AI微信”；一个能搞钱的开发思路-每日运维

点评

谷歌在Android虚拟机中运行ChromeOS的能力展示了Android操作系统的强大灵活性。通过在Android设备上运行ChromeOS，谷歌证明了Android不仅可以用于智能手机，还可以在多种设备上运行，包括平板电脑、智能手表、电视和汽车仪表盘等。表明Android操作系统具有广泛的应用潜力。

其次，这一技术的发展可能对个人电脑市场产生影响。ChromeOS与Android的结合可能会为用户提供一种新的计算体验，尤其是在移动设备上。虽然目前尚不清楚谷歌是否计划在未来的Pixel设备上推出这一特别版本的ChromeOS，但这种技术的发展可能会为未来的设备带来新的可能性。

最后，这一技术的发展还可能对谷歌自身的产品线产生影响。谷歌目前拥有Android和ChromeOS两个成功的操作系统，它们在功能上相互补充。ChromeOS在Android设备上的运行可能意味着谷歌将更加注重这两个平台的协同发展，而不是将它们合并成一个操作系统。

开源之声

媒体观点

让“真创新”受到“真保护”

“与已有规则不同，本案裁判把握开源许可协议约束力，界定开源代码权利人与软件二次开发者的权利边界，彰显了开源代码基础上二次研发的新成果应予保护，不必完全受制于国外机构单方制定的强制开源规则的鲜明导向。判决结果对于激励创新、促进软件业健康规范发展具有一定意义，给软件开发者吃了‘定心丸’。”苏州知识产权法庭庭长赵晓青谈及该案判决时如是说。

- 人民法院报

李开复谈大模型：ofo式烧钱不可取，看谁先打造出“AI微信”

李开复认为，国内大模型赛道的竞跑从狂奔到长跑，终局发展将取决于各个选手如何有效达到“TC-PMF”(技术成本和产品市场契合度)。

“大模型从训练到服务都很昂贵，算力紧缺是这一赛道的集体挑战，行业应当共同避免陷入不理性的ofo式流血烧钱打法，让大模型能够健康地蓄能长跑。”

- 中国新闻网

算法闭源、调用限次，谷歌找到新的AI变现路径？

AlphaFlod 3的未来可能会像GPT一样被包装成一款商用软件，面向不同的用户推出不同的版本。譬如，预测结构的排序可能会成为付费项目的一部分，需要研究人员有偿使用。如今绝大多数研究人员已经习惯了在论文之中附上AlphaFlod 2的预测结果，但随着工具闭源，这一习惯或许也将逐渐改变。

不过，无论是开源还是闭源，是免费还是商用，我们都应尊重DeepMind 与 Isomorphic Labs的选择。毕竟，面对分子生物学理解、调节生物系统复杂的原子相互作用这一命题，AlphaFlod 3确实带领行业向前迈出了一大步，有望实现在统一的框架内准确预测各种生物分子系统的结构。

- 动脉vcbeat

ChatGPT没有做的AI搜索，是不是下一个战场

多模态“抢镜”已久，单纯的语言模型似乎有点寂寞，而AI搜索似乎重新点燃了这方面的热情。它会是继视频和音乐创作之后的下一个AIGC热点领域吗？是不是很快就会进入激烈的“千搜大战”了？

- 视智未来

用户观点

OpenAI发布GPT-4o全能模型：支持实时语音视频交互、速度比GPT-4 Turbo快2倍

观点 1：未来需要新的芯片和计算机架构才能实现AGI。不管Sora还是chatGPT，都不是通用人工智能，也没有自主意识，两次因果放大，跨越三个空间层级——自主信息系统的特点。DNA通过RNA读取信息，表现在蛋白质等生物大分子上，维持细胞运转，这是一次因果放大，更微观层面的扰动引起DNA的突变，也是一次因果放大，所以以DNA为主信息系统实现了两次因果放大，跨越了三个空间层级。同样，大脑思考学习表现在身体行为上，是一次因果放大，自主意识、偶发灵感亦源于更微观层面的扰动，也是一次因果放大，所以说大脑-神经系统也做到了两次因果放大，跨越了三个空间层级。而且这两级因果放大，后一级是非常稳定的，前一级是不稳定的。如果两级放大都非常稳定，就会融合成一级了，若两级都不稳定，那跟自然界一直都有发生的蝴蝶效应没什么区别了。对于前一级放大稳定，后一级不稳定，这其实就是普遍存在的主体行为变化产生的外界影响。现在的计算机只做到了一次因果放大，跨越两个空间层级，所以只是自动信息系统。未来若要冲刺人工智能则需要再下探一级。

甲骨文宣布面向 Java 开发者的 AI 编程工具

观点 1：能自动优化屎山代码么😏

观点 2：必须推出合适的离线使用环境

---END---

最后，欢迎扫码下载「开源中国 APP」，阅读海量技术报告、程序员极客分享！

开源日报 | OpenAI硬刚谷歌；部分人工智能系统已擅长“说谎”；看谁先打造出“AI微信”；一个能搞钱的开发思路-每日运维

开源日报 | OpenAI硬刚谷歌；部分人工智能系统已擅长“说谎”；看谁先打造出“AI微信”；一个能搞钱的开发思路

# 2024.5.14

今日要点

腾讯官宣：「混元文生图大模型」全面开源

开源编程助手Devon上线

IBM 开源 Granite 代码模型

今日观察

社交观察

OpenAI再次制造了一波焦虑，准确地讲这是一次伪装成春季update的智能交互变革

GPT-4o将免费使用是OpenAI硬刚谷歌

GPT-4o深夜炸场，国内外差距又拉大了

支持将整个网站转变为 LLM 能直接使用的 Markdown

一个开发思路，程序员可用来赚钱

媒体观察

OpenAI一夜改写历史，GPT-4o干翻所有语音助手！丝滑如真人引爆全网科幻成真

新研究发现部分人工智能系统已擅长“说谎”

OpenAI隐藏“王炸”，这一次要革Google的命？

我是如何赢得GPT-4提示工程大赛冠军的

今日推荐

开源项目

zellij-org/zellij

每日一博

逃离 HTML + CSS

事件点评

腾讯云、阿里云宣布对 .art 域名价格进行调整

谷歌展示在 Android 虚拟机中运行 ChromeOS

开源之声

媒体观点

让“真创新”受到“真保护”

李开复谈大模型：ofo式烧钱不可取，看谁先打造出“AI微信”

算法闭源、调用限次 ，谷歌找到新的AI变现路径？

ChatGPT没有做的AI搜索，是不是下一个战场

用户观点

OpenAI发布GPT-4o全能模型：支持实时语音视频交互、速度比GPT-4 Turbo快2倍

甲骨文宣布面向 Java 开发者的 AI 编程工具

AMD完成Nod.ai收购以增强开源人工智能能力

Eclipse Vert.x 4.5.0 发布，虚拟线程支持

微软再次提醒Windows 10用户，是时候使用Windows 11更新弹出窗口了

Etnaviv NPU优化使其进入Mesa 24.1

英特尔第五代至强“翡翠急流”AVX512性能

算法闭源、调用限次，谷歌找到新的AI变现路径？