1016 早早聊 AI 资讯｜AI 视频生成卷出新高度、23 岁华人博士修复 22 年历史漏洞、GPT4V 自动驾驶五连测、逍遥大模型“一键生成”万字...

系统运维 2023-10-16 捡田螺的小男孩手机阅读

👉👉原文链接👈👈

「行业动态」

◇ AI 视频生成卷出新高度：高清电影画质免费无限玩 🔗 News

Moonvalley 是一款被誉为“最强大的视频生成 AI”的新型 AI，专注于制作各种风格的高清、16:9 视频，免费提供访问，目前处于测试阶段，用户可以选择不同风格和视频时长，但结果质量参差不齐。Moonvalley 的创作者团队拥有强大的人工智能背景，已筹集 3600 万美元资金，并积极招募机器学习工程师，旨在创建可控的 AI 视频生成模型。

官网：moonvalley.ai/

◇ Midjourney 微调动漫模型 Nijijourney APP 上架 App Store 🔗 Twitter

Nijijourney APP 基本可以使用 Discord 版本图片生成的所有功能；

网页版本的图片查看和管理也被集成到了 APP 里面；

增加了一个 Live 直播的功能，会实时显示后台新生成的图片；

图片生成功能全部 UI 化，不用打那些复杂的命令。

◇ 火爆外网！23 岁华人博士修复 22 年历史漏洞 🔗 News

中国 23 岁的斯坦福大学博士生 Yifan Zhu 成功修复了 Firefox 浏览器中持续了 22 年的一个错误。这个问题涉及工具提示在将浏览器切换到后台后仍然保留在屏幕上，一直自 2002 年以来存在于 Firefox 中。尽管多人尝试修复，但一直没有解决。Zhu 第一次遇到这个问题是在 Linux 上使用 Thunderbird 时，他决定提交错误报告，尽管这是一个小的视觉问题。他的修复在 Firefox 失去焦点时显示工具提示，经过 Emilio Cobos Álvarez 的改进，最终解决了这个长期存在的问题，尽管引入了一些新问题，这一贡献受到了高度赞扬。

◇ 字节跳动李航：对语言大模型的若干观察和思考 🔗 News

ByteDance Research 负责人李航，讨论了大型语言模型（LLM）的突破和潜在应用。LLM 的关键突破包括规模、预训练、微调和强化学习。它能近似生成心智语言，但需要与多模态大型模型结合以更好地理解世界。然而 LLM 本身在逻辑推理方面有限，需要增强这方面的能力。文章探讨了 LLM 的发展历程，从 GPT-1 到 ChatGPT，以及其在解决各种任务中的智能性。它强调了 LLM 的优点，如解决通用性问题和提高智能性，但也指出了需要解决成本、真实性和可信赖性等问题。最后讨论了多个重要研究课题，包括优化、真实性、伦理、理论、多模态处理和逻辑推理，以及人脑和心智之间的关系。

◇ “大大震惊”一位 CTO：GPT-4V 自动驾驶五连测 🔗 News

GPT-4V 的问世引发了广泛的关注，特别是在自动驾驶领域，图森未来中国的 CTO 王乃岩在知乎上发表了题为《GPT-4V 在自动驾驶中初探》的文章。测试结果令人震惊，强调了 GPT-4V 在图像感知方面的卓越表现。文章指出，虽然大型模型已经解决了自动驾驶中的语义问题，但在可信性和空间感知方面仍需要改进。多次场景测试中，GPT-4V 在未知障碍物的识别方面表现出色，但在某些情况下对路面积水的理解需要额外提示，有时方向识别错误。文章还提到了 GPT-4V 在特定语境下的卓越表现，但也指出了需要多次提示工程才能提供准确信息的情况。总之，虽然 GPT-4V 展现出强大的泛化性能，但是否直接实现端到端自动驾驶仍然需要深入讨论。

◇ 21 岁 SpaceX 实习生用 AI 干出重大考古事件 🔗 News

21 岁的计算机科学专业学生卢克·法里托成功破译了埋在火山灰中 2000 年的赫库兰尼姆古卷，该卷轴多年来一直未打开，成为维苏威火山挑战赛的首位无需打开卷轴的获胜者，奖金为 40,000 美元。他使用机器学习模型辨认裂纹图案和墨水痕迹，揭示出古希腊文字，如“πορφυρας”（紫色染料/紫色衣服）。另一参与者 Youssef Nader 也用机器学习技术获得 10,000 美元的二等奖。专家已确认卷轴上存在文字“ανυοντα”（已实现）和“ομοιων”（类似），未来研究有望揭示更多文本内容。

◇ 中文在线发布逍遥大模型，“一键生成”万字小说 🔗 News

中国网络文学平台中文在线发布了名为“中文逍遥大模型”的人工智能辅助内容创作大模型，号称全球首个百万字创意模型，旨在引入“人+算法”的内容生产方式。这一模型可以帮助作者生成小说故事大纲、章节摘要，甚至模拟人物对话等创意功能。阅文集团拥有大规模的数字内容资源库，并计划继续投资改进人工智能辅助内容创作，以强化优质内容的创作。虽然缺乏详细的历史和开发成本信息，但该公司一直积极探索人工智能内容创作，并在开发多种人工智能辅助工具，以适应不断变化的内容需求。

◇ FlashAttention 重磅升级，别再「浪费」GPU 了 🔗 News

"Flash-Decoding"是一项由 Tri Dao 等人提出的技术，旨在显著提升大型语言模型在处理长文本时的推理速度。这项技术通过引入"FlashAttention"，实现了高达 8 倍的处理速度提升，解决了长文本的注意力计算瓶颈问题。Flash-Decoding 的三个主要步骤包括分解键/值为小块、并行化注意力计算和最终的合并步骤。经过基准测试，CodeLLaMa-34b 模型显示 Flash-Decoding 可以将解码速度提高多达 8 倍，即使处理较长序列也能保持一致的运行时间。Flash-Decoding 可通过 FlashAttention 和 xFormers 包访问，提供了高效的解码代码示例，使大型语言模型更有效地处理长文本和文档。

Github: github.com/Dao-AILab/f…

◇ 万物皆可“复制粘贴”！苹果商店新上的 AR 应用火了 🔗 News

AR Code 是一项允许用户使用增强现实技术在现实世界中“复制和粘贴”对象的创新技术，早在 iOS 17 发布之前就备受欢迎，其操作方式包括通过扫描目标对象并在屏幕上生成相同的 AR 版本。这项技术可用于复制各种物体，从灯具到家具，甚至大型雕塑。AR Code 基于 Object Capture 技术，由苹果在 WWDC 2021 上推出，利用 RGB 摄像头和激光雷达进行数据收集，创建对象的 3D 模型和纹理数据。Maxime Maisonneuve 于 2022 年 10 月创立了 AR Code，它有潜在的用途，包括家具试用和其他创意应用，如为老板“端茶”，突显了其功能和有趣的应用潜力。

◇ OpenAI 的年收入目标为 13 亿美元 🔗 News

OpenAI 首席执行官 Sam Altman 在内部宣布公司年收入目标为 13 亿美元，比之前泄露的 10 亿美元收入目标高出 30%。这一收入增长的主要来源是 ChatGPT Plus 的订阅，月收入超过 1 亿美元。去年在没有 ChatGPT Plus 的情况下，OpenAI 的收入仅为 2800 万美元，导致公司遭受了 5.4 亿美元的损失。OpenAI 的新估值预计将高达 900 亿美元，受到过去几个月收入增加和快速增长的推动，公司计划向外部投资者出售股份。然而类似 GPT-4 这样的模型的运营成本目前尚不清楚，也不确定是否超过了收入，因为生成式人工智能和新模型的研发成本高昂，OpenAI 可能仍然处于亏损状态。OpenAI 似乎正计划通过研究人工智能芯片市场和最终用户硬件业务来实现多元化。

◇ 日本伊藤園首次使用 AI 模特拍摄广告 🔗 Twitter

AI 模特的优点：

外观可以随意定制

没有丑闻风险

成本可忽略不计

能够扮演任何角色/场景

◇ 12 个必备的 AI 工具 🔗 Twitter

ChatGPT 是 openai 创建的聊天机器人，它使用自然语言处理来生成类似人类的对话。 

Ximilar 是一种图像识别和分析工具，它使用机器学习来识别图像和视频中的对象和场景。 

Moodbit 是一款情商工具，它使用自然语言处理来分析和测量文本中的情感语言，帮助企业改善沟通和员工福祉。 

Knoyd 是一个预测分析平台，它使用机器学习为企业提供数据驱动的见解和预测。 

Chorus.AI 是一种对话分析工具，它使用自然语言处理来分析销售电话并提供有关客户情绪、产品反馈和销售业绩的见解。 

Receptiviti 是一种人格分析工具，它使用自然语言处理来分析语言模式并提供有关人格特征和情绪状态的见解。 

Paragone 是一种文本分析工具，它使用自然语言处理从大量非结构化文本数据中提取见解和趋势。 

Ayasdi 是一种数据分析和可视化工具，它使用机器学习来揭示复杂数据集中隐藏的模式和见解。 

Arria NLG 是一种自然语言生成工具，它使用机器学习从数据生成类似人类的语言，使企业能够自动编写报告和其他书面通信。 

Cognitivescale 是一个认知自动化平台，它使用机器学习来自动化复杂的业务流程，例如客户服务和供应链管理。 

Grammarly 是一款写作助手，它使用人工智能来检测写作中的语法、拼写和标点符号错误，并建议更有效的词汇和写作风格。

Hootsuite Insights 是一款社交媒体监控工具，可帮助企业监控社交媒体对话并跟踪品牌声誉、客户情绪和行业趋势。 

◇ DALL-E 3 的 4 种使用方法 🔗 News

在 Microsoft Bing Chat 中使用 DALL·E-3：

只需在 Bing Chat 对话框中输入文本提示即可生成图像。

在 Bing Image Create 中使用 DALL·E-3：

访问网站 www.bing.com/images/crea… 并输入文本提示以生成图像。

注意：微软每周提供 25 个免费生成代币。

通过 OpenAI Labs 使用 DALL·E-3：

访问 labs.openai.com 并登录 OpenAI 帐户。

在对话框中输入描述，然后单击“生成”以创建图像。

可以编辑、共享和保存生成的图像。

通过 API 使用 DALL·E-3：

开发人员可以使用 OpenAI API 将 DALL·E-3 集成到他们的应用程序中。

在 platform.openai.com/account/api… 注册 API 密钥。

安装 OpenAI Python 库并调用 API 来生成图像。

「融资快讯」

◇ 「金睛云华」完成近亿元 B 轮融资 🔗 News

北京金睛云华科技最近完成了近亿元的 B 轮融资，由奇安投资、永信至诚共同参投。这笔资金将用于开发网络安全领域的大型产品、扩大研发团队以及拓宽产品市场。金睛云华成立于 2016 年，专注于 NDR、EDR、MDR、XDR 解决方案的网络安全产品和服务，以基于 AI 的检测和分析为特点。公司推出了名为“CyberGPT”的大型模型，覆盖 50 余种威胁检测，并支持 10 余种安全运营类别。这一大型模型通过预训练和多模态迁移学习算法微调，构建在高质量数据基础上，被视为网络安全领域的游戏规则改变者，为威胁检测和安全运营提供显著改进。金睛云华的产品和服务广泛应用于各领域，拥有庞大的客户群，创始人曲武是人工智能和网络安全专家，具备丰富的经验和背景，包括在华为和奇虎 360 等组织工作。

「早点趣玩」

◇ 通过强化学习训练 AI 玩 Pokemon 🔗 Twitter

Github: github.com/PWhiddy/Pok…

「技术阅读」

◇ GPT-4V 案例分析 🔗 Twitter

◇ 对人工智能联盟持激进乐观态度的论据 🔗 Twitter

急速左转可能不会发生，因为人工智能训练与进化有很大不同；

不认为内特的例子实际上表明了我们所担心的错误概括；

人工智能是白盒子，而我们是天生的奖励系统；

安全思维不适合人工智能；

对于接受 SGD 训练的 AI 来说，内部错位（或者至少是梯度黑客）非常困难；

预计相当弱的先验能够很好地使人工智能与人类价值观保持一致，并且许多复杂性可以转移到学习过程中。

◇ 多模态 LLMs 为 RAG 应用带来新机会 🔗 Twitter

使用 LLaVA-7b 作为演示的一些想法和指南：

图像预处理为文本，多模态 LLM 将图像转化为文本，嵌入并提取图像摘要作为文本块，与标准的 RAG 类似。

检索图像，多模态 LLM 创建图像摘要（与第 1 点相同），但检索原始图像（多向量检索器允许此操作）。在 RAG 中检索多模态 LLM 的图像和文本。

指南 1:github.com/langchain-a…

指南 2:github.com/langchain-a…