首个图文混合创作大模型“书生·浦语灵笔”开源

2023年 10月 12日 43.2k 0

上海人工智能实验室(上海 AI 实验室)宣布推出首个图文混合创作大模型书生·浦语灵笔(InternLM-XComposer,简称“浦语灵笔”),依托强大的多模态性能,解锁“一键生成”图文混合文章的创作能力,为大模型落地应用提供更多可能。

目前,浦语灵笔已开源其中的智能创作和对话(InternLM-XComposer-7B)及多任务预训练(InternLM-XComposer-VL-7B)版本,并提供免费商用。

此前,上海AI实验室曾陆续开源了书生·浦语大语言模型的7B(InterLM-7B)及20B(InternLM-20B)版本。基于书生·浦语大语言模型(InternLM),浦语灵笔接受视觉和语言模态输入,不仅在图文对话方面表现优秀,更具备图文并茂文章的“一键生成”能力。

浦语灵笔能够进行流利的中英文图文对话,准确理解图像内容;并解锁了图文并茂文章创作的全新能力。除自动配图能力外,浦语灵笔还提供了配图推荐和更换功能,根据用户实际需求定制图文内容。

首个图文混合创作大模型“书生·浦语灵笔”开源-1

目前,浦语灵笔已支持科普文稿、营销广告、新闻稿件、影视评论、生活指南等类型文章的图文并茂生成,并将逐渐开放更多能力。

首个图文混合创作大模型“书生·浦语灵笔”开源-2

浦语灵笔为图文文章创作设计了“三步走”的算法流程:

  • 理解用户指令,创作符合主题要求的长文章。
  • 智能分析文章,模型自动规划插图的理想位置,并生成所需图像的内容要求。
  • 多层次智能筛选,利用多模态大模型的图像理解能力,从图库中锁定最完美的图片。

研究人员采用5个主流的多模态大模型评测对InternLM-XComposer-VL-7B的能力进行了详细测试。

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论