Jina AI 发布全球首个开源 8K 文本嵌入模型,超越 OpenAI

2023年 10月 26日 40.4k 0

人工智能公司Jina AI 宣布推出其第二代文本嵌入模型: jina-embeddings-v2 。这款模型现在是唯一支持 8K(8192个 token)上下文长度的开源产品。在能力和性能上与OpenAI的 text-embedding-ada-002 相当。

与OpenAI的8K模型 text-embedding-ada-002 进行比较,jina-embedding-v2 在分类平均值、重排平均值、检索平均值和摘要平均值方面超越了 OpenAI 的 text-embedding-ada-002

Rank Model Model Size (GB) Embedding Dimensions Sequence Length Average (56 datasets) Classification Average (12 datasets) Reranking Average (4 datasets) Retrieval Average (15 datasets) Summarization Average (1 dataset)
15 text-embedding-ada-002 Unknown 1536 8191 60.99 70.93 84.89 56.32 30.8
17 jina-embeddings-v2-base-en 0.27 768 8192 60.38 73.45 85.38 56.98 31.6

 

text-embedding-ada-002 的特点:

  • 从零到卓越:这个 jina-embeddings-v2 是从头开始构建的。在过去的三个月里,Jina AI的团队进行了密集的研发、数据收集和调整。
  • 利用8K解锁扩展上下文潜力: jina-embeddings-v2 8K的上下文长度为新的行业应用开启了大门:
    • 法律文件分析:确保对大量法律文本中的每一个细节进行捕捉和分析。
    • 医学研究:为了进行高级分析和发现,全面地嵌入科学论文。
    • 文学分析:深入研究长篇内容,捕捉微妙的主题元素。
    • 财务预测:通过详细的财务报告获得卓越的洞察力。
    • 会话式AI:提升聊天机器人对复杂用户查询的响应能力。

同时,基准测试显示,在多个数据集中,这种 8K 上下文长度的扩展使得jina-embeddings-v2超越了其它领先的嵌入模型:

接下来,Jina 将会有一篇相关的学术洞察文章发表。同时团队正在开发类似OpenAI的嵌入式API平台的产品;语言方面,正在进入多语种嵌入领域,目标是推出德英模型。

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论