国内外大模型“人情味”PK，调教最暖大模型

运维资讯 2024-05-16 大猫手机阅读

人工智能领域迎来了期待已久的“智慧涌现”，受到了全社会的关注和热议，但有相当一部分社会群体，除了关注大模型能否提供实用信息，也期待大模型的回答能温暖心灵、提供关怀，通俗来讲，他们期待大模型亦能有“人情味”的涌现。

近日，中国社科院社会学所、腾讯研究院、腾讯 SSV 银发科技实验室、腾讯 SSV 数字生态实验室和中国残联公益组织-腾讯无障碍创新实验室联合发布了调教最暖大模型——通过prompt调试并比较国内外大模型“人情味”的小实验。

国内外大模型“人情味”PK，调教最暖大模型-每日运维

以下是该文件的核心内容概要：

研究背景与问题：
- 社会群体不仅期待大模型提供实用信息，还希望AI的回答能够温暖人心、提供关怀。
- 通过焦点小组讨论，收集了老年人、残疾人和心情低落者对大模型的提问和感受。
人情味的定义与测量：
- 人情味通常指人与人之间的温暖感情和兴味。
- 提出了一个“人情味”的测量表，从拟人、共情和表达三个层面进行评估。
实验设计与对象：
- 选择了2款国外大模型（GPT-4和Vicuna）和3款国内大模型进行比较。
- 实验时间为2023年10月，考虑到大模型更新迭代快，结论仅代表当时的水平。
实验发现：
- 在原始状态下，国内大模型在老年话题相关问答上更具人情味，而国外大模型在心情低落相关问答上表现更佳。
- 经过prompt调试后，GPT-4的人情味得分提升显著，排名快速上升。
prompt的撰写与效果：
- 提出了两种类型的prompt：原则型和答案对型，并通过实验发现它们都能显著提升大模型的人情味。
- 分析了不同大模型对两种prompt的响应情况，发现各有适合的prompt类型。
实验技巧与最佳组合：
- 分享了如何有效使用prompt来提升大模型的人情味。
- 展示了在不同话题下，哪些大模型与prompt的组合效果最佳。
实战分析：
- 探讨了大模型在学习“人情味”方面的难点，发现拟人和共情能力有所提升，但表达友善度的提升较为有限。
人类与AI的比较：
- 通过让20位大学生撰写答案并进行人情味测量，发现人类在拟人、共情和表达层面都遥遥领先于AI模型。
结论与倡议：
- 强调了“公众科技力”的重要性，鼓励普通人参与到科技创新中，包括弱势群体。
- 通过实验流程的详细描述，展示了普通人如何通过简单的方法提升大模型的人情味。