人工智能领域迎来了期待已久的“智慧涌现”,受到了全社会的关注和热议,但有相当一部分社会群体,除了关注大模型能否提供实用信息, 也期待大模型的回答能温暖心灵、提供关怀,通俗来讲,他们期待大模型亦能有“人情味”的涌现。
近日,中国社科院社会学所、腾讯研究院、腾讯 SSV 银发科技实验室、腾讯 SSV 数字生态实验室和中国残联公益组织-腾讯无障碍创新实验室联合发布了调教最暖大模型——通过prompt调试并比较国内外大模型“人情味”的小实验。
以下是该文件的核心内容概要:
-
研究背景与问题:
- 社会群体不仅期待大模型提供实用信息,还希望AI的回答能够温暖人心、提供关怀。
- 通过焦点小组讨论,收集了老年人、残疾人和心情低落者对大模型的提问和感受。
-
人情味的定义与测量:
- 人情味通常指人与人之间的温暖感情和兴味。
- 提出了一个“人情味”的测量表,从拟人、共情和表达三个层面进行评估。
-
实验设计与对象:
- 选择了2款国外大模型(GPT-4和Vicuna)和3款国内大模型进行比较。
- 实验时间为2023年10月,考虑到大模型更新迭代快,结论仅代表当时的水平。
-
实验发现:
- 在原始状态下,国内大模型在老年话题相关问答上更具人情味,而国外大模型在心情低落相关问答上表现更佳。
- 经过prompt调试后,GPT-4的人情味得分提升显著,排名快速上升。
-
prompt的撰写与效果:
- 提出了两种类型的prompt:原则型和答案对型,并通过实验发现它们都能显著提升大模型的人情味。
- 分析了不同大模型对两种prompt的响应情况,发现各有适合的prompt类型。
-
实验技巧与最佳组合:
- 分享了如何有效使用prompt来提升大模型的人情味。
- 展示了在不同话题下,哪些大模型与prompt的组合效果最佳。
-
实战分析:
- 探讨了大模型在学习“人情味”方面的难点,发现拟人和共情能力有所提升,但表达友善度的提升较为有限。
-
人类与AI的比较:
- 通过让20位大学生撰写答案并进行人情味测量,发现人类在拟人、共情和表达层面都遥遥领先于AI模型。
-
结论与倡议:
- 强调了“公众科技力”的重要性,鼓励普通人参与到科技创新中,包括弱势群体。
- 通过实验流程的详细描述,展示了普通人如何通过简单的方法提升大模型的人情味。
目前,该报告已上传至开源中国 APP,详情可至「开源中国 APP - 报告模块」下载查看。
APP 下载地址:https://www.oschina.net/app