我们估者必须“选择一方”(选择偶数),避免因更大的量表而不知所措,以确保即使在量表中也能获得更准确的答案。我们还为评估者提供了添加注释以解释他们的评分和报告观察结果的选项。为了进一步避免任何系统性偏差,我们对模型名称进行了匿名处理,并随机化了 llm 的响应顺序以进行评估。
人类一致性:为了验证人类评估的可靠性,我们测量了成对的人际一致性。当两个注释者都对 llm 输出的特定准确性维度(例如事实性、简洁性)投“好”(得分为 3/4)或“差”(得分为 1/2)时,则认为他们彼此同意。在三个选定的用例(服务:回复建议、销售:电子邮件生成和服务:通话摘要)中,我们发现人际一致性 telegram日本資源 很高(平均为 78.61%)。请参阅下文了解跨数据集一致性的细分情况。
使用法学硕士 (llm) 进行自动评估
我们还使用 llm 作为评判模型进行了自动评估。与人工评估相比,使用 llm 进行自动评估可 telegram日本資源 提供更具可扩展性、效率更高、更具成本效益的评估流程,并且周转时间更短。具体来说,我们使用 llama3-70b 作为 llm-judge。对于每个准确性维度,我们为 llm-judge 提供了评估指南以及提示中要评估的目标 llm 的输入和输出。评估指南包括特定维度(事实性、简洁性等)的描述和 4 分制评分标准。评估指南明确要求 llm-judge 首先提供一些思路推理,然后以加法方式给出分数(即,如果输出在特定维度上更符合标准,则逐步授予额外分数)。然后,我们将 llm-judge 在数据点上预测的分数的平均值作为最终的维度特定分数。