发布日期:2026-06-19 09:21 点击次数:124

评估模子 (Judge models) 是一种 用于评估其他神经网络的神经网络开yun体育网。大多数情况下它们用来评估生成文本的质地。
评估模子涵盖的范围很广,从袖珍的特定分类器 (举例 “垃圾邮件分类器”) 到大型的 LLM,或大而广、或小而专。使用 LLM 算作评估模子时,需要提供一个 prompt 来评释对模子评分的详情 (举例:请对语句通顺度从 0 到 5 评分,0 分默示齐全不行领会,…)。
使用模子算作评估用具不错对文本中复杂和轻细的特质有用的评估。
举例精准匹配瞻望文本和参考文本的任务,只可评估模子瞻望正确事实或数字的能力。但要评估更怒放性的教养能力 (如文本通顺水平、诗词文体质地或输入针织进度) 则需要更复杂的评价用具。
这便是评估模子开端的切入点。
它们频繁用于三大任务。
为生成文本打分:使用事先界说的评分圭臬与范围来评估文本的某些属性 (如通顺度、无益性、一致性、劝服力等)。
成对比较:对比模子的两个输出,以选出在给定属性上推崇更好的文本。
张开剩余63%策动文本一样度:用于评估参考文本和模子输出的匹配进度。
注:本文现在主要激情 LLM + prompt 的评估行动。不外提议你仍是了解一下简便分类器评估模子的使命旨趣,因为这种行动在好多测试用例中都具有知晓的推崇。最近也出现了一些新的有出路的行动,举例奖励模子算作评估模子
LLM 评估模子的优残障:
上风:
客不雅性:与东谈主类比较,LLM 评估模子在自动化地作念出教养性判断时愈加客不雅。
限制化和可复现:LLM 评估模子不错在非常大限制数据上作念评估,况兼评估后果不错复现。
老本较低:与支付东谈主工标注员报酬比较,由于无需磨真金不怕火新模子,只有使用现存的高质地 LLM 和 prompt 就不错进行评价任务,因此评估模子老本较低。
与东谈主类判断对王人:LLM 评估后果在一定进度上与东谈主类的判断具有关系性。
残障:
LLM 评估模子看似客不雅,试验上具有更难被检测到的 粉饰偏差,这是因为咱们无法主动地发掘这些偏差 (参考 手段与领导 著作)。此外,缓解东谈主类偏差不错通过想象一些内容具体或统计清静的探问问卷的阵势 (这在社会学界限已有近百年的扣问),而缓解 LLM 偏差的阵势就没那么进修了。另外,使用 LLM 评估 LLM 可能会产生 “答信室效应”,即潜移暗化地加强了模子的固有偏差。
LLM 评估模子固然具有限制化上风,但同期也会生成大批的数据需要仔细查验。举例模子不错生成念念维旅途或数据推理,但产生的后果需要更多的分析。
LLM 评估模子在频繁情况下低廉,但在某些具体任务中如需赢得质地更高的评估后果而遴聘群众级东谈主工标注员,那么老本会相应加多。
发布于:湖南省