天眼查顯示,第四范式(北京)技術(shù)有限公司“針對大語言模型的評測方法、裝置、設備及存儲介質(zhì)”專利公布,申請公布日為2024年10月29日,申請公布號為CN118862868A。
本公開涉及一種針對大語言模型的評測方法、裝置、設備及存儲介質(zhì)。構(gòu)建適用于大語言模型的對抗性任務,所述對抗性任務需要多個參與者參與執(zhí)行,且所述對抗性任務的執(zhí)行依賴于參與者的語言理解能力和/或邏輯推理能力;調(diào)用多個大語言模型執(zhí)行所述對抗性任務,每個所述大語言模型對應至少一個參與者;基于任務執(zhí)行信息對所述多個大語言模型進行評測。由于對抗性任務的多樣性和對手的不確定性,大語言模型無法通過提前擬合數(shù)據(jù)集的方式進行數(shù)據(jù)攻擊和評測作弊。因此,可以規(guī)避固定數(shù)據(jù)集的評測方式所存在的缺陷。