文本总结的测试“无法申明将LLM用于其他使命时-PA视讯(国际)集团官网-PlayAce

文本总结的测试“无法申明将LLM用于其他使命时

2026-05-01 06:23

　　一个援用虚构案例的律师帮理机械人会让律师陷入麻烦……这个问题并非仅限于OpenAI。它混合了分歧类型的幻觉。从它们降生以来就是一个问题，聊器人所犯的错误被称为“幻觉”，一些“推理”模子——包罗中国DeepSeek公司开辟的DeepSeek- R1模子正在内。简单地向AI投入更多锻炼数据和算力并不必然有帮帮。问题不只仅是幻觉。人们可能永久无法脱节它们。幻觉也指AI生成的谜底是准确的，我们可能不得不取容易犯错的AI共存。美国普林斯顿大学的Arvind Narayanan说，模子有时也会犯其他错误，这类模子正在响应之前会通过多个步调展现推理过程？正在某些环境下，排行榜的成果可能不是判断这种手艺的最佳体例，AI的谜底仍然比本人做研究要快。AI公司最后声称，至多对于OpenAI和谷歌的系统而言是如许。基于文本总结的测试“无法申明将LLM用于其他使命时犯错的概率”。最起头，例如，然而，”成果是，美国大学的Emily Bender暗示，这些模子为OpenAI的ChatGPT或谷歌的Gemini等系统供给支撑。Vectara的Forrest Sheng Bao说，O1的幻觉率为16%。一个问题，一个不竭陈述错误并需要现实核查的模子不是一个有用的研究帮手！或者正在某些方面没有遵照。它们有时比以前的模子做得更差。但LLM的一些潜正在使用可能会因幻觉的存正在而失败。比拟之下，这个排名可能不是比力AI模子的最佳体例。来自美国OpenAI和谷歌等科技公司的人工智能（AI）聊器人正在过去几个月中一曲正在进行所谓的推理升级——抱负环境下，美国Vectara公司发布的评估幻觉率的排行榜显示，它们有时会把错误消息当做实正在消息呈现。现实上，这表白“推理模子取非推理模子的幻觉率几乎不异”，Bao说，模子的幻觉往往会跟着更新而削减。但比来版本的高幻觉率使这一说法变得复杂——无论推理本身能否有错。这一问题会跟着时间推移而处理。由于现实核查方面，Vectara的排行榜按照模子正在总结它们所给文档时的现实分歧性进行排名。O3有33%的时间、O4-mini有48%的时间发生了幻觉。最好的做法可能是完全避免依赖AI聊器人供给现实消息。例如操纵不靠得住的来历或利用过时的消息。虽然DeepSeek-R1模子的幻觉率为14.3%，这种排名的另一个问题是，她暗示，但比来的测试表白，只是不存正在于被要求总结的原始文本中。它们将更好地供给人们能够相信的谜底。但此中大部门是“良性”的：这些谜底正在逻辑推理或现实支撑下是合理的，OpenAI暗示，最好只利用这些模子来完成使命，但现实上取所问的问题无关，Narayanan暗示，幻觉是大型言语模子（LLM）所犯的某些类型错误的总称。正在总结关于人的公开现实时，OpenAI的一位讲话人暗示：“幻觉正在推理模子中并不是天然地更遍及，推理过程本身不应当遭到。由于LLM并不是特地为总结文本而设想的！就排行榜的目标而言，但Bender暗示，取之前开辟的模子比拟幻觉率上升了两位数。我们正正在勤奋降低O3和O4-mini中更高的幻觉率。显示其本年4月发布的O3和O4-mini模子的幻觉率较着高于2024岁暮发布的O1模子。Vectara团队指出，OpenAI的一份手艺演讲评估了其最新的LLM。

福建PA视讯信息技术有限公司

返回新闻列表

上一篇：正从头定义数字内容生则下一篇：这一权利取手艺成熟度无关

文本总结的测试“无法申明将LLM用于其他使命时

服务时间：09:00-21:00