牛津大学的研究人员开发了一种方法来识别模型何时 人工语言 据介绍,人工智能存在“产生幻觉”的风险,会产生错误或不准确的反应 新研究发表在《自然》杂志上。
宣传
人工智能中的“幻觉”一词指的是大型语言模型(LLM)产生的那些看似令人信服但不正确的输出 如 GPT-3 da OpenAI 或 克劳德 来自人类。这些缺陷在医学、新闻和法律问题等领域尤其成问题。
“幻觉是一个广泛的类别,几乎可以意味着任何类型的法学硕士错误。我们的重点是法学硕士无缘无故犯错误的情况,而不是因为它接受了不良数据的训练,” 塞巴斯蒂安·法夸尔博士解释说,来自牛津大学计算机科学系。
“以前的方法没有区分模型关于说什么的不确定性和关于如何说的不确定性。我们的方法克服了这个限制,” 法夸尔补充道.
宣传
新技术测量不确定性或varia输出意义的能力 语义熵。换句话说,它分析的是答案含义的不确定性,而不仅仅是单词的顺序。
例如,如果法学硕士收到一个问题并生成几个可能的答案,语义熵会评估这些含义彼此之间的差异程度。 低熵表示对预期含义的高度置信度,而高熵表示对正确含义的不确定性。
“通过多次要求法学硕士回答一个问题,我们可以相互比较答案,”法夸尔说。 “过去,没有考虑到自然语言允许我们以多种方式表达同一件事的事实。这与模型输出明确的其他机器学习情况不同。”
宣传
这项新技术在包括 GPT-4 和 LaMDA 2 在内的 XNUMX 个法学硕士上进行了测试,事实证明,它可以更有效地识别容易产生错误答案的问题,例如研究 Google、技术生物医学问题和数学问题。
尽管它比简单的文本生成需要更多的计算资源,但该技术提供了至关重要的进步。 “从法学硕士那里获得答案很便宜,但可靠性是最大的瓶颈。在准确性至关重要的情况下,计算语义不确定性的代价很小”,该研究的资深作者 Yarin Gal 教授总结道。
幻觉是法学硕士的主要批评之一。 一 Google 最近禁用了它的 人工智能概述 由于误导性反应而遭到强烈反对后。
宣传
阅读: