评论员称,人工智能 90% 的内容是营销,10% 是现实,其真正的商业影响尚未得到证实

发布日期:2024-11-16 20:09:07来源:驻爱尔兰大使馆经济商务处作者:
《爱尔兰时报》11月14日发表评论员文章称,人工智能大型语言模型可以给人一种智能的假象,但实际上该技术在高级推理方面存在固有限制。

《爱尔兰时报》11月14日发表评论员文章称,人工智能大型语言模型可以给人一种智能的假象,但实际上该技术在高级推理方面存在固有限制。

例如,Joe在电话亭打电话,他每分钟通话费用为 60 美分,10 分钟后,价格降至每分钟 50 美分。30 分钟通话费用是多少?这些问题是美国小学算术测试的一部分,通常针对 10 至 11 岁的孩子数学推理是解决问题的关键。因此,它可以用来衡量人工智能(AI) 系统的能力。小学数学 8k (GSM8K) 套件已成为各种 AI 大型语言模型 (LLM)(例如ChatGPT )的流行基准。该套件包含 8,500 个类似上述问题的问题,分为训练 LLM 的问题和需要解决的实际问题。ChatGPT 的 OpenAI 的最新 LLM,即 GPT-4o 模型,在 GSM8K 套件上的得分为 92.5%,而谷歌的 LLM Gemini 1.5 Pro 得分为 91.7%。微软的 Phi-3-small 是一款具有较少调整参数的小型 LLM,但仍然取得了令人印象深刻的 88.5% 的成绩。

然而,苹果公司六位研究人员最近发表的一篇论文揭露了 22 款不同的顶尖LLM推理能力存在重大缺陷。只需简单更改姓名(例如,在上述问题中将“Joe”改为“Dave”),然后保持测试问题的其余部分完全不变,就可能导致LLM得出不同的答案。这显然令人惊讶。

当测试问题中的数字发生改变而非仅仅改变名称时,研究人员所检查的各种LLM的脆弱性就更加明显了。例如,将上述测试中电话通话的基本费率从每分钟 60 美分改为每分钟 70 美分,并将其余测试问题中的数字进行类似的更改,会导致回答的准确性差异更大。另外,删除或添加额外条款对 LLM 的性能有显著影响。研究人员指出,随着测试问题的难度随着条款的增加而增加,LLM的表现会随着问题复杂性的增加而迅速下降。他们推测,随着问题难度的增加,LLM的搜索和模式匹配会变得更加困难,这进一步证实了他们的观点,即LLM并未进行真正的数学推理。

除了改变问题的指定值和复杂性之外,研究人员还尝试添加看似相关但实际上完全无关紧要的子句。在这些情况下,研究人员观察到所有测试的LLM的表现都出现了灾难性的下降,他们将其归因于LLM对特定训练问题集的过度依赖。

研究人员总结道:“最终,我们的研究强调了LLM在进行真正的数学推理方面的能力存在很大局限性。LLM在同一问题的不同版本上的表现差异很大,他们的表现在问题难度略有增加的情况下大幅下降,以及他们对无关紧要的信息的敏感性表明他们的推理能力很脆弱。它可能更像是复杂的模式匹配,而不是真正的逻辑推理。”

ChatGPT 和其他 LLM 的文本回复给人一种真正了解世界的印象,吸引了公众和投资者的注意。实际上,它们似乎已经达到了这样的规模,它们从训练数据中吸收的信息比个人通常知道或回忆的要多,并以各种组合结合这些数据。有了足够的输入数据和训练,加上大量的投资和精力,LLM 可以给人一种智能的假象,但实际上在高级推理方面能力很有限,达不到智能的概念。

当今计算机领域最具影响力的人之一 Linus Torvalds,他创造了广泛使用的 Linux 操作系统。他最近表示 ,尽管人工智能确实很有趣,但他观察到,围绕人工智能的整个技术行业 90% 是营销,10% 是现实,“五年后,情况将发生变化,到那时我们将看到人工智能在日常实际工作中的应用”。

免责声明:文章为转载,版权归原作者所有。如涉及作品版权问题,请与我们联系(010-67800234)删除。文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。
分享到

公告

热门文章