人工智能成人工智障?苹果AI研究:推理模型LRM简易问题想太多、复杂问题崩溃

TradingKey中文
06-09

TradingKey - 在市场担忧iPhone制造商苹果AAPL)在人工智能发展方面落伍之际,苹果最新的一篇AI研究揭露了现在流行的AI大模型的“繁荣假象”:AI推理模型远达不到预期的推理功能——简单问题复杂化,复杂问题直接陷入崩溃。

6月,苹果发表了一篇名为《思考的幻觉:从问题复杂性的角度理解推理模型的优点和局限性》的研究报告。文章指出,现有的一些号称具有“推理能力”或思考能力的AI模型实际上并不具备通用和稳健的推理能力。

无论是OpenAI的o1、再到DeepSeek R1、Claude和Gemini等领先模型,他们已经发展到不是简单给出答案,而是生成详尽的“思维链”(Chain-of-thought,CoT)、模仿人类解决问题时的思考过程、甚至自我反思和修正的模型。

研究人员称之为“大型推理模型”(Large Reasoning Models,LRMs)。不少人认为,这种技术的发展将推动人类向理想的通用人工智能(AGI)迈进。

与常见的强调最终答案准确性的基准测试不同,苹果公司通过不同的复杂性的问题环境对标准模型LLM和推理模型LRM进行了比较,结果推理模型有一些情况下还不如标准模型。

  • 低复杂度模式:不带思考链的标准LLM比LRM更准确、更高效,LRM模型容易陷入过度思考的陷阱,造成计算资源浪费和引入错误。
  • 中等复杂模式:LRM的思考链的优势开始显现,详尽的思考过程确实帮助模型更好应对增加的挑战。
  • 高复杂模式:当问题复杂度升至某个临界点,LLM和LRM模型都彻底崩溃,准确率降至0。

然而,现实生活中的多数问题都属于高复杂度模式,这凸显了推理AI模型在实际应用上的挑战。

谷歌执行长Sundar Pichai用“人工锯齿智能”(人工智能,AJI)来描述AI不稳定的能力——AI给出的答案时而令人赞叹,时而会犯简单的数字错误,比如连strawberry有多少个r字母都不清楚。

原文链接

免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。

热议股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10