Apple AI 研究人员质疑 OpenAI 关于 o1 推理能力的说法

包括 Samy Bengio 在内的 Apple 研究人员在 Mehrdad Farajtabar 的领导下开发了 GSM-Symbolic 和 GSM-NoOp,以评估 OpenAI 的 GPT-4o 和 o1 等大型语言模型 (LLMs。这些工具基于 GSM8K 数据集构建,引入了符号模板和不相关的信息,以更严格地测试模型。

研究发现,虽然模型在标准基准上表现良好,但当面对细微的变化(例如不相关的细节)时,它们的推理会减弱。即使是领先的模型,包括 OpenAI 的模型,似乎也依赖于模式识别,而不是真正的逻辑推理。

研究人员认为,扩展模型并不能解决这个问题,并需要进一步研究真正的推理,挑战 OpenAI 关于 o1 等模型的说法。