Apple AI 研究人员质疑 OpenAI 关于 o1 推理能力的说法 – 锦岫颜教育科技（上海）有限公司

包括 Samy Bengio 在内的 Apple 研究人员在 Mehrdad Farajtabar 的领导下开发了 GSM-Symbolic 和 GSM-NoOp，以评估 OpenAI 的 GPT-4o 和 o1 等大型语言模型（LLMs。这些工具基于 GSM8K 数据集构建，引入了符号模板和不相关的信息，以更严格地测试模型。

研究发现，虽然模型在标准基准上表现良好，但当面对细微的变化（例如不相关的细节）时，它们的推理会减弱。即使是领先的模型，包括 OpenAI 的模型，似乎也依赖于模式识别，而不是真正的逻辑推理。

研究人员认为，扩展模型并不能解决这个问题，并需要进一步研究真正的推理，挑战 OpenAI 关于 o1 等模型的说法。