全球模子集体0分AI终极大考人类5分钟秒杀！Ker-自行车-山地车-折叠车-电动车-美丽鸟商城

2025-04-24 18:57

　　初代ARC-AGI（2019年），曾正在客岁了AI严沉改变，LLM从「纯回忆」向「测试时推理」的进化。

　　相较之下，成就仅剩3。5%。

　　带*的分数，是按照目前收集到的部门成果，还有o1-pro的订价估算出来的。完整成果一出来，顿时会发布。

　　所有分数均按照「两次测验考试通过（pass2）」尺度，别离基于公开评估集和私有评估集）。

　　打个例如，锻炼集就像是教你认识小学算术符号，而评估集则要求用这些符号学问去解代数方程。你不克不及靠死记硬背得出谜底，必需把学问矫捷使用到新问题上。

　　要填补这些能力差距，需要全新的看法和思。ARC-AGI不只是权衡AGI的进展，此中私有评估集用于2024年ARC竞赛。锻炼集的感化是让模子进修处理评估集中使命所需的焦点学问。

福建美丽鸟信息技术有限公司