这个春节,AI圈最硬核的一场「真人秀」,悄然完成了阶段性收官。主角不是动漫人物,也不是舞枪弄棒的机器人,而是一位7×24小时从不疲倦的AI科学家FARS(Fully Automated Research System)。
这套由Analemma(日行迹)打造的全自动研究系统,在长达228小时28分33秒的连续公开运行中,自己提假设、做实验、写论文,共生成244个研究假设,「肝」出100篇短论文(short paper)。
算下来,在这座流水线式的「科研工厂」中,每隔约2小时就有一篇论文产出。
恐怖的「工业节拍」,算力正在转化为知识
FARS并不是一个单体模型,而是一套多智能体系统,包括四个功能模块:
- Ideation(构思):负责文献调研与假设生成
- Planning(规划):负责实验方案设计
- Experiment(实验):负责代码编写与执行
- Writing(写作):负责论文撰写
在约228小时(≈9.5天)的连续运行周期内:
- 系统生成244个研究假设
- 完成100篇short paper
- 累计消耗114亿Token
- 总成本约10.4万美元(≈75万元人民币)
平均每隔约2小时17分就有一篇研究论文完成,平均每篇论文成本大约1000美元。
质量:它写得快,那写得好吗?
研究团队使用斯坦福大学开发的AI审稿系统Agentic Reviewer,按照ICLR的评审标准,对这100篇论文进行了统一打分。结果显示:
- FARS产出的100篇论文平均得分为5.05(区间3.0–6.3)
- ICLR 2026人类投稿的平均分为4.21,最终被接收论文的平均分为5.39
- FARS的平均分已经明显高于人类投稿的整体平均水平
作为参照,FARS的平均分5.05已经明显高于人类投稿的整体平均水平,但距离「平均中稿线」仍存在差距。
无限心智的起点
FARS的这100篇论文,并不是终点,更像是一枚被钉下的坐标点。
它证明了一件很重要的事:端到端自动科研流水线,已经能够在相对稳定的运行条件下,持续产出具备一定学术竞争力的short paper,并且开始展现出基础的自我纠错与负结果报告能力。
此刻的FARS,更像一位极度勤奋、训练有素且从不疲倦的初级研究员,距离那种能够稳定打出顶会级工作的成熟研究者,仍有一段需要跨越的进化距离。
来源:虎嗅网

