【周刊客服】

科学家设定衡量人工智能能力新标准

2025/06/05 | via. 媒体美国趣味科学网站

人工智能（AI）可以在执行短时长任务时轻松超越人类，但如果我们希望AI成为真正的智慧系统，耗时较长的任务才是真正需要应对的挑战。

科学家设计出一种衡量AI系统能力的新方法，能考察AI在完成复杂任务时以多快的速度击败人类或者与人类比肩。为量化AI模型的性能提升幅度，这一最新研究成果建议科学界参考人类完成相关任务的时长，然后基于AI完成相同任务的时长来衡量AI系统的能力。3月30日，该科研团队在美国预印本文献库公布了研究成果。

科研团队发现，对于人类需要不到4分钟就能完成的任务，AI模型的成功率能够达到近100%。可是，对于人类需要超过4个小时才能完成的任务，AI模型的成功率仅有10%。对于耗时较长的任务，早期AI模型的表现不如最新版本。

这是意料之中的发现。科研团队强调说，过去6年里，每7个月，通用型AI以50%的可靠度完成任务的时长就能增加一倍。这项研究发现，AI的“注意力持续时间”正在迅速延长。根据这一发展趋势，科研团队预计，到2032年，AI就可以自动完成人类软件开发一个月的工作量。

科研团队表示，为更好理解AI能力的快速提升幅度及其对社会的潜在影响和风险，这项研究可以建立与现实世界结果相关联的新标尺，以便“对AI工作表现的绝对状态，而非单纯的相对状态给出有意义的解读”。

这一潜在的新标尺便于我们更好地理解AI系统的实际智慧和能力。资深AI专家索罗布·卡泽鲁尼安说：“这一标尺本身不太可能改变AI的发展进程，但是对于一些很适合使用AI的任务而言，它可以跟踪AI系统在这些类型任务上的发展速度。”

卡泽鲁尼安说：“基于人类完成特定任务所需的时长来评估AI，为衡量AI的智力水平和通用能力提供了有趣的替代性指标。首先，没有任何单一指标可以体现我们对‘智慧’的理解。其次，完成一项耗时较长的任务而不出现漂移或错误的可能性微乎其微。第三，这种方法可以直接衡量我们希望利用AI去完成的那些任务类型，即解决复杂的人类问题。”

凤凰周刊logo

科学家设定衡量人工智能能力新标准