吴恩达:图灵测试不够用了,我会设计一个AGI专用版
创始人
2026-01-10 13:17:44
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:量子位)

新年新气象!AI大神吴恩达2026年目标公开:

要做一个新的图灵测试,他称之为图灵-AGI测试

光看名字就知道,这个测试专为AGI而生。

去年是AGI水涨船高的一年,吴恩达在其年度总结中也曾表示:

学术界和工业界频繁提及AGI概念,硅谷的公司也会为抢先AGI定下季度目标。

但关于AGI的定义至今还没有统一标准,现有基准测试还常常误导大众,使其高估当前的AI水平。

吴恩达注意到该趋势,于是新的图灵测试将试图弥补这一空白。

正如网友所言:

图灵-AGI测试设想

传统的图灵测试在AGI时代显然不够用。

它由艾伦·图灵在上世纪五十年代提出,提出用人机对话来测试机器的智能水平。

在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。

但现在的AI显然不再满足于简单的对话交互,而是要构建起经济有用的系统,所以亟需一个能够衡量AI工作能力的测试。

而这就是图灵-AGI测试的核心,要让AI像人类一样智能,并完成大部分的知识型工作。

测试对象将会是AI系统或专业人士,他们将会被提供一台可以访问互联网并配备浏览器和Zoom等软件的计算机。

裁判将通过计算机为测试对象设计一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并需要提供持续的反馈。

只要AI能够像人类一样熟练完成工作任务,就会被认为通过测试。

该测试将聚焦AGI的经济性和实际产出,更接近普世意义下对AGI的初始定义——可用于工作和生产场景的智能。

它也会比基准测试更考验AI的通用能力

现在几乎所有的AI基准测试,如GPQA、AIME、SWE-bench等,都会预先确定一个测试集。这意味着AI团队都会直接针对已发布的测试集来调整他们的模型。

这就导致很多AI模型榜单排名靠前,但真实物理世界中又能力不够。

去年闹得沸沸扬扬的Llama 4刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。

此外,固定测试集只能衡量AI在某一狭窄领域的能力。相比之下,图灵测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。

在改进的图灵-AGI测试中,延续了这一设定,裁判可以任意设计体验任务,而受测试的AI或人类测试者均不会事先知道任务内容,这将比基准测试更能判断AGI水平。

同时为了校准社会对AI的期望,吴恩达表示,或许他将举办一场图灵-AGI测试,让所有AI参与其中。

即便最后的结果会是所有AI系统均未能达到标准,但也能平息长期以来对AGI的过度炒作。

这种降温将会为AI领域创造更稳健的环境,让行业重新聚焦于非AGI级别的实际进步,比如开发有实用价值的应用,而不是沉迷于实现AGI的营销噱头。

从长期来说,图灵-AGI测试也会为AI团队设定一个具体的努力目标,而非模糊地实现人类级智能。

倘若真有某一家公司能够通过测试,其成果也必定具备真实价值,图灵-AGI测试将会为真正的AGI突破提供可信的判定依据。

所以接下来,只需拭目以待。

[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20

[2]https://www.deeplearning.ai/the-batch/issue-334/

相关内容

永州,从江苏跨省“上牌”说...
(来源:新华日报) 近日,湖南永州队“湘超”夺冠的消息迅速...
2026-01-11 05:22:29
费尽心思披上“司法外衣”,...
(来源:上观新闻)目前,美国司法部以毒品恐怖主义等罪名起诉委内瑞拉...
2026-01-11 05:12:40
织就居民健康“心电一张网”
  本报记者 孙乐琪  一纸心电,关乎安危;一张网络,联结民心。 ...
2026-01-11 05:12:35
要夺岛,不惜采取“艰难”方...
  波兰总理图斯克9日说,他担忧美国扬言夺取格陵兰岛可能会给北约压...
2026-01-11 05:02:43
旅马大熊猫辰星晓月正式亮相
●“辰星”“晓月”去年11月搭乘专机抵达马来西亚首都吉隆坡。这是继...
2026-01-11 05:02:38
给井盖“瘦个身” 让老人“...
□刘煜瑞 四川日报全媒体记者 田珊  ●党的二十届四中全会通过的“...
2026-01-11 05:02:34
2026年央视春晚全球预告...
转自:贵州日报 近日,中央广播电视总台《2026年春节联欢晚...
2026-01-11 04:42:37
围绕“六大产业集群”靶向发...
转自:贵州日报 贵阳日报融媒体记者 庭静 1月4日,新...
2026-01-11 04:42:33
电视专题片《一步不停歇 半...
转自:贵州日报 央视网消息 由中央纪委国家监委宣传部与中央...
2026-01-11 04:42:28

热门资讯

永州,从江苏跨省“上牌”说起…... (来源:新华日报) 近日,湖南永州队“湘超”夺冠的消息迅速传开,永州城区出现大量江苏网友、球...
费尽心思披上“司法外衣”,美国... (来源:上观新闻)目前,美国司法部以毒品恐怖主义等罪名起诉委内瑞拉总统马杜罗。然而,国际法专家普遍指...
织就居民健康“心电一张网”   本报记者 孙乐琪  一纸心电,关乎安危;一张网络,联结民心。  本市卫健领域不断从资源配置上做文...
要夺岛,不惜采取“艰难”方式式   波兰总理图斯克9日说,他担忧美国扬言夺取格陵兰岛可能会给北约压力。同一天,美国总统特朗普表示将不...
旅马大熊猫辰星晓月正式亮相 ●“辰星”“晓月”去年11月搭乘专机抵达马来西亚首都吉隆坡。这是继去年5月大熊猫“福娃”“凤仪”回国...
给井盖“瘦个身” 让老人“省把... □刘煜瑞 四川日报全媒体记者 田珊  ●党的二十届四中全会通过的“十五五”规划建议提出,积极应对人口...
2026年央视春晚全球预告片发... 转自:贵州日报 近日,中央广播电视总台《2026年春节联欢晚会》全球预告片正式上线,以“科技为...
围绕“六大产业集群”靶向发力 ... 转自:贵州日报 贵阳日报融媒体记者 庭静 1月4日,新年首个工作日,贵州省召开“新年第一...
电视专题片《一步不停歇 半步不... 转自:贵州日报 央视网消息 由中央纪委国家监委宣传部与中央广播电视总台央视联合摄制的电视专题...
组织化护航 减产不减收 转自:云南日报福贡县草果种植户收入逆势增长——组织化护航 减产不减收草果是怒江傈僳族自治州福贡县的绿...