炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:钛媒体APP)
12月12日,斯坦福大学教授、“AI教母”李飞飞在最新访谈中,回顾了她职业生涯中的关键时刻,并分析AI作为一项文明技术,对全球经济、教育和劳动力市场带来的深远影响。
李飞飞详细介绍了她在2009年构建的ImageNet项目,如何成为AI领域的大数据拐点。
现代人工智能的突破源于一个核心科学假设:机器可以像人类幼儿观察世界一样,通过感知海量物体和场景进行学习,而证明这一假设需要一个前所未有的大规模数据集。李飞飞表示,构建ImageNet的核心挑战是获取数以千万计的高质量的人工标注图像。为保证机器训练的能力质量,她选择众包工程的方式,利用亚马逊土耳其机器人(Amazon Mechanical Turk)进行大规模并行处理,将数十亿张图像浓缩为1500万张高质量数据,使ImageNet成为了当时人工智能领域最大的计算机视觉训练和评估数据集。
2012年,ImageNet的海量数据、神经网络算法,以及GPU支持的快速并行计算首次结合,共同促成了“ImageNet分类深度卷积神经网络方法”的实现。许多人认为,这标志着现代人工智能时代的正式开启。
对于未来AI的探索方向,李飞飞认为,World Labs正在构建下一代空间智能。World Labs的核心技术模型Marble,能够根据用户输入的文本或上传的图像素材,在几分钟内生成一个可供拖动和探索的3D数字世界。她强调了Marble对前沿科技的推动作用:
一方面,Marble可以作为机器人训练的模拟环境,生成海量且多样化的训练数据。尽管这一应用目前尚处于早期阶段,但它为机器人提供了进入现实世界之前的“飞行模拟器”。
另一方面,Marble还能应用于精神病学研究,以极低成本改变环境维度,帮助研究人员对患有强迫症等心理障碍的人群进行触发因素和治疗方法的研究。
李飞飞称自己为“务实的乐观主义者”,她不相信极端的乌托邦或悲观主义论调,认为人们当前忽略了人在人工智能中的重要性。在AI的未来影响方面,她认为有两个领域的影响被普遍低估:
教育领域的变革:AI将加速提供学习机会,并将对现有的学校体系和人力资本评估格局产生影响,传统的学历背景将不再是评估工人资质的唯一标准 。
劳动力市场的“混乱中间阶段”:“所有工作都会消失”的言论被夸大了,但政策制定者、学者和社会普遍低估了从知识型工作者到蓝领、再到服务业,这一系列正在发生的“混乱的中间阶段”的变革过程。
最后,针对年轻人的职业发展,李飞飞强调了“学习如何学习”的重要性,她建议年轻人利用AI工具终身学习来强化自我。同时她指出,在教育评估中,不应将人类与AI对立,而是应鼓励学生利用批判性思维,整合跨学科知识,改进AI的初步答案,展示人类学习者的价值。
李飞飞访谈内容划重点:
1.ImageNet与现代AI的诞生
ImageNet在2007年至2009年间构建,是AI领域“大数据”的转折点。它的重要性在于与神经网络算法、GPU(图形处理器)的结合,实现了图像识别领域的里程碑式突破,这一时刻被许多人认为是现代人工智能的开端。
2.空间智能是AI领域的下一个前沿
李飞飞的创业公司World Labs专注于空间智能,她认为这与语言智能一样,是解锁机器能力的根本性技术。空间智能是人类在三维世界中“看与做”的完整闭环,涵盖了理解环境、与环境互动、创造事物等能力。AI在这方面仍处于早期阶段,但潜力巨大。
3.警惕AI发展中对人的主体性的忽视
AI是一种文明级技术,对经济、社会、文化产生深远影响。李飞飞强调AI的核心是人,人创造、使用并受到AI的影响。她最大的担忧是,在AI发展过程中,人们作为个体和社区的自尊心和主体感可能会被剥夺。
4.“学会学习”的能力比学位更重要
在AI时代,拥有“学会学习的能力”比学位更加重要。她透露World Labs在招聘软件工程师时,更看重应聘者对AI协作工具的使用意愿、学习速度和成长心态。她建议学校的评估体系应进行调整,展示AI工具的水平,并让学生挑战超越这个基准,成为最优秀的人类创造者。
5.科学是多代人思想的非线性传承
李飞飞反对“单一天才神话”,认为科学发展并非单线、而是多代科学家和工程师跨学科思想相互影响、共同努力的非线性传承。她指出ImageNet大数据假设就受到了心理学家关于儿童视觉学习研究的启发。
以下是李飞飞访谈内容实录:
1. 童年经历与教育历程
主持人:李博士,很高兴见到您,感谢您抽出时间。
李飞飞:嗨,Tim。很高兴来到这里,我感到非常兴奋。
主持人:让我们开始这次对话吧。请您按时间顺序介绍一下您的基本情况。您是在哪里长大的?您能描述一下您的成长经历吗?因为据我所知,您的父母在我的经验中,对中国父母来说是相当不同寻常的。您能谈谈这一点吗?
李飞飞:我会说我的童年岁月,是一部《双城记》。我出生在北京,但大部分童年是在中国的一个叫成都的小镇度过的,那里以熊猫闻名。在我15岁的时候,我和妈妈加入了在美国的爸爸,去了一个叫帕西帕尼(Parsippany)的新泽西小镇。我从一个相对典型的中国中产阶级家庭的孩子,变成了一个完全不同世界里的新移民,还是在新泽西。我需要学习一门新的语言、一种新的文化,去拥抱一个陌生的国家。后来我去了普林斯顿大学,主修物理学。然后我去了加州理工学院攻读博士学位,学习人工智能(AI)。
主持人:我想听听您父母双方的情况,但我想多了解一些关于您父亲的事。据我所知,他似乎是一个非常异想天开、富有创意的灵魂。这与一些人形成鲜明对比,比如我在播客上邀请过卜沙(Bo Shao),他是一位了不起的企业家,他的父亲可以说是人们想象中会联想到的那种“虎爸”。在卜沙的成长过程中,他父亲非常严格,如果卜沙赢得了一次数学竞赛,他会得到额外的关爱,并被允许拥有某些奖励。您能描述一下您的父母吗?
李飞飞:首先,很明显您读过我的书,谢谢您。确实如此,小时候你并不知道这些,但当我回顾自己的成长经历时,我才发现:天哪,我的爸爸真的一点也不“典型”。
我的爸爸那时就很爱大自然,现在仍然很爱。他只是充满了好奇心。他能在不那么严肃的事物中找到幽默和乐趣,例如他非常喜欢虫子和昆虫。在20世纪80年代的中国长大,物质资源并不十分充裕。我们居住的城市成都当时正在扩张,我们住在城市边缘的公寓小区,但我父母都在市中心工作。所以周末,我爸爸就会带我在还有稻田的田野里玩,那里有水牛,我还有一只小狗。我的记忆里基本上就是和虫子打交道。
有时候我和爸爸会去附近的山里画画,那是因为我上了一门儿童美术课。我对父亲整个童年的记忆就是他非常不严肃,他完全不关心我的成绩,也不关心我在课堂上做了什么,更不关心我是否带回了任何比赛奖项。这与他的价值观无关。即使我们来到新泽西后,生活变得非常艰难,这是移民生活的一部分,我们一度非常贫困。我记得他仍然在庭院甩卖(yard sale)上玩得非常开心。庭院甩卖几乎是我们每个周末的活动,他会把它当成寻宝游戏来玩。他就是这样,对生活充满了好奇心,保有一颗孩子般的心性。
主持人:为什么您的父母要来到新泽西呢?是什么促成了这个决定,或者说背后的原因是什么?
李飞飞:我给您两个答案。从我青春期早期的视角来看,我当时并不知道原因。我爸爸在我12岁时就离开了,我和妈妈是在我15岁时搬去和他会合的。那几年正值青少年的年纪,脑子里会冒出很多奇怪的想法。我只知道他们说“我们去美国吧”,我当时一点概念都没有。我真的不知道会发生什么。我模糊地感觉到自己不是一个典型的孩子,我是一个女孩,但我超爱物理,甚至还特别喜欢战斗机。我可以告诉你所有我喜欢的战斗机型号,我都非常喜欢。所以我只是知道有这些因素。事后来看,我的父母他们是非常勇敢的人,因为我不确定在这个年龄,我是否会做出同样的决定。离开一个我熟悉的国家,去到一个我不了解、不会说当地语言、一无所知的地方。
而且请注意,那还是在互联网和人工智能出现之前的时代。所以当你要去另一个国家时,你就被“切断”了,你就像是去了另一个星球。是的。我觉得他们非常勇敢。作为一个心智成熟的女儿,我意识到他们希望我能获得一个机会,一个他们认为对我的教育而言是前所未有的机会。
主持人:我也想听听您母亲的情况,因为仅从您父亲的背景来看,就感觉非常迷人且不同寻常,那么人们可能会想,这种动力和对技术的专注是来自哪里呢?我很想听您对此的回答,同时也想请您解释一下,鲍勃·萨贝拉(Bob Sabella)是谁?
李飞飞:好的,这里主要有两个问题:我妈妈是否注入了这种动力和技术热情?以及鲍勃在我的生活中扮演了什么角色?
首先,我妈妈在技术方面可以说是一窍不通,我现在有时候还会笑话她。这么说吧,她不擅长数学。所以我想,技术上的热情是我与生俱来的,是先天的。我爸爸虽然更偏向技术,但他比起方程更爱昆虫和小虫子。作为一个教育者这么多年,无论对我自己还是对我的孩子,我认为你必须尊重自然界中的奇迹,内心保有这种爱与热情,以及随之而来的激情和好奇心。
但我妈妈确实是一个更有纪律性的人。她也不是那种“虎妈”——我不记得我妈妈曾经追着我要成绩。我的父母从来都不在乎我是否带奖项回家。我可以告诉您,我们家里没有任何“墙上挂件”来展示这些。这一点一直延续到了今天,我自己的房子和办公室里都没有任何成就或奖项的装饰。
我妈妈不在乎那些荣誉。但她确实在意我是否是一个专注的人。如果我要做某件事,她不希望我边做作业边玩。她会说:“先把作业做完。在下午六点前完成。如果你不把作业做完,剩下的时间就不能做任何其他事。”“你必须为后果负责。”所以,她灌输了一些纪律,但也就到此为止。她比我爸爸更严厉。
鲍勃是我在新泽西泰坦高中二年级的科学老师。高中时我开始上AP微积分,但他很快就成为了在我这个青少年小移民的成长岁月中,最有影响力的人。他成了我的导师、我的朋友,后来他全家都成了我的“美国家人”。后来我自己成为教师后,整天教书真是很累。更糟的是,他还会利用他的午休时间为我上那节额外的课。现在我比十几岁时更懂得感激,我现在比作为一个青少年时更感激。感谢那些付出额外努力的老师。这真是难以置信。
我真的认为公立教师是我们社会中被低估的英雄。因为他们要应对来自各种背景的孩子,他们正在应对不断变化的时代。那种故事,鲍勃会和我分享的,关于他如何去做的那些额外的努力,不仅仅是对我,而是对许多学生也是如此。因为这是一个以移民为主的城镇,青春期问题尤为突出。所以他的学生们来自全世界各地,以及他怎样帮助了他们和他们的家人。
2. ImageNet的产生背景
主持人:我很好奇ImageNet是如何产生的,你可以用任何你喜欢的方式介绍。你可以告诉大家它是什么、后来变成了什么以及为什么重要,然后再谈谈它是如何开始的;或者你也可以直接谈谈它是如何开始的。
李飞飞:那我就来解释一下什么是ImageNet。ImageNet 表面上是在2007到2009年间构建的,那时我还是一名助理教授在普林斯顿,然后我搬到了斯坦福。所以在这段过渡时期,我的学生和我共同构建了这个,在那时人工智能领域中最大的,用于计算机视觉或视觉智能的训练和评估数据集。
ImageNet 在今天是大数据的拐点。在ImageNet 之前,AI 作为一个领域,并没有从事大数据方面的工作。正因为如此以及其他一些原因,人工智能陷入停滞。公众认为那就是AI 寒冬。即便作为一名研究人员,当时是个年轻研究员,对我来说这是最令人兴奋的领域,但我明白它没有展示出公众所需的突破。
但ImageNet 与另外两种现代计算要素共同作用。其中一种叫做神经网络算法。另一种是现代芯片,称为GPU(图形处理单元)。这三件事在2012 年汇聚成了一项标志性工作、里程碑式的工作,名为 ImageNet 分类深度卷积神经网络方法。
那是一篇论文,表明由ImageNet 提供的大量数据的结合,以及通过 GPU 实现的快速并行计算,并且一个神经网络算法可以实现在图像识别领域的 AI 表现。许多人称那个特定的里程碑为现代AI 的诞生。如果把元素都算进去,我的工作可以说是其中的三分之一。我认为那就是它的重要性。我真的非常幸运和受宠若惊,我自己的工作在让现代AI 成为现实方面起了关键作用。
事实证明,物理教给我的不仅仅是数学和物理。它真正带给我的是这种去提出大胆问题的热情。所以到了本科快结束时,我也想要一个属于我自己的大胆问题。我并不满足于仅仅去追随别人大胆的问题。通过阅读书籍等等,我意识到我的热情不在于物质层面,而更多是关于智能。
我当时真的非常着迷于这个问题,那就是“什么是智能”以及“我们如何制造智能机器”。那时候我发誓我根本不知道那叫做AI。我只知道我想研究智能以及智能机器。之后我申请了研究生院,我想我认为就是在那一刻我成为了一名初露头角的AI 科学家。那是我的正规训练,作为计算机科学家在AI 方面的。然后我的物理学训练在某种意义上继续着,物理学教会我提出大胆的问题,并把它们变成指引方向的北极星。用科学术语来说,那颗北极星就变成了一个假设。
对我来说,确立我的北极星目标非常重要。而我的第一个北极星目标,在接下来的这些年里,就是解决视觉智能的问题。就是我们让机器“看见”世界的方式。而且不仅仅是通过“看见” RGB 颜色或光的明暗程度,就是要理解所见之物的意义。我在看着你,Tim。我看到你。我看到你身后有一幅很美的画。我不知道那是不是真的。我看到你就那样坐在椅子上,就像在看一样。“看见”就是理解这个世界的方式。所以那就成了我的北极星问题。而我当时的假设是我必须解决目标识别问题。
主持人:我能在这儿打断你一下吗?因为这是关键点。我要读一段来自Wired 的文章,里面详细讨论了你。他们说“问题是一位研究员可能会写出一个算法用于识别狗和另一个用于识别猫。然后李开始想知道这个问题是否不是模型,而是数据。她认为如果一个孩子通过体验来学习观察,通过观察感知视觉世界无数物体和场景,在她早年,也许计算机可以用类似的方式学习。”我希望你能进一步详细说明这一点。对我来说问题是,你当时是怎么看见这一点的?为什么它没有更早发生?
李飞飞:我们都是历史的学生。我其实不喜欢科学史叙述的一点是过于强调单一天才。我们知道牛顿发现了现代物理学定律,但他确实是个天才,这并不妨碍对牛顿的尊重。但是,科学是一脉相承的传统,而科学实际上是非线性的传承。
例如,为什么我会被这个假说所启发?因为许多其他科学家激励了我。在我的书中,我谈到了这位教授的一系列工作,比尔曼,他是一位心理学家。他对AI 不感兴趣,而是对理解心智感兴趣。我在读他的论文,他特别谈到了幼儿在早期能够学习到的大量视觉物体。那件作品本身并不是那样的意象。但如果不读那件作品,我就不会提出我的假设。
主持人:我很高兴你强调这一点,单一英雄旅程的简单性很有吸引力,它很简单,但几乎从不真实。
李飞飞:这可能永远不是真的。即使是我最大的偶像,爱因斯坦。任何认识我的人,任何读过我书的人都知道我有多敬佩他,我只是爱他所做的一切。狭义相对论方程是洛伦兹变换的延续。就连爱因斯坦,他也是在许多其他人的工作基础上发展的。所以我认为这非常重要,尤其是我相信我们会谈到这一点。
我现在在硅谷的中心给你打电话。我们正处在人工智能热潮之中。很显然,我对我的领域感到非常自豪,但我认为,当媒体或其他渠道讲述人工智能的故事时,几乎总是只讲几个天才,而事实并非如此。这是几代人的共同努力,由促成这一领域发展的计算机科学家、认知科学家和工程师们共同完成的。
主持人:谈到ImageNet,我很想请你谈谈其中一些关键性的决定或时刻,它们在塑造ImageNet的成功过程中起到了关键作用。比如说,如果你想让机器学会识别物体,更接近孩子学习的路径,你就需要标注大量的图像。我阅读了关于Mechanical Turk如何介入,以及随后出现的竞争性方面,这似乎推动了一些重要的分水岭时刻。你能具体谈谈有哪些因素或决策促成了它的成功吗?
李飞飞:很多人问我这个问题,因为在ImageNet之后,很多人尝试去制作数据集,但仍然只有极少数取得了成功。那么是什么让ImageNet如此成功呢?我认为其中一个成功因素是时机。我们确实是最先看到大数据影响的人之一,那非常有决定性,或者说,那种定性的改变本身就是成功的一部分。但正如你所问,大数据的假设不仅仅在于规模。实际上,很多人误解了ImageNet以及其他数据集的重要性。伴随数据集而来的,是一个关于“应该提出什么问题”的科学假设。例如,在视觉识别中,你可以制作一个用于辨别RGB颜色值的数据集,但它的影响力不会像围绕对象组织的数据集那样大。
我们可以深入探讨原因。这不是因为RGB本身更简单,而是因为你必须以正确的方式提出科学问题。另一个例子是,与其制作一个物体的数据集,你为什么不做一个城市的数据集呢?那比对象复杂得多,但那就太复杂了。所以,对于每一个科学探索,你都必须有正确的假设,并提出正确的问题。因此,成功的一个部分是我们定义了“视觉对象分类”这个正确的假设。
我想那是第一种正确性。另一种正确性是人们可能认为,“哦,这很简单,你只需要收集大量数据。”首先,这很费力。但即便撇开费力不谈,你如何定义质量?你可能会说,如果数量足够大,我们就不在乎质量。但你如何在两者之间进行权衡?什么才算是“大”?什么是“好”?以及你如何权衡这些?这是一个非常深奥的科学问题,我们需要做大量研究。另一个非常困难的决策是:什么定义了图像质量?是不是每张图像都有更高的分辨率?它是逼真摄影风格的吗?是不是因为这是日常影像,看起来很杂乱?所有产品照都是看起来很干净的吗?这些问题如果你离得太远,根本不会想到去问。但作为一名科学家,当我们在构建物体识别的深层问题时,我们必须从如此多的维度去提问。
然后你提到了亚马逊土耳其机器人(Amazon Mechanical Turk)。那实际上是绝望的产物。当我们提出这些假设时,我们的结论是我们至少需要数以千万计的高质量图片,覆盖所有可能的多样维度。无论是用户照片、产品拍摄,还是图库摄影之类的,我们都需要高质量的标签。一旦我们做出那个决定,我们意识到这必须由人从数十亿张图像中筛选出来,因此我们变得非常绝望。我们当时想,我们要怎么做到这一点?
我确实尝试过雇用普林斯顿的本科生。普林斯顿的本科生非常聪明,但是他们非常重视时间的价值,而且他们很昂贵。即使我有天文数字的钱,那也会花非常长的时间。所以,我们真的被卡住了很久。我们以为还有其他捷径,但事实是人工标注是金标准。我们希望训练的机器能以人类能力为衡量标准,所以当时我们不能走捷径。
因此,我们不得不采用后来被称为众包工程的方法。那时众包还是一项非常新的技术,大概才刚一岁左右,由亚马逊提供。他们创建了一个在线市场,让人们通过做一些小型任务来赚取报酬。我记得当我第一次听说Amazon Mechanical Turk时,我就登录了我的Amazon账户。我查看的第一个任务,只是想试一试,是转写葡萄酒瓶上的标签。任务会给你一张酒瓶的图片,你得说这是1999年的波尔多,诸如此类。人们会上传这些微型任务,然后由线上工作者来完成,比如像我这样在闲暇时间的人,我就会去注册,然后接这些活来赚钱。我们意识到,那又是一种绝望驱使下的举动,它是一种大规模并行处理,与全球在线人群的处理来为我们完成这件事。这就是我们将数十亿张图像浓缩为1500万张高质量图像的方式。
主持人:我想我读到的例子是:识别照片中的熊猫,他们会因为识别熊猫而获得报酬。还有什么能让他们在每张照片里都准确识别出熊猫?所以,你也必须遵循激励机制。你是怎么算出那个的?
李飞飞:这就是我和我的学生们为之绞尽脑汁的地方。我数不清我们聊了多少小时来处理质量控制相关的问题。首先需要筛选出那些认真愿意做这项工作的人,然后我们必须做一些前置测验,监控标注者的工作质量。
主持人:我想问你一件事,因为你被称为AI的教母。你在AI领域拥有长期的历史视角,能够观察到它的发展、分叉,以及这种技术的危险与希望。你觉得人们忽略了什么?你认为是什么在消耗房间里所有的注意力?无论是他们应该知道的事情,还是他们应该保持怀疑的事情,或者其他方面?
李飞飞:特别是考虑到我现在是从硅谷中心给你打电话,我觉得人们忽略了人在人工智能中的重要性。这个说法有多重面向或维度。也就是说,人工智能绝对是一项文明技术。我把“文明技术”定义为:由于这项技术的力量,它将会或已经在经济上、社会上、文化上、政治上对我们社会的下游产生深远影响。
我刚听说一个未经证实的消息,说去年美国GDP增长中,有很大一部分归因于AI的增长。显然这个数字是,美国GDP增长了4%,如果去掉AI,只增长了2%。这就是从经济角度来说的“文明性”的含义。这显然也在重新定义我们的文化,想想你在谈论“吸走全场空气”这个词,它从好莱坞到华尔街,到硅谷,到TikTok、YouTube、Instagram,无处不在。我觉得还有更多的焦虑是关于人们的尊严感和自主感,感觉自己被排挤在未来之外。我认为我们需要改变这种状况。
主持人:我听你说过,你之所以是个乐观主义者,是因为你是个母亲。无论是极端的乐观还是极端的悲观,都可能以对我们无益的方式造成偏见或产生盲点。我很好奇你是否会尽量以最客观的方式来评估。戴着那顶帽子,对任何人来说都很难,但如果你试着去做,你觉得人们是不是过于担心,担心得不够,还是在为错误的事情担忧?你觉得人们是否在为正确的事情担忧,还是在某种程度上已经迷失方向了?
李飞飞:首先,我称自己为务实的乐观主义者。我不是乌托邦主义者。所以我实际上不相信两极端。我周游世界,就在上个月我在中东,我也在欧洲,我在英国,也在加拿大,然后回到美国家中。我认为美国和西欧的人们更担心AI,而不是比如中东、亚洲的人。
3. World Labs的工作目标
主持人:为什么决定创建World Labs?
李飞飞:我实际上经常向我的团队每一位成员回答这个问题。我创建了World Labs。这个答案有两个层面。从技术角度看,World Labs正在构建下一代空间智能,因为它就像语言智能一样,是解锁令人难以置信的能力的基础,以便能够帮助人类创造得更好、制造得更好、设计得更好、打造更好的机器人。所以,空间智能是一项关键技术。但更进一步的原因,为什么我仍然是个技术人员?是因为我相信人类是唯一会建立文明的物种。动物会建立殖民地或群落,但我们建立文明。而我们创建文明,是因为我们想要变得越来越好。我们想要做好事,尽管在此过程中我们也做了很多坏事。但人们渴望拥有更好的生活、更好的社区、更好的社会,过得更健康,享有更多繁荣。
我几周前在和某人讨论一个很受启发的事,是关于高中剧院。他们的预算非常低,有时候我会去看旧金山歌剧或音乐剧,那些舞台布景真的非常精美。但是对于高中生或初中生来说,他们很难有那个预算来做这件事。
想象一下。你可以用我们现在这个称为Marble 的模型,在一个中世纪法国小镇里创建一个场景,然后将它作为背景,用这种数字化的形式,帮助演员和表演融入那个世界。当然,这取决于辅助技术,无论你是在电脑上看,还是未来人们可以使用头戴设备或其他设备,你都能获得仿佛置身于中世纪法国小镇的那种身临其境的体验。这对许多创作者来说,将是一个极棒的创意工具。
我们已经看到世界各地的创作者都在使用我们的模型。他们中有视觉特效(VFX)创作者、室内设计创作者、游戏创作者,还有教育工作者,他们希望为学生构建能带来不同体验的世界。正是如此。因为他们觉得这个工具非常强大,触手可及就能创建出他们可以沉浸其中的3D世界,无论是他们的角色还是他们自己。
主持人:一个公立学校的老师希望通过这种方式去激励学生,让他们付出更多努力。对于使用这个产品的人来说,流程会是怎样的?他们是在输入文本来描述想要创建的世界,还是上传素材或照片,有点像一个图像板?它是怎么运作的?如果他们不懂技术呢?
李飞飞:他们完全不需要懂技术。他们可以在桌面端或手机端打开我们的页面,桌面端功能更多,会更有趣。他们可以直接输入,比如“法国中世纪小镇”,或者他们可以从 Midjourney 等工具生成一张中世纪法国小镇的图片,也可以上传一张真实照片。几分钟后,我们的模型就会为他们生成一个 3D 世界。它的范围确实有一定的限制,但这个 3D 世界是立体的,你可以用鼠标拖动并转动视角,在那个世界里走走看看。
之后如果你想使用它,有很多种方式。你可以通过在网站上使用我们的工具来放置镜头,从中制作出一部特定的电影。如果你是游戏开发者,可以往里面添加很多角色。如果你是视觉特效专业人士,我们有很多这样的用户,他们可以把这个场景融入他们使用真实演员拍摄电影的工作流程中。
主持人:我正想说,这听起来很像游戏引擎。
李飞飞:是的,我们也可以把它作为机器人训练的模拟环境。因为大量的机器人训练需要海量数据,而这个工具可以用于生成大量不同的数据。
主持人:那是不是有点像机器人在进入现实世界之前使用的飞行模拟器?
李飞飞:那是目标的一部分。我们还处于早期阶段,所以“飞行模拟器”还没有完全实现,但这是发展过程中的一部分。
主持人:你提到了精神病学研究,那会是什么样子?
李飞飞:我们接到了一位研究人员的电话,他们正在研究患有强迫症等心理障碍的人群,这些人会在某些环境下被触发。他们想研究触发因素,也想研究治疗方法。但是,你怎么去触发一个比如对草莓地有特殊问题的人呢?我是随便举个例子。你可以带他们去一个草莓地,但如果你想知道是夏天的草莓地、夜晚的草莓地,或者就是草莓,你要怎么做到?突然间,这位研究人员意识到,我们提供了极低成本的方式,让他们可以改变各种环境维度,从而进行他们的研究和实验。
主持人:这真的很有趣。是的,我能看到它被应用于“暴露疗法”(Exposure Therapy)。现在你这样描述,我就能理解它是如何起作用的了。
李飞飞:我的意思是,它几乎可以应用到所有事情上。如果你思考人类在现实世界中的运作方式,现实世界和数字世界之间的界限正在变得越来越模糊,越来越薄,因为我们生活在屏幕之中。我们在虚拟世界和现实世界中做事。我们将创造能够在现实世界和虚拟世界中都能做事的机器。因此,我们在数字和实体空间都有很多工作。
主持人:有没有哪些科学家或研究人员,不是那些已经在世界上广为人知的大牌人物,他们的工作让你印象特别深刻,让你觉得他们正在做非常有意义的工作?
李飞飞:这也是我写这本书的部分原因之一。尤其是在中间章节,我写到了将认知科学、视觉创作与计算机科学相结合的历程,我实际上也谈到了心理学家、神经科学家和发展心理学家。他们中有些人还在世,有些人已经不在了,例如像卡尼曼(Kahneman)和特沃斯基(Tversky)这样在认知科学领域的巨擘,他们的工作影响了计算机科学,并最终影响了人工智能。世界上仍有许多科学家,他们是发展心理学和人工智能领域的思想家。我一直在关注他们的工作。
我非常尊重科学界的几位人士,仅举几位名字,比如哈佛大学的利兹·斯皮尔克(Liz Spelke)、伯克利大学的艾莉森·戈布尼克(Alison Gopnik),还有罗德尼·布鲁克斯(Rodney Brooks),他曾是麻省理工学院的机器人学教授。当然,还有太多太多优秀的人。但你在让我说出那些不在人工智能新闻头条里的人。
4AI的未来影响
主持人:是的,太好了。我也很想听听你的看法,在不久的将来,哪些类型的发展看起来似乎不可避免。你认为哪些人工智能领域的影响被低估了?
李飞飞:我认为人工智能与教育的影响被低估了。我们将看到的是,人工智能可以加速为那些想学习的人提供学习机会。这会对我们的学校体系以及人力资本格局产生下游影响。比如,我们如何评估有资质的工人?过去可能是看你从哪所学校毕业、获得了什么学位,但这将会改变。随着人工智能触手可及地到达许多人手中,这一点还没有得到足够的重视。
我认为人工智能对我们经济结构(包括劳动力市场)的影响也被低估了。关于要么是“彻底的乌托邦”、要么是“后稀缺社会”的这种言论都是夸大的,或者说“所有人的工作都会消失”也是夸大的。但混乱的中间阶段——从知识型工作者到蓝领、再到酒店服务业,所有这些正在发生的变化过程——被我们的政策制定者、学者以及整个社会普遍低估了。
主持人:那么从工作角度来说,有哪些细微差别是你正在或将要告诉你的孩子(或其他年轻人)应该把精力放在哪里,学习什么?
李飞飞:我认为学习能力变得更加重要。在当时可用的学习工具更少、工具更少的时代,按部就班地学习更容易。现在,学习工具更多,也更易得。人工智能是一种赋能工具。如果你能够使用这些工具,你就能学会如何学习,你可以获得超能力,让自己更强大。所以,回到你刚才的问题,对年轻人、对孩子们来说,“学习如何学习”这个永恒的价值,现在变得更加重要了。
主持人:是的,这让我觉得,我们在讨论的其实是事情只会变得越来越容易。渴望成为拥有超能力的自学成才者,我们已经见过这种情况了,YouTube 就是一个很好的案例。现在你可以选择沉迷娱乐,从而避免自我成长和发展,或者你可以用它来加速这些过程。对于人工智能来说也是如此,你向前展望,甚至不用向前展望,而是要问:老师如何审核他们的学生是否在做应该做的功课?在许多层面上,情况已经到了这个地步,学生们可以选择完全不做任何工作,或者将他们的工作大幅提升,但最终的产出看起来可能非常相似。所以,学校教育会发生很大变化。这非常非常有趣。
李飞飞:我实际上认为,如果学校的评估目标被设计成无论人工智能给出什么答案,和学生给出的完全相同,那这个评估本身就有缺陷。在我看来,构建评估的正确方式,不是把人类和人工智能对立起来,试图监管是否使用了人工智能,而是要展示这些工具的作用,以及人类学习者的作用。例如,人工智能可以给出初步答案,但学生需要用关键性思维,整合他们自己知道的额外信息,或整合来自其他课程的知识,用人工智能无法做到的方式来改进答案。这才是构建评估的正确方式。