“20年前我做的最对的三件事:回国、研究AI,以及买了英伟达的股票(笑)”,中国工程院院士、清华大学智能产业研究院(AIR)院长张亚勤,在五道口清华科技园启迪大厦回顾过往,感慨万千——时光荏苒二十载,岁月流转似流水。
20年前,张亚勤39岁。他成为微软亚洲研究院(MSRA)院长已有5年,作为微软公司全球副总裁,他进入微软决策层,成为比尔盖茨的智囊团核心成员。
那一年,马云完成了对雅虎中国的收购,那时淘宝刚刚成立两年;QQ同时在线万,开始探索游戏业务(《QQ幻想》开始公测);刘强东关闭12家线下门店转型电商;王兴关闭社交网站“多多友”,年底开始构思校内网(后更名人人网)。
2005年也是中国互联网从模仿走向创新的关键节点:马云在收购雅虎中国时说的“用望远镜都找不到对手”,刘强东在关闭实体店时对员工承诺“未来电商一定超越线下”,王兴在笔记里写下“社交网络终将改变信息获取方式”,这些细节成为互联网发展史上的经典注脚。
张亚勤推动的“青年学者计划”中,张一鸣是受邀参会者之一;商汤科技创始人汤晓鸥(合作教授)在2005年,成为微软亚洲研究院视觉组主任。
张亚勤担任院长期间,微软亚洲研究院成了中国IT互联网产业和人工智能产业的“黄埔军校”。字节的张一鸣在此认识了马维英和李航,后来马维英成为字节AI实验室的负责人,李航也加盟了字节的AI实验室。还有小米的联合创始人林斌,于2001年加入微软亚洲研究院。
此外,微软亚洲研究院还向业界输出了中国人工智能领域的骨干:商汤科技CEO徐立和联合创始人杨帆都曾在微软亚洲研究院或长或短的工作过,还有旷视科技、依图科技负责人等等。
而现在如日中天的英伟达,2005年其股价全年在7.5−15美元间波动(未拆股调整价),市值约80亿美元(2023年超1万亿美元)。在此之前,张亚勤曾以低于一美元的成本购入英伟达,“但遗憾的是买的太少了”,张亚勤笑着说。
张亚勤加盟微软16年后,2014年,他告别微软,加盟百度担任总裁,专注自动驾驶、云计算、量子计算、芯片等AI相关领域的前沿技术。5年后,他于2020年7月加入清华大学担任智能科学讲席教授,创立了清华大学智能产业研究院(AIR),并担任院长。
对张亚勤来说,这些年他有多个身份,科学家,企业家,清华教授,“我比较喜欢老师这个身份。因为老师很重要,目标是培养人才。现在人工智能有三大要素,数据、算力和算法,但最终决定人工智能发展的还是人才。”
张亚勤身份在变迁,但他对技术的探索从未停歇。2015年,张亚勤提出了AI+,在张亚勤这篇发于《人民日报海外版》的《“智能+”大风暴即将深刻影响世界》文章中,“我预言,‘智能+’将成为第四次工业革命的技术基石”。
“‘智能+’如何定义?以人为核心,基于互联网技术如云计算、物联网、大数据、人工智能等的生态与系统而形成的高度信息对称、和谐与高效运转的社会生态,是‘智能+’的标志。今后 30 年,‘智能+’将加速物理世界与数字世界的融合,再度重构3600 行的商业模式与竞争法则。社会形态将被智能化信息技术重塑,每个人都会被契合其个性化的需求的信息环绕。”张亚勤撰文描述。
作为技术革命潮头的弄潮儿,张亚勤在和人工智能打了数十年交道后,今年张亚勤的新书《智能涌现》刚刚出版,围绕“技术-产业-社会”协同演进,张亚勤阐述了他的一些思考,“数据是新时代的石油,而算法是炼金术”、“AI的‘思考’是逻辑的延伸,而人类的思考是灵魂的映射”和“未来的竞争不是人与机器的对抗,而是善用机器与不善用机器者的差距”。
“我一直把人工智能分成三种类型:信息智能、物理智能和生物智能。在信息智能阶段,我们已经能看到一些很明显的风险,比如:虚假信息、错误信息、深度伪造以及幻觉现象、知识产权等方面的问题。这些虽然是风险,但相对来说它们可以被解决。”张亚勤阐述。
在张亚勤看来,“但到了物理智能阶段,比如像无人车、机器人这类AI系统,当他们和现实世界的物理基础设施产生连接后,如果系统出现失控,风险会很高;到了生物智能这层,风险会更高,比如脑机接口技术,植入芯片后可以控制人的大脑。因此我这几年和一些AI专家一直在呼吁,我们要提前了解并正视这些风险。”
但当下,张亚勤认为“目前我们在深度学习和大模型算法上的进展,短期内并不会让人工智能产生‘意识’,所以不用担心机器会控制甚至取代人类。”
数日前,张亚勤与腾讯新闻总编辑李天亮就人工智能时代的特征进行了一场深度交流,张亚勤从技术、生态、应用三个维度阐述了AI时代的特征,并探讨了大模型作为“AI操作系统”的核心作用。
此外,张亚勤还分析了中美AI竞争格局、AI在医疗、自动驾驶等领域的应用潜力,以及AI可能带来的风险与伦理问题。最后,他分享了对人才培养和科技创新的见解,并给年轻人提出了职业发展建议。
李天亮:为什么说现在我们进入到了人工智能时代?做出这个判断的依据是什么?
张亚勤:主要从技术、生态、影响三个维度做出的判断。首先是现在的人工智能技术已经达到一个相对能用的阶段。第二是现在的生态已经形成,包括芯片、硬件、基础设施的生态。三是人工智能已经成为我们当今社会的基石,渗透到每个产业和社会经济的各个角落。其实每一次工业革命后都伴随着技术的引进,人工智能则是第四次工业革命的技术基石。
李天亮:你的新书《智能涌现》里提到一句话,“大模型是AI时代的操作系统”,该怎么理解这句话?
张亚勤:PC 时代的操作系统是 Linux,其形成庞大生态,既连接 X86 架构芯片、PC硬件基础设施,也连接传统软件应用,形成完整生态。到了移动互联时代,操作系统变为安卓和 iOS,对应的芯片硬件架构、应用生态也随之改变,催生微信、微博、电商、移动支付等超级应用。
如今进入人工智能时代,涵盖语言及多模态的各类基础模型,将会成为新时代的操作系统。围绕它,基础设施和芯片架构会被重塑,除 CPU 外,GPU、NPU 等新架构涌现。在此之上,垂直模型、边缘模型以及智能体等新应用形态出现,这与 PC 时代、移动时代大不相同。而大模型正是这中间关键的衔接部分。
李天亮:也就是说它有点像连接器,一边连接着基础设施芯片,另一边连接着应用生态。
张亚勤:对,AI时代操作系统的规模要比移动时代大很多,产业规模至少扩大了十倍。在人工智能时代,手机、电视、汽车等设备皆可成为 AI 终端,终端设备数量至少增加了一个数量级。还有,现在AI产生的数据差不多达到了50%,以后我们大部分的数据可能不是来自真实世界,而是AI合成产生的数据。
张亚勤:我觉得有可能。因为DeepSeek用了MIT的license模式,这种开源方式非常彻底,意味着任何人都可以使用、修改代码,而且不需要支付费用,还能部署在本地;第二点它的算法、整个工程创新做的都相当不错;第三点是很快得到了普遍使用。DeepSeek还是很有希望成为一个操作系统量级的平台。但这里面还有变数,尽管目前大家都在用,但在模型上还没有形成很大的生态,一旦有更好的模型,用户也可能更换模型使用,现在不管是大厂、六小虎,还是新的创业公司,都还有机会。
张亚勤:尽管现在有些技术已经做的相当不错,但是离所谓的通用人工智能还需要很长的时间。我们对技术的影响有时候存在“短期高估,长期低估”的问题。有些东西可能不是一两年内爆发,是在四、五年有大规模应用,十年、二十年可能才有更深层次的改变。
李天亮:DeepSeek出来后,不少业内人士觉得今年会是大模型应用爆发的元年,你觉得会在哪些场景会出现这样的应用?
张亚勤:现在AI在信息和内容生成方面的应用已经非常广泛,比如文本、图像、视频这些方向都在持续推进,产品设计、文案创作也已经在用AI提升效率,这些都会继续往前走。
另外一块很关键的就是代码生成。现在AI已经可以承担很大一部分写代码的工作,我儿子在微软做软件工程师,他说85%-90%的代码都可以用AI写出来,对整个生产力的提升非常明显。
李天亮:我们也观察到一个现象,很多科技巨头都是多条路一起走,它既自研自己的大模型,也用市场上最先进的开源模型。
张亚勤:在接下来的两三年里,大模型的发展可能还会继续在多个方向上并行推进。我们一直在谈“规模定律”——也就是随着数据量不断增加、算力越来越强,模型会出现越来越明显的“涌现效应”,表现为更高的活性和精确度。
我判断,今年到明年,尤其是在自然语言处理(NLP)方面,预训练阶段可能会遇到瓶颈。“规模定律”可能会从预训练阶段向推理阶段延伸,尤其是在一些垂直领域,比如机器人、新药研发、视觉等,这些领域将成为新的创新热点。
李天亮:关于大模型的局限性,业界一直有争论。比如Meta首席科学家杨立昆多次质疑它缺乏真正的理解能力。也有观点认为,大模型本质上只是一个高级的统计工具,离实现真正通用的AGI还很远。你怎么看这些争议?
张亚勤:目前的大语言本身能力很强,但是也有很大的问题,他讲的那几点我也认同。我们不仅仅需要在信息世界里,也需要视觉、需要对物理世界的理解。包括现在的系统还存在幻觉、没有边界感的问题,它不知道自己知道什么,不知道什么。
人类的记忆之所以可靠,是因为我们有复杂且演化成熟的记忆系统——包括短期记忆(如海马体)和长期记忆(如大脑皮层),这些共同构成了真正的知识体系。因此人类很少出现“幻觉”,而模型容易出现,是因为缺少这样的认知结构。
我很敬佩杨立昆,但是他对大语言模型的批评有些过于严厉。我觉得数据驱动的,加上神经网络,包括Tokenization等技术仍会持续发展,这也是大模型最根本的东西。
语言是人类与动物最大的区别之一,经过知识抽象出来。但要真正实现AGI,我们还需要具备视觉感知、对现实世界的理解(即世界模型),以及更好的记忆知识系统等,有了这些东西才可以达到AGI 。
李天亮:人工智能之所以称为“革命”,因为它会影响千行百业。站在当下,我们看未来的3到5年,最有潜力的产业机遇是什么?
张亚勤:未来3到5年,第一个影响最大的行业还是信息行业。因为在每一个大的变革时,首先要有基础设施,比如需要新的芯片,更多的数据中心、更多的算力和存储;第二,在物理世界,我认为自动驾驶、机器人会是一个机遇。但机器人本身也有不同阶段,比如说工业机器人会首先进入应用,人形机器人、家庭机器人还需要更长的时间;第三个是生物世界,比如人工智能会影响到医疗、新药的研发,影响和我们大健康有关的行业。
张亚勤:我有一个预测,到今年年底,一些核心的无人驾驶技术难题,基本上会被解决,但要真正实现规模化,我认为要在五年之后。五年之后新上市的汽车,约10%具备L4级别以上的功能。
做无人驾驶最重要的一点还是安全。其实当时我们做无人驾驶的初衷也是为了安全,因为95%驾驶的事故都是人为事故,采用AI之后,可以把这些人为事故减到最少,把安全度提高几个数量级。
以前无人驾驶面临很多难题,首先它需要机器通过各种传感器,比如激光雷达、摄像头去“感知”环境,然后重建一个四维时空模型,其实挺难。第二点,无人驾驶的响应必须是实时的,而且安全性要求极高,容错率极小,因为这关系到人的生命安全。再一个挑战是城市真实环境非常复杂,可能会有机器人遇不到的一些突发情况,尤其是一些“Corner Case”,都是机器在训练数据中几乎没见过的极端场景。
大模型出来后起到了很大的促进作用。可以让生成式AI自己生成各种各样的突发情况,在上路前就能对突发情况进行优化。总之长期来看我还是乐观的,但这里面也有技术、政策法规、伦理等各方面的挑战。
张亚勤:我对整个机器人产业持乐观态度,十年后机器人的数量说不定会比人都多。不过机器人分成三种,工业机器人、社会机器人和家庭机器人。工业机器人做的事情比较专一,目前也已经走向应用;社会机器人指的是能够驾驶汽车、送外卖、或者可以帮助警察工作的这种机器人;家庭机器人是长得像人一样的机器人,它们进入家庭后能做家务,照顾老人等。但这需要五年、十年可能更长的时间。目前机器人还处于科研的阶段,从科研演进成产品,还需要不少时间。
张亚勤:我们的刘洋教授带领团队做了一个“AI智能体医院”。医院里的每个角色,不管是医生、护士还是病人,都是一个AI智能体。在这个虚拟医院的系统中,每个智能体能读取所有的医学数据,在掌握信息后,他们可以对病人进行诊断。虚拟医院的进化速度是现实中的上百倍,两天内它就可以看完一个三甲医院几年的病例,并且效果也不错。
但我们不是要让它替代医生,而是以后每个医生都可能会有一个自己的虚拟AI医生去帮他做这些事,这就是一个将AI用到生命科学里面的例子。
去年,DeepMind公司研发出了AlphaFold,这是一款人工智能程序,可以在短时间内准确预测复杂蛋白质的三维结构,有助于推动新药研发。在过去这需要几年甚至十年。DeepMind的创始人之一Demis Hassabis说该算法一年内能节省“10亿个博士的时间”。他还说10年之后,我们人类的所有的疾病都会被治愈。10年可能过于乐观, 但人工智能确实推动了人们治愈新疾病,有助于延长人类的寿命,这是一个特别大的革命。
我把人工智能的发展分成三个层次,第一层是最底层的基础设施,包括芯片、硬件等。这个层面上,中国还是落后美国一些,因为美国有英伟达、AMD等,我们还是有一定差距。
第二层是软件层,主要是大模型和算法。这方面中美之间的差距小了很多,而且我们追得很快,尤其是像DeepSeek这些开源模型出来以后,明后年可能我们就可以追赶上。
第三层是关于AI的各种应用,在应用层中国更有优势。我们在很多场景的落地和应用上保持领先,比如说工业制造、内容生成,还有医疗、教育、交通等行业。这也是为什么我觉得中国在第四次工业革命有望成为一个领导国家。因为我们的通讯、互联网, 数字化基础设施和整个应用规模在全球领先。
李天亮:现在网上有一种观点,说在原创的科技创新上,美国擅长从0到1,中国则擅长从1到10的落地。但是随着DeepSeek的出现、华为芯片设计制造的飞速进步,现在这个说法升级,认为中国已经擅长从0.5到1,也意味着中国在更底层技术上的发展已经越来越快。那么中国离线的原创科技发明上还有多远的距离?
张亚勤:按照你的从0到1的定义,整体上还是有不小的差距。我们确实很擅长把已有的架构快速优化,把它做得更轻、更高效,部署得更快、更广,这方面我们做得特别好。但你要说最原始的、从无到有的架构创新,现在我们还不多。
但我能感觉到,最近这几年有越来越多的资源投入到原始创新上,大家也开始有意识、有信心去做“从0到1”的东西。比如我们研究院的学生,我觉得他们的能力放在全球任何一所大学里都不输。他们有科研能力,有探索精神,也有信心,也不缺资源,所以我对接下来的发展还是挺有信心。
我们要有意识让大学和前沿公司去做一些具备探索性的事情,包容性要强。包括我们在评估科研成果的时候,要鼓励做一些具备探索性的、可能可以做的东西。也许十个里有九个都做不成功,但还是要鼓励大家去尝试。在大学也是,比如做博士论文,尽量不要去优化目前的东西,而是要尝试全新的研究。我有信心,我觉得现在已经能看到这样的迹象。
因为Google的技术底蕴在那,现在深度学习领域,有60%的创新是Google做的。另外我很佩服Demis Hassabis,我觉得他是一个有科学头脑、战略眼光,又可以落地解决实际问题的领袖,同时他还是一个商业奇才。但Google也面临很多挑战,比如他们的搜索可能会被AI替代。
李天亮:搜索是Google的根基,也是它最大的收入来源。现在从用户角度来看,AI应用已经彻底取代搜索,假如是这样,Google会不会彻底被颠覆。
张亚勤:但我觉得颠覆要有一个过程。而且Google有能力自己颠覆自己,如果它不主动改变它的商业模式或者技术路径,那未来有可能会被颠覆。但它现在整体是在朝那个方向走的。从人工智能技术维度来看,Google非常有潜力,包括他们的无人驾驶、云计算等,在算法上还是处于领先地位。
李天亮:对于AI可能引发的风险,有人认为随着AI的发展,它将来会产生意识、会失控,比如马斯克便非常担心AI将来毁灭人类,所以他呼吁要对AI进行监管。你怎么看待AI有可能引发的风险?
张亚勤:我认为目前我们在深度学习和大模型算法上的进展,短期内并不会让人工智能产生“意识”,所以不用担心机器会控制甚至取代人类。
我一直把人工智能分成三种类型:信息智能、物理智能和生物智能。在信息智能阶段,我们已经能看到一些很明显的风险,比如:disinformation(虚假信息)、misinformation(错误信息)、deepfake(深度伪造)、以及幻觉现象、知识产权等方面的问题。这些虽然是风险,但相对来说它们可以被解决。
但到了物理智能阶段,比如像无人车、机器人这类AI系统,当他们和现实世界的物理基础设施产生连接后,如果系统出现失控,或者被恶意利用,那风险会很高。
到了生物智能这层面,风险就更高。比如脑机接口技术,植入芯片后可以控制人的大脑。所以我这几年和一些AI专家一直在呼吁,我们要提前了解并正视这些风险,在做相关研究和产品开发的时候,也要把风险模型考虑进去。
张亚勤:AI兴起后,确实会有一些岗位和产业消失。比如客服、翻译等工作,未来可能只需要极少数人,80%-90%的岗位将被替代。再比如一些重复性的、体力类的工作,大概率以后也会由机器完成。甚至我们现在认为比较专业的,编辑、程序员、工程师这些岗位,也有可能会逐渐被AI替代。
但同时,AI也会创造出很多新的工作机会。比如我们需要人来收集数据,就会出现更多的数据工程师。我们需要人来设计流程,把AI真正应用到生产生活中;也需要人来推动这些新产业的落地和创新,很多原来根本不存在的行业,会因为AI的到来而出现。我们的工作时间也会大幅减少,可能后面每周只需要工作3、4天,乃至1-2天,会有更多的时间可以去做自己喜欢的事情。
这中间对某些行业会比较痛苦,社会和政府就需要帮助他们去转型。之前我很反对UBI(universal basic income)基础收入这个概念,我觉得没必要担心。但现在我认为在转型的时候,对某些行业还是要提供基础收入,可以让人在工作上遇到困难时能够有尊严的活着。
李天亮:你在书里提到应对人工智能产业发展的3R原则,可以再给我们具体讲讲吗?
张亚勤:第一个R是 Responsive,指的是要积极响应。我们做人工智能,首先要回应社会的需求。比如研究新药、自动驾驶,还有利用人工智能处理碳排放等,要关注社会的大需求。第二个R是 Resilient,也就是要有韧性。现在人工智能还存在不少问题,比如算法黑箱、幻觉问题,这些都是非常现实的技术挑战,所以我们在这些问题的解决上要有韧性。第三个R是 Responsible,也就是负责任。我们无论是做基础研究,还是做技术开发、产品设计,都要有责任心,清楚自己在做什么、为什么而做。这三个R后来也成为我们从事人工智能过程中的伦理、安全、和应对风险的原则。
李天亮:2020年,你成立了清华大学智能产业研究院,为什么会想成立这样一个研究院?
张亚勤:2020年离开百度后,我回到学校,希望能培养更多的人才,于是成立了清华大学智能产业研究院,英文简称AIR。这里的“I”其实有三个含义,International(国际化)、AI(智能化)、Industry(产业化),我们的定位很清晰——用人工智能来赋能产业。我们的首要目标就是为了第四次工业革命,为人工智能培养有国际化视野的顶级的架构师和CTO;第二个目标是要做领先的研究,开发一些创新技术,特别是从0到1的技术;第三目标是要和产业合作,要对整个行业产生影响。
李天亮:回顾你过往的履历,你有很多身份,包括科学家、企业家、清华老师,你最喜欢哪一个身份?
张亚勤:我比较喜欢老师这个身份。因为老师很重要,目标是培养人才。现在人工智能有三大要素,数据、算力和算法,但最终决定人工智能发展的还是人才。
李天亮:回望20年前刚进入AI领域的时候,你觉得自己做对了什么?又有哪些遗憾?
张亚勤:2005年,我有三件事可能做对了。第一件事是决定回国,组建了微软亚太研发集团;第二是当时开始做AI,做bayesian(贝叶斯优化算法)、云计算和移动大数据;第三个是我买了英伟达的股票(笑)。
也有三个遗憾,第一个是我们当时的研究还是偏向统计的算法,没有考虑到深度学习;第二个遗憾是我们当时没把GPU看的太重,还是以CPU为重;第三个遗憾是英伟达股票买太少(笑)。
张亚勤:首先是人工智能一直在变,但它最根本的东西没有变。所以现在如果想选人工智能行业,数理基础还是很重要,包括微积分、线性代数、信息论等这类基础课程还是很重要。第二是要不断学新东西,要学习使用最新的AI工具,提升工作学习效率。未来90%的工作机会,都是“AI+”或者“AI×”的模式,能够把AI运用到各个行业中的人的机会最大。