前沿科技
K时评:DeepSeek R2,翘首以盼
DeepSeek R2,全网翘首以盼。今年年初,DeepSeek的火爆出圈,引发了AI圈大模型的新一波热潮。Deepseek应用一度登顶苹果中国地区和美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。QuestMobile数据显示,DeepSeek在1月28日的日活跃用户数首次超越豆包,随后在2月1日突破3000万大关,成为史上最快达成这一里程碑的应用。但半年多过去,下一代大模型DeepSeek R2迟迟未能发布,其数据随之呈现下滑趋势。QuestMobile《2025年二季度AI应用价值榜》显示,DeepSeek的App端流量自4月起开始下滑,其月活跃用户规模从2025年3月的1936.1万降至6月的1629.5万。对5月流失用户的追踪揭示了他们的去向:56.0%转用百度,42.1%选择QQ浏览器,39.4%流向豆包,27.8%改用夸克。随着DeepSeek的热度下降,AI大模型模型迭代节奏放缓的问题,再度浮出水面。备受期待的OpenAI最新旗舰大模型GPT-5终于在本月发布,然而其性能没有达到业内预期。OpenAI CEO萨姆・奥尔特曼在接受采访时承认当前AI市场存在泡沫,将其与90年代互联网泡沫相提并论。此前亦有消息称,DeepSeek CEO梁文锋对R2的表现不满意,是导致R2迟迟未能发布的重要原因,不过,截至目前,《科创板日报》记者不能获得证实。当前,随着基础大模型技术升级进入平缓期,AI企业正从单纯的技术竞赛转向应用生态布局,未来的竞争将围绕场景落地而展开。OpenAI已把目标投向了硬件和应用。据悉,OpenAI计划推出多款全新的消费级应用,或将包括备受市场关注的AI浏览器和AI社交产品。OpenAI还以65亿美元收购AI硬件初创公司io,计划于2026年底前推出首款AI“伴侣”设备。国内诸如阶跃星辰等大模型企业正在拓展汽车、手机、IoT设备等终端市场,并与金融财经、内容创作、零售等领域的行业头部公司合作,拓展垂直行业的应用。阶跃星辰创始人兼CEO姜大昕透露,公司定下了2025年冲刺营收10亿的目标。在不久前的2025世界人工智能大会上,《科创板日报》记者看到,AI正在逐步转向场景落地,在制造、医疗、金融、消费电子等领域,智能体以及各类AI端侧硬件“百花齐放”。可以说,如何将现有技术转化为可持续的商业价值,将成为下一阶段AI产业发展的关键议题,我们静待全新的DeepSeek R2到来。
7小时前
2
开源版Genie3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
国产开源版Genie 3问世,昆仑万维用1.8B模型跑出了神级效果。世界模型,正在迎来一次技术大突破。本月初,Google DeepMind发布的Genie 3,因为效果惊艳,关注度直接超越了OpenAI同日发布的GPT-5。Genie 3实现了实时互动、高度一致化的生成,直接从「游戏画面」迈入「真实世界」的程度,它能维持数分钟的生成一致性,更重要的是还能做到实时响应。Genie 3实现的效果。AI领域里,技术发展的速度总是很快,没过两个星期,开源的实时世界模型就已经出现。这款国产开源的新模型能把复杂的建筑和地形,玻璃的反光都模拟出真实感,符合物理逻辑。如果你上传一个神庙逃亡游戏的截图,就可以在这个世界模型里面开一局,AI脑补出来的画面会无限地向前延伸。它就是昆仑万维发布的交互世界模型「Matrix-Game 2.0」,它的参数量仅有1.8B,能跑在单块GPU上,生成的虚拟环境帧率能达到25FPS,我们在其中可以用键盘WASD按键进行实时的自由移动和视角控制,实现持续时长达分钟级的互动。最重要的是,它还是完全开源的(有权重+代码库),任何人都可以免费使用和修改,还可以自己上传图片进行体验。项目链接:https://matrix-game-v2.github.io/GitHub链接:https://github.com/SkyworkAI/Matrix-GameHuggingFace:https://huggingface.co/Skywork/Matrix-Game-2.0Matrix-Game 2.0成为了业内首个在通用场景上实现实时长序列、交互式生成的世界模型开源方案,相比过去的开源模型有了质的飞跃。它也成为了在外网引发关注的又一个国内开源模型。有人已经在说「这是开源版本的Genie 3」了。它的效果究竟如何,我们第一时间进行了实测。一手实测丢张图即可走进实时生成的虚拟世界世界模型一直面临诸多挑战,尤其是在处理复杂环境、实时交互和高度动态变化的情况下。传统的世界模型通常依赖大量高质量数据,且在缺乏预设情境时难以进行准确推理和反应。同时,这类模型在生成和更新时需要消耗庞大的计算资源,导致实时反馈效率受限,从而难以真正落地应用。昆仑万维推出的Matrix-Game 2.0为这一领域带来了新突破。这款交互式世界模型结合了高度自由的操作与实时生成的特点,提供了一种独特的玩法体验。我们只需上传一张静态图片,模型便会基于该图像加载并生成一个虚拟世界。玩家可以通过方向键或WASD键控制人物在虚拟世界中的移动,且每一次人物的移动都会实时影响环境,并生成新的视频内容。例如,我们丢给它一张3A大作《荒野大镖客》的游戏画面,并控制方向和视角切换,模型最终生成的视频展示了非常细腻的自然景观。从山上俯瞰,一条清澈的河流蜿蜒流淌,看起来,Matrix-Game 2.0不仅能够理解海拔的高度差异,还能够模拟出流水的动态效果,这种精细的渲染无疑增加了虚拟世界的真实感与沉浸感。再以经典的《CS:GO》地图De_Dust2为例,模型不仅加载了现有场景,还展现出强大的推理和补充能力。它能够基于图像信息自然拓展额外视角和细节,确保生成视频在场景一致性和时序连贯性上的高度可靠。对于《我的世界》这种像素画风的游戏场景,Matrix-Game 2.0同样表现出了极高的创造力。通过将静态元素转化为动态场景,模型生成了一段如同无人机航拍的视角视频,展现了两侧山脉的轮廓、梯田的层次、高大的树木,以及河流中的倒影。最近,《战地6》在全球范围内引起了广泛关注,预购开启后短时间内登上PS5及Steam多个国家的畅销榜,并在Beta公测期间以52万Steam同时在线人数打破记录。我们利用Matrix-Game 2.0复刻了这款尚未发售的3A游戏精细地图,每次角色移动和视角切换都会实时触发新的画面生成。高帧率和物理一致性保证了操作与画面的紧密结合,充分展现了其在高复杂度交互场景中的潜力。Matrix-Game 2.0的能力不仅局限于游戏场景,在现实世界模拟中,它能快速响应用户的视角与移动变化,生成符合物理规律的自然画面。例如,它成功复现了自行车骑行的第一视角:柏油马路笔直延伸,两旁的行道树不断后撤,画面细节丰富、动态感强,每一帧都精准模拟了现实骑行的空间感与真实感。前段时间,Google DeepMind研究科学家Aleksander Holynski使用谷歌Genie3,「走」进1978年的名画《苏格拉底之死》,吸引了不少网友围观。这次我们也来个「名画漫游」,让Matrix-Game 2.0生成一段梵高《星空》的视频,可以自定义不同角度观察画作,感受其构图、色彩与氛围的变化。同样,我们还通过模型生成了宫崎骏风格的乡间小道场景,随着方向键的切换,生成的画面景色也随之变化,脑补出的画面毫无违和感,甚至连树影都模拟出来了。经过一系列测试,我们认为Matrix-Game 2.0的技术确实具备巨大的潜力。作为一个开源项目,它已经能够实现高度真实的虚拟世界生成和实时交互,为游戏开发者和玩家提供全新的可能性。当然,它也有不少可以提升的空间,比如视觉保真度并不总是能与主流游戏工作室的水平相媲美,而且复杂的交互有时对AI来说也难以完美处理。不过这是一个好的开始,Matrix-Game 2.0让我们看到,虚拟世界与现实交互的边界正在被逐步打破,下一代游戏和智能体或许就将以此为基石。从数据生成到模型架构核心技术全面突破在上周开源模型的同时,昆仑万维同时放出了Matrix-Game 2.0的技术报告,我们可以在其中看到不少技术细节。技术报告链接:https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf最近一段时间,基于扩散模型的方法让我们看到了交互式视频生成的潜力。但是,现有的交互式世界模型依赖于双向注意力机制和冗长的推理步骤,严重限制了实时性能,难以模拟现实世界的动态。为解决这个问题,昆仑万维提出了一种全新的视觉驱动交互世界建模方案,彻底摆脱了此前依赖语言提示的生成模式,专注于通过视觉理解和物理规律学习来构建虚拟世界。在Matrix-Game 2.0上,研究人员通过少步骤自回归扩散算法实时生成长视频,引入了一个专为实时模拟和交互设计的高效框架,同时应对解决了效率和可控性的挑战。Matrix-Game 2.0模型由三个关键组件组成:适用于虚幻引擎和GTA5环境的可扩展数据生产流水线,可有效生成海量(约1200小时)交互式视频数据;动作注入模块,支持帧级鼠标和键盘输入交互;基于自回归扩散模型的少步骤蒸馏,用于实时流式视频生成。基于以上架构和训练机制,Matrix-Game 2.0能够在单块英伟达H100 GPU上以25 FPS的速度跨不同场景生成高质量的分钟级视频。在模型的构建过程中,首先昆仑万维设计并实现了全面的数据生产管线,以支持交互式视频生成模型的大规模训练,克服精准匹配键盘控制与画面、完善动态交互这两大挑战。其开发的多样化数据集生产流程包含从著名游戏引擎虚幻引擎和游戏GTA5的模拟环境中获取静态与动态场景。虚幻引擎的数据生产管线如下所示:为了获取更多交互式动态场景,工程人员在GTA5环境中开发了一个综合记录系统,使用Script Hook V扩展工具,使视觉内容与相应的用户动作同步捕捉。这个数据整理流程收集了超过120万个视频片段,它们的整体准确率超过99%。GTA5采集数据的轨迹。在Matrix-Game 2.0的基础模型框架上,昆仑万维也进行了一系列独特的设计。模型源自WanX,通过移除文本分支并添加动作模块,该模型仅根据视觉内容和对应的动作来预测下一帧的画面。该系统首先对原始视频数据进行时空压缩,图像输入通过3D Causal VAE和CLIP图像编码器作为条件输入进行处理。在用户提供的输入动作的引导下,DiT模型(Diffusion Transformer)生成一个视觉隐空间序列,随后通过3D VAE解码器将其解码为视频。简单来说,这种机制避免了语言先验可能带来的语义偏置,转而专注于图像的空间结构和动态模式,可以更准确地理解和生成虚拟世界。为了让人们可以与生成内容互动,Matrix-Game 2.0系统集成了动作条件控制模块,支持帧级键盘与鼠标交互输入。在其中,连续的鼠标操作会直接与输入的潜在表征相连接,经多层感知机(MLP)层处理后,再通过时序自注意力层进行动态调整。此外,键盘操作通过交叉注意力层对融合特征进行查询,从而实现交互操作的精准可控性。Matrix-Game 2.0基础模型框架。最后,为了生成更长的视频,减少内容上出现的偏差,昆仑万维开发了一种用于实时长视频合成的自回归扩散生成机制,通过Self-Forcing把双向基础模型转化为高效的自回归变体,让每个帧基于先前自生成的输出而非真实值进行条件化处理,从而解决了暴露偏差,显著减少了此前世界模型中常见的误差累积问题。自驱动因果扩散模型训练流程示意图。通过自条件生成机制,蒸馏过程将学生模型的分布与教师模型进行对齐。该方法在保持生成质量的同时有效抑制了误差累积。实验效果如何?在与Oasis世界模型的对比上,Matrix-Game 2.0在长时间互动视频生成方面效果更好:Oasis会在生成几十帧之后效果明显下降,Matrix-Game 2.0则能够一直保持稳定。Matrix-Game 2.0和Oasis生成画面效果的对比。定量比较的话,Matrix-Game 2.0在图像质量、时间一致性、控制准确性等方面保持领先,同时也保证了灵活性和效率不降低。可见,昆仑万维的新方法可以有效减少当初Oasis模型「转一圈画风完全变了」的尴尬情况,这对于面向实际落地的应用来说非常重要。昆仑万维持续发力开源社区Matrix-Game 2.0并不是昆仑万维第一次展示实力。在开源领域,最近这家公司的名字越来越频繁地出现。仅在今年,昆仑万维就开源奖励模型Skywork-Reward-V2,无限时长电影生成模型SkyReels-V2,多模态推理模型Skywork-R1V,面向数学、代码等领域的文本推理模型Skywork-OR1,以及软件工程自主代码智能体基座模型Skywork-SWE等等多款模型。在HuggingFace上,昆仑万维的模型热度很高。上周连续五天的技术发布活动,昆仑万维还陆续发布了SkyReels-A3视频生成模型、世界模型Matrix-Game 2.0与Matrix-3D、Skywork UniPic 2.0多模态训练推理框架,Skywork Deep Research Agent v2、Mureka V7.5等等一系列AI模型、工具。这一套覆盖图像、音频、视频、音乐、智能体的组合拳,向世人展示了该公司持续深耕技术的成果。这些AI领域的新技术,有很多都实现了业界领先的水平,不仅让昆仑万维在技术落地上不断扩大版图,也通过不断的开源反哺了研究社区。当然,这样持续不懈的前沿技术研发也在引发质变,开启新的方向。世界模型进入实用阶段在DeepMind的Genie 3发布后,很多人发现,世界模型已经不再是个未来式,而是正在展现出很大应用潜力。DeepMind自己就表示,希望能把世界模型生成的环境直接对齐到机械臂和具身智能的训练上。在很多情况下,具身智能的基础模型面临着数据匮乏、采集难、难以泛化等问题,世界模型生成的虚拟环境,可以成为AI完美的训练场。世界模型会在学习物理规律、事物之间交互规则等知识后进行预测和规划。在其中进行探索的机器人、自动驾驶汽车依据这些规则进行交互,就可以训练出更多的智能。可见不仅在游戏、虚拟人等娱乐场景中,在发展现实世界生产力的「物理AI」方面,世界模型也可以发挥作用。在Matrix-Game 2.0等开源技术出现之后,世界模型实用化的脚步还会加快。
16小时前
2
“最大的障碍来自物理学界”,MIT物理学家反思AI与物理的结合
翻译|1/137杰西·塞勒(Jesse Thaler)是麻省理工学院(MIT)理论粒子物理学家[1],他寻求通过将量子场论和机器学习(machine learning)的技术相结合,来解决基础物理学中悬而未决的重要问题。他还是美国国家科学基金会(NSF)人工智能和基本相互作用研究所IAIFI(Institute for Artificial Intelligence and Fundamental Interactions)[2]的主任。IAIFI于2020年成立,获得了NSF为期五年的资助,旨在将波士顿地区探索人工智能(AI)问题、物理学问题及其交叉领域的人才聚集在一起。最近,FirstPrinciples(以下简称FP)就人工智能与基础物理学交叉领域的挑战与机遇,以及IAIFI研究人员正在进行的工作等问题采访了塞勒(以下简称JT)。他分享说,就在不久前,他的学生还不得不说服他“从机器学习的‘老学究’变成机器学习的‘布道者’”。他甚至开玩笑说,这次采访的后续问题可以直接向ChatJesseT[3]提出(见下图),这是他的学生和博士后专为愚人节而创作的ChatGPT搞笑版。为清晰起见,采访内容经过删节和编辑。FP:你能谈谈IAIFI的成立以及你是如何参与其中的吗?JT:我是一名理论物理学家。我曾在苏黎世参加一个活动,当时一群从事理论粒子物理的朋友刚开始使用机器学习。我开玩笑说:“深度学习?我们是理论物理学家,应该做深度思考!”这个玩笑最终成了IAIFI的标语:深度学习+深度思考=更深入的理解(Deep learning+Deep thinking=Deeper understanding)。人工智能和物理学其实是一条双向道:一方面是AI对我们研究新物理现象的影响,另一方面是将物理学的思维方式应用于AI系统的运行。那是2016年7月,我刚开了这个玩笑,同年9月,两位出色的研究生就带着他们硕士期间写的一篇论文来到我的办公室,试图说服我。我所做的那种第一性原理研究与高等计算、统计推理(Statistical reasoning)、计算机科学和AI等方法之间确实存在协同效应。我明确地告诉他们,我认为物理学研究不应该朝着这个方向发展,即只是做机器学习的现成应用。而他们实际上也同意我的观点。他们的博士研究真正关注的是将物理原理注入AI,并教会机器像物理学家一样思考。从某种意义上说,IAIFI是为帕特里克·科密斯克(Patrick Komiske)和埃里克·梅托迪夫(Eric Metodiev)这些学生建立的,因为我意识到在AI和物理学之间的交叉领域上,当时并没有真正的职业发展机会。它曾是(并将继续是)一个新兴领域。如果有人想深入研究物理学的主题,但也想研究计算和统计学,那么他们在学术生态系统中该如何定位呢?这就是向NSF申请资助以创办该研究所的动机。FP:你认为这个交叉领域有哪些令人激动的机会?JT:如果只将AI应用于基础物理学研究,那么这一领域面临着巨大的挑战,我们正在努力理解自然界中一些最深层次的问题。也许并非人尽皆知的是,在2012年发现希格斯玻色子的背后有大量的机器学习算法在发挥作用。大型强子对撞机(Large Hadron Collider,LHC)会产生海量数据。为了筛选这些数据,机器学习现在是数据分析的一个非常标准的部分。如今,机器学习正逐渐从浅层学习转向深度学习。我们甚至开始看到生成式(Generative)AI在影响我们对物理分析的思考方式。宇宙学是另一个拥有海量数据的领域,并且运行宇宙的模拟需要巨大计算成本。如果没有机器学习这样的技术,我们根本无法处理这些问题。中微子实验提供了又一个例子。美国正在大力投资一种名为“液氩时间投影室”(Liquid Argon Time Projection Chambers,LArTPC)的探测器技术。这有点像是回到了气泡室(bubble chamber)时代[4],那时人们会查看粒子相互作用的单个图像——只不过现在这些图像(数据)随着束流(beam)的每一次“倾泻”而快速、密集地出现。你不可能人工逐一查看这些图像,但你需要类似人类的推理能力来弄清楚发生了什么。在这种情况下,如果没有机器学习帮助我们筛选这些信息,这项技术甚至无法运行——这正是AI在基础物理研究中显得绝对必要的一个例子。2024年度诺贝尔物理学奖获得者约翰·霍普菲尔德(John Hopfield)和杰弗里·辛顿(Geoffrey Hinton)图源:Ill.Niklas Elmehed©Nobel Prize Outreach至于物理学如何应用于AI,这一点可能并不那么显而易见。为什么物理学能够帮助我们理解AI系统呢?当然,随着最近诺贝尔奖的揭晓[5],这种联系或许更容易解释了。我们至少看到了四种物理学对AI产生影响的方式。第一种是将物理学融入现有的AI系统。例如,如果你想让一个机器人在某个环境中导航,你会希望教它一些关于物理系统、三维空间以及旋转对称性等方面的知识。甚至一些利用AI实现的强大计算机图形效果,也依赖于光线追踪(ray tracing)技术,它基于描述光如何传播的物理学原理。第二种是物理学为AI提供支持,源自物理学的概念可以帮助你构建更好的AI工具,即便并不是直接研究物理系统。你可以设计出嵌入了物理学思维方式的机器学习架构,而这些概念被证明是非常强大的。然后,还有AI的物理学(physics of AI),即把AI当作一个真正的物理系统来思考。例如,相变(phase transitions)是物理学家非常熟悉的一个概念。AI并非只是一种单一的存在。由于你可以通过调整机器学习算法中的超参数(hyperparameter)来改变其行为,因此AI可以表现出不同的“相”(phase)。随着对这些超参数的调整,AI会经历不同的“相”,学习方式也会随之改变。IAIFI的研究人员正在探索这方面,他们考虑使用物理学分析工具来理解AI。最后,物理学正在推动AI实现一些连AI专家都未曾想过其算法能够做到的事情。宇宙学是一个多尺度(multi-scale)问题,其动力学发生于宇宙作为一个整体的层面,还要逐步聚焦,直到个体星系的层面。如何处理这些不同尺度上的现象?这确实是将AI算法推向了极限,因为很多AI都是为文本处理或图像识别而设计的,这种多尺度的性质并不那么明显。FP:与物理学的某些子领域相比,IAIFI科学家所从事的领域正在以惊人的速度发生变化。这种快速变化,带来了哪些独特的挑战或机遇?JT:嗯,这绝对需要我们以不同的方式思考问题。作为一名理论物理学家,我的主要工具箱是量子场论。你可能会问,“量子场论怎么可能从AI中受益?”量子场论基于严格的计算,而关于AI的固有印象往往是,“哦,AI会产生幻觉。”在需要严格计算的情景中怎么使用AI呢?你必须创造性地思考如何做到这一点。我的一位IAIFI同事正在研究简化理论表述。众所周知,计算量子散射振幅(quantum scattering amplitude)的传统方法需要成堆的草稿纸,但如果简化它们,(这些计算)可以压缩到一行。实际上,弄清楚这种压缩是非常具有挑战性的,因为你面对的是具有非常复杂性质的特殊函数。有了大型语言模型,我们已经知道如何总结文本。利用这种文本总结的方法来进行方程的总结也并非难事。因为你知道其中的规则,你可以让AI输出它用于简化方程的规则,然后验证这些规则是否真正有效。机器学习为我们提供了一种启发式的方法,使我们能够在有限的计算时间内得到合理的答案。在我的研究中,我一直在尝试整合不同类型的理论计算。这有点像盲人摸象的故事,只不过这里的“象”是一个大家争相追逐的基础物理计算。你可能无法直接计算它,但可以在特定极限情况下做一些计算——你可以计算大象鼻子,也可以计算大象尾巴,然后找到一种方法将它们合而为一。我能否将这种整合过程转化为一个优化问题(optimization problem)?如果可以,而且能够用这种语言重新表达我的问题,那么机器学习就提供了一种解决方案。而我的责任在于弄清楚这个解决方案意味着什么。这要求我得像机器一样思考。如果我能做到这一点,那么我就能完成一些仅靠纸笔计算无法完成的事情。FP:创造力并不是通常与AI联系在一起的东西。JT:是的。我们通常认为创造力是人类大脑的一种特殊能力。但我认为,从ChatGPT那里我们学到,通过穷举搜索(exhaustive search)也可以获得一种创造力。我其实真的不太明白它是如何工作的。但也许,我们需要思考过去的发现,哪怕只是作为一个思想实验,包括像爱因斯坦的广义相对论这样基础性的理论。我们是否可以通过对理论可能性空间(space of theoretical possibilities)的穷举搜索来发现它?对这个问题,是否存在一种解决方案,而不需要这种灵光乍现的洞察力飞跃?我觉得还没有人真正成功做到这一点。但已经有迹象表明,数值和文本数据之间的联系可能比人们想象的要紧密得多。可以想象我们进行这样的对话,在未来——尚不清楚是1年后还是10年后——人们通过用AI的语言来表述问题,从而提出新的概念性突破。那将是非常令人兴奋的。FP:你提到了ChatGPT,生成式AI已成为公众意识中普遍存在的话题。这种兴趣的激增使IAIFI研究人员的工作更轻松,还是更困难?JT:因为我们所做的工作与研究本身更根本的好奇心有关,所以我们没有(至少直接地)面临一些关于AI的社会担忧,尽管我们非常清楚我们为基础物理学应用开发的技术可能会进入社会应用领域。伦理学中也存在算法的一面,即通过计算工具来做出决策。我的一位从事实验研究的同事曾尝试设计一种算法,使其能够做到无偏(unbiased)收集LHC数据。当然,这种去偏(de-biasing)的方法也适用于更广泛的社会应用。他实际上将他的工具应用于一些基准医学影像和监禁数据集(incarcerationdata sets)[6],并发现其性能优于其他方法。我认为最难向人们解释的是,这些算法本质上是概率性的(probabilistic)。每次在ChatGPT中输入一个提示词(prompt),你都会得到不同的答案。作为一名物理学家,这对我来说是非常常见的。我的意思是,量子力学就是这样的。统计推理是我们所做工作的核心,至少在现代物理学中是这样。很多时候,最大的障碍来自我们物理学界。许多物理学家并不接受AI,部分原因是他们不了解它能做什么,或者只将其与深度视频伪造(deepfake video)联系在一起。现成的AI并不适合物理学的应用。但通过适当的调整,你可以拥有与传统方法一样稳健的AI系统。至于要说服他们,最好的方法和当初说服我的方式一样。需要一个年轻人走进你的办公室,展示AI能做什么——它能满足我们习惯的科学严谨性的标准,并且它还能回答你从未想过能用传统方法解决的问题。我们真的需要通过一次又一次的交流来说服那些持怀疑态度的同事。我不认为人工智能会消失。作为科学家,我们不能像鸵鸟一样把头埋在沙子里。我们需要开始理解这些系统的工作原理,特别是为科学界设计AI系统。现成的AI并不完全适用于科学发现,但它已经很接近了。我们可以通过与计算机科学界的协作,推动两个领域的发现。FP:你能谈谈IAIFI与政府和产业界的联系吗,为什么这些联系很重要?JT:IAIFI的研究人员主要研究的是好奇心驱动的问题。但是,好奇心驱动的科学和应用项目驱动的科学之间存在着一个连续体,从黑板上开始的想法最终可以进入消费者手中。目前,AI相关的讨论主要由消费级应用或行业应用推动,但与其他领域的专家交谈可以获益良多——不仅仅是物理学,还有哲学、历史、宇宙学、化学、生物学以及地球和行星科学等等。它们中每一个领域都有自己的数据框架和相应的理解,如果它们参与到对话中,则可以获得有益的见解。我去了国会山并与工作人员进行了交流。每个人都需要对AI有所了解,但也需要明白AI在不同领域有着不同的表现形式。至少,我们所有人都必须从教育的角度去思考它。我有一个12岁的儿子,所以我非常清楚他可能会启动一个聊天机器人来完成他的作业。拥有不同领域的视角是非常重要的。我们正在努力让物理学界的声音被听到,而不仅仅是那些大型公司的声音。FP:IAIFI最初的五年投资大约已经进行了四年。你认为该研究所到目前为止取得了哪些成就?你对它的未来有何设想?我真的很自豪我们已经将“AI+物理”确立为人们认可的领域。我们的IAIFI博士后奖学金取得了巨大的成功。实际上,我们的第一轮研究员,也有我们第二轮的部分研究员将继续在工业界和学术界工作。他们正在从事的工作是以前并不真正存在的。有两个具有物理学背景的研究员被计算机科学系聘用的例子,看到这样的发展真的很令人兴奋。我希望物理系最终也能雇用具有更多计算机科学背景的人。它需要是一条双向的道路。具体而言,我们正在努力争取让IAIFI获得NSF的续期资助。更广泛地说,我们的愿景是将我们已经开展的“AI+物理学”的工作扩展到“AI+科学”,强调科学发现的方式将会改变,每个领域都有能力为这一变革做出贡献。至于到底会是什么样子呢?我们将拭目以待,看看是持续的政府支持,还是来自基金会支持或私人慈善捐赠。但我的希望是,五年后,你会看到在这个跨学科领域中出现更多的职位(以及更多的突破)。译者注[1]参见Jesse Thaler在MIT的主页:https://physics.mit.edu/faculty/jesse-thaler/。[2]参见:https://iaifi.org/。[3]可访问:https://chatjesset.com/。[4]气泡室是1952年美国物理学家格拉泽(Donald Arthur Glaser,1926-2013)发明的。它曾给高能物理实验带来许多重大的发现。格拉泽因此获得了1960年诺贝尔物理学奖。
18小时前
1
印度软件外包业的AI大逃杀
四十年前,班加罗尔的小办公室里,Infosys创始人用250美元启动资金创造了数百万个中产阶级岗位,让印度工程师一度成为全球IT外包不可或缺的关键词。据悉,鼎盛时期,美国GDP每增长1%,印度IT出口就增长4.1%。整个产业创造了2亿美元的出口额。而今天,这个价值2830亿美元的产业正经历着前所未有的变故。塔塔咨询服务公司突然宣布裁员1.2万人,Infosys、Wipro等巨头纷纷跟进,曾经令人艳羡的白领精英一夜之间沦为失业大军。印度引以为傲的IT外包产业,似乎正在被某种无形的力量推向深渊。究竟是谁将辉煌一时的印度IT外包逼上绝路?这些突然被裁的技术中产阶层,又将何去何从?一、全球IT外包霸主的衰落时间拨回三十年前。当第一批美国公司将软件测试业务外包到印度时,没人能预料这会催生出一个价值2830亿美元的产业。1995年,美国程序员戴维·埃迪首次提出“Y2K”概念,警告当时的计算机漏洞可能会引发账户冻结等灾难,引发全球恐慌,但招聘本地技术人员成本太高,美国开始大规模寻找还能修补计算机代码漏洞的企业。这样的背景下,印度凭借普及的英语、STEM教育体系和仅为欧美1/5的薪资,建立起庞大的外包工厂,客户主要来自美国,部分印度IT企业如Mphasis对美国市场的依赖度甚至高达82%。TCS、Infosys和Wipro等公司从班加罗尔的小办公室起步,逐渐发展成为拥有数十万员工的跨国IT巨头。目前,全球前十大IT服务公司,印度独占4家。随着知名度的提升和业务的拓展丰富,印度一度成为全球IT外包霸主。根据NASSCOM的研究,大约50%的《财富》500强公司选择印度作为其IT外包的目的地。鼎盛时期,印度成为仅次于美国的第二大软件出口国,业务占据全球软件外包市场65%以上的份额。美国GDP每增长1%,印度IT出口就增长4.1%。然而,时间来到2025年,印度最大的IT服务公司TCS突然开始大规模裁员,规模达到12000人,占员工总数2%,成为史上人数最多的一次人事调整。TCS并非唯⼀缩减规模的公司,印度多家IT巨头都传出了裁员消息。Infosys、Wipro等公司业绩增长放缓,纷纷缩减校园招聘需求。TeamLease Digital的数据显示,印度IT巨头每年招聘的应届毕业生已从60万锐减至约15万。突然的变动让曾经将IT外包视为铁饭碗的技术中产阶级措手不及。他们发现,当全球技术范式发生根本性转变时,曾经的优势正在成为转型的障碍。印度IT外包正在经历一场数十年未见的寒冬。它的黄金时代,似乎正渐行渐远。是谁将印度IT外包逼上绝路?二、多重危机下的产业困局观察被裁员的对象,会发现印度IT外包业的衰退不可避免。据悉,此次裁员主要影响中高层管理人员和资深技术专家,尤其是那些在传统瀑布式开发模式下积累了10年以上经验,却未能及时掌握AI、云计算等新兴技术的员工。这说明,过去三十年,印度IT行业的人海战术,在新时代已经失效。一方面,过度依赖欧美产业。印度IT产业高度依赖欧美市场的技术支出。然而,随着全球经济增速放缓、特朗普关税政策的出台,欧美企业在IT服务上的预算趋于谨慎。许多非核心IT项目的缩减,导致印度IT公司营收增长大幅下滑。与此同时,菲律宾、拉美等地外包产业迅速崛起,为欧美提供了多元选择。这些地区同样拥有受过良好教育的技术人才,且在某些方面更具优势。例如,菲律宾地区薪资水平更低、拉美与北美时区更接近等。为了分散风险,欧美客户往往采取多岸外包策略,印度不再一家独大。另一方面,生成式AI的出现,直接瓦解了印度IT外包依赖的人力套利逻辑。GitHub Copilot、ChatGPT等头部AI应用,已经能接管基础的代码修复和开发工作,速度更快成本更低。曾经需要五六个程序员合作完成的任务,现在由一名掌握AI技术的开发者即可完成。大量初级和中级技术岗位将被AI和自动化取代,印度IT外包金字塔底部的百万开发者群体,面临职业危机。看起来,印度IT产业迫切需要懂AI的新鲜血液,但教育却没有与时俱进。据印度国家软件与服务公司协会,印度到2026年需要100万名AI专业人才,但目前具备AI技能的IT专业人员甚至不到20%。AI自动化侵蚀了其传统价格优势,而创新能力的不足又限制了他们向价值链上游移动的空间。总结一下就是,美国需求减少和其他地区竞争者,共同导致了印度外包业务缩减,AI技术给软件业带来的效率变革,削弱了印度原有的成本优势,而印度程序员的技能断层,又限制了转型可能。这些因素,共同导致印度IT外包正经历前所未有的阵痛。至于它能否走向复兴,就看它能否打破这一恶性循环。三、AI冲击下,IT外包将何去何从TCS的裁员风暴并非个案,而是全球科技行业AI转型浪潮中的一个缩影。2025年前七个月,全球已有169家科技公司裁员近8万人。但与此同时,市场对新兴IT岗位的需求并未减弱。《福布斯》报道,AI专业人士的薪酬每年增长11%,远高于约4%的全球名义工资增长率。这意味着,AI并没有抢走所有人的饭碗,只是开始取代一些数字世界里最底层的软件民工。英国知名企业家Daniel Priestly预测,全球业务流程外包行业雇佣的900万人里,有70%的工作可被AI取代。因为客户需求已转向产品化、敏捷化、AI驱动的解决方案,但部分IT企业仍遵循着瀑布式开发和人力密集型服务的传统逻辑。留给它们的选择是:继续固守日渐式微的外包模式,被市场淘汰;或者彻底转向高附加值的AI解决方案,在产业洗牌中寻找新的增长点。面对冲击,Infoys、TCS等软件外包巨头已开始探索新路径,但效果两极分化。Infosys的AI突进广受好评。在2025财年,该公司已成功交付超过400个生成式AI项目,增长率75%,涵盖客户服务、金融、医疗等多个领域。并且,其同期推出的200多个企业级AI Agent已经能自主决策、减少人工干预,提高效率的同时大大降低人工成本。据悉,通过员工培训计划,该公司32万员工中已经有27万具备了使用AI提升工作效率的意识。但另一边,TCS的AI培训却陷入雷声大、雨点小的窘境。11.4万员工完成高级AI培训,人均累计投入1500万学习小时,但实际业务转型成效存疑。外界质疑这些培训更多是形象工程,未能真正转化为生产力。这意味着,比起过程,实际的产品效果和客户反馈才是更有说服力。未来,印度IT外包产业或将进一步走向分化。低端、重复性的工作会进一步被AI吞噬,而高端领域如AI模型训练、行业解决方案设计等需求则会增长。至于印度软件外包业能否在这场AI大逃杀中劫后余生,就看它能不能在AI时代成功转型,从低端外包走向高端开发,将技术创新转化为商业价值。
1天前
15
当AI会写代码,新一代学生还要学编程吗?
“编程已死?”面对 AI 工具能自动生成代码的浪潮,谷歌科学家斯蒂芬妮·德鲁加回答说:“不,学习编程的作用远未失效。”一、超越工具属性:编程的核心价值在思维塑造在近期Edu指南和她的对话中,这位深耕 AI 教育的前沿实践者抛出了一个前瞻性观点:当机器接管了具体编程语法的书写,人类教育的真正高地,正悄然转向思维层面的重塑。在斯蒂芬妮看来,编程的深层价值远超其工具属性。它核心训练的是“计算思维”与“算法思维”:一种将复杂行为和交互,进行结构化、逻辑化拆解并描述的能力。“即便未来代码运行在更高抽象层级,人类仍需清晰理解应用逻辑:输入是什么?输出是什么?数据如何流转?功能如何实现?”她强调,这种思维框架是驾驭 AI 协作的根基。开发者之所以能通过“氛围编程”获得更优产出,正因其具备提问、评估与修正生成结果的内在思维模型。教育的重心,应从特定编程语言的传授,跃升至通用计算逻辑与架构思维的培养。二、不要惧怕学生使用AI,否则教育可能与市场需求脱节然而现实中的编程教育却深陷滞后泥潭。斯蒂芬妮犀利指出,传统教育体系转型艰难——课程、评估与考试机制难以迅速适配 AI 时代。“若因惧怕‘作弊’而禁止学生使用生成式AI,只会制造危险的技能断层。”她警告道。当学生踏入职场,几乎所有企业都已默认员工具备使用 Copilot 等 AI 编程助手的能力。禁止使用,意味着教育产出与市场需求严重脱节。如何弥合这一鸿沟?斯蒂芬妮给出了极具实操性的解决方案:“动态契约”。她向Edu指南展示了其创建的在线新工具:师生围绕具体任务,共同绘制“AI 使用光谱”。光谱一端是“鼓励行为”,另一端是“禁止行为”,中间则是充满不确定性的“灰色地带”。每位学生均可提出自己的使用设想并定位。随后,全班展开深度辩论,对灰色地带达成共识,最终形成一份独特的“班级社会契约”。这份契约的精妙之处在于可转化为“系统提示”,嵌入ChatGPT、Claude 或 Gemini 等工具中。当学生操作时,AI 会主动提醒:“根据协议,我不能为你生成整段内容”——技术成为了协议的守护者。“协议是动态的,”斯蒂芬妮解释,“当学生发现某些辅助方式(如头脑风暴)实际抑制了原创性,可推动班级修订条款。”这个框架将 AI 使用从“地下状态”推向透明协商,在具体任务场景中培养学生的批判性判断与规则共建能力,是素养养成的活课堂。三、AI素质能力前置当 AI 像空气般渗透孩童世界,“素养前置”已成刚需。斯蒂芬妮并不鼓吹低龄儿童过早接触技术,但面对现实时态度清醒:AI 已如氧气般无形融入孩子的生活。七岁孩童使用搜索引擎时,AI 已在摘要结果;语音助手的回应背后是语言模型的驱动;甚至 YouTube 的推荐流都由算法操控。孩子可能全然不觉这些“智能服务”背后的运作机制、数据来源或潜在谬误。“技术既成环境,对话必须开启。”为此,斯蒂芬妮开发了一本受到好评的《家长AI素养手册》。手册摒弃复杂理论,提供家庭场景的落地策略:化技术为对话内容:将“智能音箱如何识别唤醒词?”、“YouTube为何推荐这个视频?”融入晚餐对话。培养批判意识:引导孩子思考“如果数据不同,结果会怎样?”、“开发者为何这样设计?”错误即教材:当 AI 出错,与孩子共同剖析原因,理解技术局限。共学与倡导:家长无需成为专家,与孩子一起学习,共同关注隐私、公平等伦理议题。手册的核心在于:将高深的 AI 原理,降解为日常可触的“问题意识”培养,在家庭场景中播种批判性思维的种子。当入门级岗位被 AI 吞噬,教育目标需要根本性转向。斯蒂芬妮对Edu指南表示,她对当下教育逻辑有所质疑:“长久以来,教育被简化为就业市场的输送带——市场要 Python,课堂就教 Python;需求转向 Web 框架,课程立即跟进。” 这种“就业导向至上”的课程模式,在 AI 自动化浪潮下愈发显得脆弱而短视。大量基础编程、文书岗位正被高效替代,技能迭代速度远超课程更新周期。四、锚定“人”的优势:创造力、解决力、协作力她对Edu指南表示,教育的真正锚点应回归人的本质优势:创造力:“为新项目构思、为难题寻找破局点、探索新方法、做出新发现——这正是人类闪耀而 AI 困顿的领域。”营造激发好奇心与创造力的环境,是超越技术迭代的永恒价值。问题解决力:将复杂问题拆解为可执行步骤,调整策略,管理进程——这本质是高级算法思维与项目管理的融合。社交协作力:“即便 AI 无处不在,世界的运转仍系于人的联结。”跨文化沟通、团队协作、共情理解,是在 AI 嵌入社会后更显珍贵的“人类操作系统”。新一代创业者正用行动重写成功路径。斯蒂芬妮观察到,年仅 19 岁左右的年轻人正借助 AI 工具,以惊人速度创建盈利项目。其秘诀在于避开传统风险投资的路径依赖:不执着于融资与宏大叙事,而是敏锐捕捉具体痛点,用 AI 快速构建最小化解决方案,直接推向市场验证并收费。盈利与用户反馈驱动迭代,实现小而美的自主性。这种路径凸显了需求洞察、快速原型验证与独立商业思维的结合——这正是未来教育应强化的能力组合。行动建议:从热爱出发,让项目成为导师。对于渴望在 AI 时代学习编程的师生,斯蒂芬妮的处方简单而有力:“从任何地方开始,从一个你热爱的项目开始。”热爱音乐?尝试构建个性化的推荐系统,甚至开发一个“听哼识曲”的小应用。兴趣是抵御学习枯燥的最佳屏障。拥抱工具,勇敢提问。利用丰富的免费 AI 编程助手,如 Claude、DeepSeek 等智能代码编辑器。它们能提供实时反馈与指导。别害怕向社区或同伴求助。当 AI 轻松写出代码,教育的探索必须进入更深处。我们需要超越工具层面的焦虑,转而深耕计算思维的培养;需要打破课堂禁令,构建人机协作的透明契约;需要将 AI 融入家庭对话,让新一代小孩成长融合新的能力素养;更需要将教育目标从“适配岗位”升华至“释放创造力、锻造问题解决力、培养协作精神”。
1天前
6