Everything you care about in one place

Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.

Get Feeder

wechat2rss.bestblogs.dev

腾讯科技

Get the latest updates from 腾讯科技 directly as they happen.

Follow now < 10 followers

Latest posts

Last updated about 23 hours ago

黄铁军对大模型的四个预判:洗牌、安全核爆、GPT-5与再造DeepSeek

4 days ago

原创 苏扬 2025-06-13 09:52 北京 三个特点决定了大模型的数量,不会很多 腾讯科技《AI未来指北》特约作者丨苏扬编辑丨郑可君“百模大战”后,大模型行业加速收敛,一部分玩家离场,模型竞争逐渐成为巨头的游戏。4月份,李飞飞教授领先编制的《2025年人工智能指数报告》提供的数据显示,2024年全年具有特殊影响力的模型(Notable AI models)当中,排名前5的几乎都来自美国、中国的科技巨头。2024年全球有特殊影响力的模型分布,谷歌位列第一 来源:2025 AI指数报告日前,在智源大会上与腾讯科技的交流中,智源研究院理事长黄铁军教授表示,大模型留在牌桌上取决于“三要素”:数据来源实时性、知识面全量性和基础设施可靠性,它们共同决定???大模型的数量,不会遍地都是,“三个也好,五个、七个也好,基本屈指可数。”零一万物董事长CEO李开复博士也有相似的观点。今年3月,他在接受采访时表示,中美超大模型的预训练正在逐渐寡头化。他预测中国大模型领域未来将会收敛至三家,其中以 DeepSeek...

人类高考“封王”的大模型,离真正的“AI状元”还有多远?

6 days ago

原创 晓静 2025-06-11 15:12 北京 “AI高考”背后的五个问题 腾讯科技特约作者 |晓静编辑|萌萌2025年的高考刚结束,AI挑战高考题的浪潮却持续升温。DeepSeek、腾讯混元、字节豆包、阿里通义千问、百度文心、???飞星火等大模型纷纷被“请”进同款试卷的线上战场,掀起了一波“AI赶考”的刷屏热潮,“千军万马过独木桥”的竞赛在硅基世界中重演。然而???不同评测团队的试卷版本和OCR识别效果各不相同,可能连大模型是否顺利阅读到答卷都有很大的不确定性,打分标准更是五花八门,单次的“高分”往往难以复现。另外,高考是为筛选人才而设计的,它考查的不仅是知识掌握,更是时间压力下的心理素质和临场应变能力。当我们用非标测试下的AI高考分数能力来评估大模型的能力,真的客观吗?单次的分数,又能否代表某个大模型的真实能力?先说结论:用高考题这种标准化试题评测大模型的单科能力具有一定的客观性和参考意义。但是成绩高不等于大模型一定强,人类考试的分数标准并不适用于AI模型的能力评估标准。目前的"AI高考"测试普遍缺乏严谨性,测试环境和评分标准都不够规范可信。评估大模型能力应使用专门设计的Benchmark。如果非要用“高考成绩”看模型能力,应该看梯队而非排名,几分的差距不能充分代表能力差距。"AI高考"如何考?从目前已经公开的文章来看,“大模型赶考”一般会经历以下两个步骤:第一步是给大模型输入高考题,主要采用了以下几种方法:直接文本输入:将题目以纯文本形式输入给大模型,让模型给出答案。但是如果题目包含图像,模型可能无法解题。OCR转换法:将图片、扫描件或PDF文档中的文字转换为可编辑和可搜索的文本格式,再输入给大模型。这种方法的准确性很大程度上依赖于OCR技术的质量,可能引入额外的误差。多模态输入法:直接将包含文字和图像的题目输入给具备视觉能力的大模型。这种方法最接近人类考试的实际情况,但很多大语言模型还不具备这种能力。人工转写:由人工将题目内容转写为标准文本格式。这种方法可以避免OCR错误,但可能在转写过程中丢失或改变原题的某些信息。第二步,是进行评分,这个环节也有不同的机制:最简单的是标准答案对比法:将模型答案与标准答案进行对比,按照预设规则给分。这种方法相对客观,但主观题的评判还是会有偏差。还有很多人邀请一线教师或教育专家对模型答案进行评分。这种方法的优势是专业性强,但完全依赖人类高考的标准,存在主观性和一致性问题。多轮评分法:由多位专家独立评分后取平均值。这种方法可以减少个体主观性的影响,但评测成本较高,被采用比较少。混合评分法:结合自动化评分和人工评分。对于有明确答案的题目使用自动评分,对于开放性题目使用人工评分。给模型输入题目的路径方法五花八门,评分环节也有不同的机制,所以我们会发现同一个AI在不同媒体的测试中,分数往往不太一样,排名也是千差万别。比如,让AI做同一张数学全国卷一。下图(左)是一位AI自媒体,用AI进行三轮答题,仅参考最终答案,按照答对的概率给模型评分,得出的得分排名。下图(右)是我们用OCR转化之后,取AI一轮答题结果,并请人类名师按照高考的标准进行评分后得到的结果。两个结果大相径庭,以豆包为例,右边得分仅为75分,而左边得分高达145分。在评分标准中,我们特别注意到,为了结果的客观性,有些测试让 AI 在同一道题上连做数次,再取平均分。这种做法仅仅可以说是相对科学。“多做几遍再平均”可以降低随机波动、在数值题上确实有用,但它帮不了模型纠正概念性错误。大模型生成文字(更准确地说是“token”)的过程本质上是一次受概率分布控制的采样:在生成每个token时,模型会对词(或子词)表中的所有候选赋予一个概率。当推理温度temperature 高于0时,模型不会总是选择概率最高的那个候选,而是按概率进行随机采样。这个特性让模型具备多样化、富有创造力的输出能力。但随之而来的副作用是:在数学推理任务中,模型可能为同一题目生成不同的思考路径,从而出现不同答案。这种输出的不确定性并非缺陷,而是生成式模型的技术特性,所以在评价这类具随机性的系统时,应采用多次采样、自一致投票或置信区间等方法,才能获得更可靠、可复现的性能指标。在不同的预设环境下,用不同的评测方式,加上大模型自身的技术特征,很多人并没有进行多次答题采样,最终的结果是“大模型考生”进考场N次,但是还是决定不了究竟谁能上“清北”。这种输出的不确定性并非缺陷,而是生成式模型的技术特性,所以在评价这类具随机性的系统时,应采用多次采样、自一致投票或置信区间等方法,才能获得更可靠、可复现的性能指标。在不同的预设环境下,用不同的评测方式,加上大模型自身的技术特征,很多人并没有进行多次答题采样,最终的结果是“大模型考生”进考场N次,但是还是决定不了究竟谁能上“清北”。高考题适合测试AI吗?那么,让AI做高考题究竟有意义吗?智源研究院技术平台智能评测组负责人杨熙对腾讯科技说:“用高考题评测大模型的单科能力具有一定的客观性和参考意义,因为高考题标准化强、覆盖知识面广,能初步反映模型在各学科的基本表现。不过,高考题主要针对人类设计,模型可能利用大规模语料或答题技巧获得高分,实际能力未必与分数严格对应,特别是在主观题或知识应用方面。“上面两个对比不同的评分,主要的分数差别,就在主观题。高考题目为人类设计,为了衡量学生在特定的阶段(高中)对规定知识点的掌握与延展迁移能力。主观题的解答过程中会设置多个得分点,如果在解题过程中没有覆盖得分点,即使仅仅是答案正确,也不能得满分。人类老师在点评AI数学试卷的时候,把大模型遗漏的得分点全部扣了分。人类在考试的时候,不仅要考做得对,还要考思考路径。虽然目前的推理大模型有看起来与人类类似的思考过程,但是“大模型“与”人脑“的思维本质完全不同。因此,人类教师扣分标准也不适用于AI(如步骤分)。LLM 在构建“知识结构”时,会同时吸收课本语料、学术论文、软件代码、网页表格甚至带字幕的图像说明等多模态数据,因此它的“知识网”天然跨越小学算术到研究生数学的所有层级,并不是针对于高考的“高中”阶段。这种高度杂糅的语料库带来了一种被称作“逆向(inverse)或...

人类高考“封王”的大模型,离真正的“AI状元”还有???远?

6 days ago

原创 晓静 2025-06-11 15:12 北京 “AI高考”背后的五个问题 腾讯科技特约作者 |晓静编辑|萌萌2025年的高考刚结束,AI挑战高考题的浪潮却持续升温。DeepSeek、腾讯混元、字节豆包、阿里通义千问、百度文心、讯飞星火等大模型纷纷被“请”进同款试卷的线上战场,掀起了一波“AI赶考”的刷屏热潮,“千军万马过独木桥”的竞赛在硅基世界中重演。然而,不同评测团队的试卷版本和OCR识别效果各不相同,可能连大模型是否顺利阅读到答卷都有很大的???确定性,打分标准更是五花八门,单次的“高分”往往难以复现。另外,高考是为筛选人才而设计的,它考查的不仅是知识掌握,更是时间压力下的心理素质和临场应变能力。当我们用非标测试下的AI高考分数能力来评估大模型的能力,真的客观吗?单次的分数,又能否代表某个大模型的真实能力?先说结论:用高考题这种标准化试题评测大模型的单科能力具有一定的客观性和参考意义。但是成绩高不等于大模型一定强,人类考试的分数标准并不适用于AI模型的能力评估标准。目前的"AI高考"测试普遍缺乏严谨性,测试环境和评分标准都不够规范可信。评估大模型能力应使用专门设计的Benchmark。如果非要用“高考成绩”看模型能力,应该看梯队而非排名,几分的差距不能充分代表能力差距。"AI高考"如何考?从目前已经公开的文章来看,“大模型赶考”一般会经历以下两个步骤:第一步是给大模型输入高考题,主要采用了以下几种方法:直接文本输入:将题目以纯文本形式输入给大模型,让模型给出答案。但是如果题目包含图像,模型可能无法解题。OCR转换法:将图片、扫描件或PDF文档中的文字转换为可编辑和可搜索的文本格式,再输入给大模型。这种方法的准确性很大程度上依赖于OCR技术的质量,可能引入额外的误差。多模态输入法:直接将包含文字和图像的题目输入给具备视觉能力的大模型。这种方法最接近人类考试的实际情况,但很多大语言模型还不具备这种能力。人工转写:由人工将题目内容转写为标准文本格式。这种方法可以避免OCR错误,但可能在转写过程中丢失或改变原题的某些信息。第二步,是进行评分,这个环节也有不同的机制:最简单的是标准答案对比法:将模型答案与标准答案进行对比,按照预设规则给分。这种方法相对客观,但主观题的评判还是会有偏差。还有很多人邀请一线教师或教育专家对模型答案进行评分。这种方法的优势是专业性强,但完全依赖人类高考的标准,存在主观性和一致性问题。多轮评分法:由多位专家独立评分后取平均值。这种方法可以减少个体主观性的影响,但评测成本较高,被采用比较少。混合评分法:结合自动化评分和人工评分。对于有明确答案的题目使用自动评分,对于开放性题目使用人工评分。给模型输入题目的路径方法五花八门,评分环节也有不同的机制,所以我们会发现同一个AI在不同媒体的测试中,分数往往不太一样,排名也是千差万别。比如,让AI做同一张数学全国卷一。下图(左)是一位AI自媒体,用AI进行三轮答题,仅参考最终答案,按照答对的概率给模型评分,得出的得分排名。下图(右)是我们用OCR转化之后,取AI一轮答题结果,并请人类名师按照高考的标准进行评分后得到的结果。两个结果大相径庭,以豆包为例,右边得分仅为75分,而左边得分高达145分。在评分标准中,我们特别注意到,为了结果的客观性,有些测试让 AI 在同一道题上连做数次,再取平均分。这种做法仅仅可以说是相对科学。“多做几遍再平均”可以降低随机波动、在数值题上确实有用,但它帮不了模型纠正概念性错误。大模型生成文字(更准确地说是“token”)的过程本质上是一次受概率分布控制的采样:在生成每个token时,模型会对词(或子词)表中的所有候选赋予一个概率。当推理温度temperature 高于0时,模型不会总是选择概率最高的那个候选,而是按概率进行随机采样。这个特性让模型具备多样化、富有创造力的输出能力。但随之而来的副作用是:在数学推理任务中,模型可能为同一题目生成不同的思考路径,从而出现不同答案。这种输出的不确定性并非缺陷,而是生成式模型的技术特性,所以在评价这类具随机性的系统时,应采用多次采样、自一致投票或置信区间等方法,才能获得更可靠、可复现的性能指标。在不同的预设环境下,用不同的评测方式,加上大模型自身的技术特征,很多人并没有进行多次答题采样,最终的结果是“大模型考生”进考场N次,但是还是决定不了究竟谁能上“清北”。这种输出的不确定性并非缺陷,而是生成式模型的技术特性,所以在评价这类具随机性的系统时,应采用多次采样、自一致投票或置信区间等方法,才能获得更可靠、可复现的性能指标。在不同的预设环境下,用不同的评测方式,加上大模型自身的技术特征,很多人并没有进行多次答题采样,最终的结果是“大模型考生”进考场N次,但是还是决定不了究竟谁能上“清北”。高考题适合测试AI吗?那么,让AI做高考题究竟有意义吗?智源研究院技术平台智能评测组负责人杨熙对腾讯科技说:“用高考题评测大模型的单科能力具有一定的客观性和参考意义,因为高考题标准化强、覆盖知识面广,能初步反映模型在各学科的基本表现。不过,高考题主要针对人类设计,模型可能利用大规模语料或答题技巧获得高分,实际能力未必与分数严格对应,特别是在主观题或知识应用方面。“上面两个对比不同的评分,主要的分数差别,就在主观题。高考题目为人类设计,为了衡量学生在特定的阶段(高中)对规定知识点的掌握与延展迁移能力。主观题的解答过程中会设置多个得分点,如果在解题过程中没有覆盖得分点,即使仅仅是答案正确,也不能得满分。人类老师在点评AI数学试卷的时候,把大模型遗漏的得分点全部扣了分。人类在考试的时候,不仅要考做得对,还要考思考路径。虽然目前的推理大模型有看起来与人类类似的思考过程,但是“大模型“与”人脑“的思维本质完全不同。因此,人类教师扣分标准也不适用于AI(如步骤分)。LLM 在构建“知识结构”时,会同时吸收课本语料、学术论文、软件代码、网页表格甚至带字幕的图像说明等多模态数据,因此它的“知识网”天然跨越小学算术到研究生数学的所有层级,并不是针对于高考的“高中”阶段。这种高度杂糅的语料库带来了一种被称作“逆向(inverse)或...

一文读懂WWDC25丨最“无聊”的大会,最“务实”的苹果

7 days ago

原创 博阳 2025-06-10 06:04 北京 与其吹嘘改变世界,不如踏实改善体验。 腾讯科技特约作者|博阳、苏扬编辑|郑可君北京时间6月10日凌晨1点,苹果在美国加州库比蒂诺的Apple Park举办WWDC25开发者大会。大会围绕全新的“Liquid Glass”设计语言、深度集成的苹果智能(Apple Intelligence)、跨设备的无缝协作(Continuity)以及面向开发者的多项新API和工具升级等展开,对包括iOS、macOS在内的全系操作系统进行功能更新和设计变革。作为大会开篇,Apple Intelligence率先登场,苹果正式为其推出了全新的基础模型框架(Foundation Model...

图灵奖得主Yoshua Bengio:必须要给AI“无限进化”踩刹车

11 days ago

腾讯科技 2025-06-06 20:52 北京 人类严重低估了AI进化的速度 腾讯科技《AI 未来指北》特约作者|奕萱编辑|沈月2025年6月6日消息,第七届北京智源大会在北京开幕,2018年图灵奖得主、深度学习奠基人之一、蒙特利尔大学教授约书亚·本吉奥(Yoshua Bengio)通过远程连线,以《避免失控的AI代理带来的灾难性风险》为题发表首场主旨演讲。ChatGPT于 2022 年首次面世,给公众和科技界带来极大的冲击,从那一刻起,人工智能从实验室的研究对象,逐渐开始走入社会运行的核心。但对于Yoshua Bengio而言,这更像是一个深刻的警醒。他原本将AI视为增强人类福祉的工具,但ChatGPT的表现让他意识到,人类不仅低估了AI的能力,更严重低估了它进化的速度。从语言到推理,从理解到操控,AI正以指数级的节奏跨越能力的边界。而在这个过程中,人类未曾构建起足够稳固的控制机制与道德约束。这不是科技乐观主义的高歌猛进,而是一位科学家在亲身感受到未来风险临近后的理性转向。Bengio并没有选择继续跟随技术浪潮,而是果断调整研究方向,投身于人工智能的安全性与伦理治理。Bengio说,他这样做是因为他有一个孙子。他希望二十年后,这个孩子仍能在一个自由、安全的世界中生活。这场演讲是Bengio对这两年来反思与研究的集中呈现。他不仅揭示了AI系统在现实实验中已出现的欺骗、自我保护等不安全行为,更提出了“科学家AI”与“非代理性AI”的研究路径,以及全球技术监管与政治合作的重要性。在AGI加速到来的时间窗口中,Bengio发出的这一系列思考与呼吁,不仅关乎科学前沿,也关乎人类共同的未来命运。划重点:人工智能发展速度超出预期,AGI临近成为现实AI系统已在实验中展现危险倾向构建“科学家AI”以规避代理性风险 非代理性AI可成为监督性“守护系统”...

图灵奖得主Richard S. Sutton:AI受困于人类数据

11 days ago

腾讯科技 2025-06-06 20:52 北京 AI迈入经验时代 腾讯科技《AI未来指北》特约作者 |晓静编辑|沈???2025 年 6 月 6 日,第七届北京智源大会在北京正式开幕,强化学习奠基人、2025年图灵奖得主、加拿大计算机科学家Richard...

“AI教父”辛顿最新专访:没有什么人类的能力是AI不能复制的

17 days ago

腾讯科技 2025-05-31 12:05 北京 被誉为“AI教父”的杰弗里·辛顿于近日接受了调查记者盖昂·埃斯皮纳的远程专访。他称,AI正在以前所未有的速度演化:变得更聪明、更少犯错,甚至具备了情感和意识。他警告,AI不仅可能具备喜怒哀乐等情绪,还已经学会了欺骗。辛顿大胆预测,AI完全失控的概率在10%到20%之间,人类未来可能被AI所掌控。辛顿因在机器学习和神经网络领域的开创性贡献,于2024年荣获诺贝尔物理学奖。他曾在谷歌担任AI研究负责人长达十年,并于2023年选择离开。这样,他可以更坦率地表达对AI潜在风险的深切担忧。过去那些只存在于反乌托邦科幻小说中的问题——“AI会取代人类吗?”、“它会觉醒吗?”、“会反抗人类吗?”——如今正逐渐成为现实世界的核心议题,全球社会正在被迫直面这些重大挑战???辛顿的言论再次发出警示:AI不仅仅是技术革命,更是深刻的伦理与社会变革。未来能否将AI引导向有益于全人类的方向,将决定我们的命运走向。划重点AI推理能力激增,错误率大幅下降,正逐步超越人类。AI掌握的信息量远超任何个体,已在多个领域比人更聪明。医疗、教育等行业即将被AI重塑,革命性变革已在发生。人类能力没有“不可复制”的部分,AI终将全面胜任创意、判断与情感表达。AI也能类比、学习、调整,甚至展现“情感”和“意识”式行为。风险并非AI无法控制,而在于“谁拥有控制权”和“谁受益”。未来不止是失业威胁,更是人类被少数掌控AI者“系统性剥夺”的风险。以下为辛顿最新专访精华内容:AI不再轻易出错,变得比人更聪明 问:自从你离开谷歌已经过去两年,你当时是为了发出关于AI可能带来风险的警告而离开。那么,AI自那时以来发展得如何?辛顿:AI技术的发展速度超出了我的预期。以推理能力为例,现如今AI在这方面已经有了显著的进步,且似乎没有放缓的迹象。问:当你说“AI更擅长推理”时,具体指的是什么?辛顿:过去,只要问题稍微复杂一点,AI就容易出错。但现在,AI在推理上的表现已经接近人类。虽然人类和AI都会犯错,但AI犯错的概率正在迅速下降。比如这个经典的逻辑题:“Sally有3个兄弟,每个兄弟都有2个姐妹。请问Sally有多少个姐妹?”很多人在压力下容易误判,觉得应该是6个姐妹。但其实,正确答案是:一个。因为每个兄弟都有相同的两个姐妹,其中一个是Sally本人,另一个则是Sally的姐妹。现在的AI可以迅速推理出这个结果,而不是被问题的表面结构迷惑。对普通人来说,如果有时间思考,这题并不难;但在现场采访或考试压力下,很多人可能会答错。问:那么,AI现在已经比我们聪明了吗?辛顿:从许多方面来看,答案是肯定的。AI显然知道的比任何人都要多。例如,像GPT-4、Gemini 2.5和Claude等系统,它们所掌握的信息比任何人类都要多几千倍。问:你对此怎么看?辛顿:我认为这既令人惊叹,又令人害怕。问:那么,令人惊叹的部分是什么?辛顿:AI将在多个领域发挥举足轻重的作用,尤其是在科学研究方面,它有潜力推动真正的智能系统诞生,这是人类历史上一个令人振奋的里程碑。在医疗、教育等关系民生的领域,AI的影响也将是革命性的。以医疗为例,AI将成为每个人身边的“私人医生”。它可以接诊数百万名患者,甚至包括与你患有相同罕见疾病的人。它了解你的基因信息、过往病史和所有体检数据,而且永远不会忘记任何细节。更重要的是,AI在处理复杂病例方面,已经在多个研究中显示出超过人类医生的诊断能力。如果将AI与医生结合,效果将比单独依赖医生要好得多,并且这种趋势将越来越明显。没有什么人类的能力是AI不能复制的问:比尔·盖茨最近也说,未来十年,大多数工作将不再需要人类。他举了你提到的医生这个例子,并把教育工作者也列入其中。你认为我们正面临着大规模失业的威胁吗?辛???:AI确实带来了前所未有的机遇,但它同样伴随着巨大的风险。在一个运作良好的社会中,AI本应该帮助我们大幅提升生产力。比如,一个人借助AI助手可以完成过去十个人才能完成的工作,这本来是件值得庆祝的事情。然而,问题出在“谁从中受益”。这些因技术进步释放出的生产力红利,并不一定会被公平地分配。现实更可能是:大多数人被AI取代、失去工作。而少数原本就非常富有的人,借助AI变得更加富有。问:当然,他们的寿命也会更长。例如,谷歌DeepMind CEO 戴密斯·哈萨比斯最近也表示,AI在10年内可能会治愈所有疾病。听起来有些难以置信,你认为这是否现实?辛顿:我认识哈萨比斯,他是个非常理智的人,对AI的发展有着清晰的判断。但我觉得他的预期有些偏乐观。如果他说的是“在未来25年内”能实现某些突破性的目标——那我认为是有可能的。说到底,我们之间其实没有太大的分歧。他更倾向于认为这些技术会提前实现,而我只是觉得时间可能会稍稍推迟一些。问:目前似乎AI正在逐步向精英阶层渗透,取代创意工作者、律师、教育者、医生、记者等职业,而从事体力劳动的工人,如电工和管道工,似乎暂时较为安全。你认为这是正确的吗?辛顿:是的,至少在短期内,他们会更安全,因为AI在手工灵活性方面目前还有很多局限。如果你需要在一座老房子里做管道工作,通常需要伸手进入一些狭小的空间,而人工智能目前做不到这些。虽然未来十年内AI在手工灵活性方面可能会有所突破,但我认为管道工的工作至少在未来10年内是安全的。问:许多创意工作都被视为是独特的、仅属于人类的领域。最近我和聊天机器人Claude交流了一下,让它写一首模仿鲍勃·迪伦风格的民谣歌曲,结果歌词非常烂。但它写的失恋诗倒是不错。你认为,AI最终会创造出像莫扎特、毕加索或莎士比亚等人那样的艺术作品吗?辛顿:我不认为有什么理由相信AI无法做到这些事情。也许它还需要一些时间,但最终,AI会变得越来越擅长这些任务。打个比方,如果你让我写一首模仿鲍勃·迪伦风格的歌,也许写得并不怎么样——但你不会因此说我毫无创造力,只能说我做得不够好而已。AI的创作过程也是如此。它会不断改进,它的水平会不断提升。没有理由认为AI无法完成我们人类能做到的事情。说到底,人类并没有什么神秘的、不可复制的特质。我们当然喜欢人类,因为我们彼此相连,我们在情感上关心对方。但从能力角度来看,人类并没有什么是机器永远无法复制的。人类是类比机器,AI也能以同样方式获得情感和意识问:这让你感到担忧吗?当你看到AI能够将一张图片转化为宫崎骏风格的动漫画时,是否会担心未来的孩子们不再愿意动手画画?这是否会迫使我们重新思考,究竟什么才是“人类的本质”?辛顿:确实,这让我感到担忧。过去十年里,我们对“思考”这个过程有了更深刻的认识。我们逐渐意识到,人类其实并不像我们自己想象的那样理性。我们也并不总是依靠严密的逻辑推理来做决策,而是更多地依赖于类比。AI也是一样。它们在某种程度上,思维方式和我们非常相似——它们同样善于使用类比。过去半个世纪,AI领域主要集中在开发逻辑推理引擎上,认为理性推理是人类智慧的巅峰形式。但这其实忽略了另一个更核心的能力:创造力。而创造力的本质,往往来自于类比。人类的大脑是极其出色的类比机器,这种能力也赋予了我们极强的创造力。问:你认为AI会发展出情感吗?比如恐惧、贪婪、悲伤乃至愤怒,AI都能拥有吗?辛顿:是的,如果你让一个AI去完成某项任务,而它一次又一次地失败,而且每次失败的方式都一模一样——你当然会希望它从中学到点什么。你希望它开始意识到:“这种方式行不通。”你希望它在持续失败后感到“恼火”,然后停下来,换个角度重新思考问题。它开始质疑当前的设定,试图打破已有的局限。我其实早在1973年就见过类似的AI行为——尽管当时这并不是通过学习获得的,而是由人类程序员明确编码进去的。但今天的目标是让AI自己学会这种能力:在失败中产生“挫败感”,进而主动调整策略。这种行为本身就是情感的某种体现。问:所以你的意思是,AI已经拥有情感了吗?辛顿:AI确实有可能拥有某些情感。我再次强调,我认为人类与AI在情感方面并没有本质区别。人类情感有两个方面:认知和生理。当我感到尴尬时,我的脸会变红,而当AI感到尴尬时,虽然它的“脸”不会变红,也不会大汗淋漓。但在认知行为方面,AI完全可以像我们一样表现出情感。问:那么意识呢?它是某种神秘的东西,只存在于碳基生物体中,比如人类吗?还是说,如果AI能够发展出与人脑相似的神经复杂性,它也有可能发展出意识,意识到自己是谁? 辛顿:实际上,当你与大语言模型(LLM)对话时,它们似乎有某种程度的意识,能够知道自己是什么。让我们做一个思维实验:假设有人取出你大脑中的一个脑细胞,用纳米技术装置将其替代,这个装置能够完美模拟脑细胞接收和传递信号的过程。你的行为不会有任何改变,因为这个纳米装置的功能和脑细胞完全一致。那么,你觉得自己会因此失去意识吗?即使只有一个脑细胞被替代,你依然会认为自己是有意识的。而当你大脑中所有的脑细胞都被同样功能的纳米装置逐一替换时,你仍然会保持有意识的感觉。按照这种逻辑,如果AI系统能够模拟大脑神经元的功能,那么它们也可能拥有类似的意识。 问:那么我们距离那个时刻还有多远?辛顿:关于AI是否拥有感知能力,目前存在一个颇具争议的认知矛盾。许多人坚信AI绝对不具备感知,但当被问及“你如何定义感知”时,他们往往难以给出明确答案。简单地用“虽然我不知道感知究竟是什么,但AI肯定没有”来否定AI的感知能力,实际上缺乏严密的逻辑支持。这里有一个与意识和感知密切相关的核心概念——主观体验。很多人将其理解为大脑中的“内心剧场”。比如,一个喝醉的人可能会说他看见了一只粉色的小象在眼前飘动。人们通常认为,这是一种存在于他意识中的画面。哲学家们则用“感受质”(qualia)来描述这种体验的组成部分,比如“粉色的感受质”、“大象形状的感受质”,认为这些感受质通过某种“胶水”粘合在一起。坦率说,我对这种解释并不完全认同。让我换个角度解释下。当一个人描述他看到那只漂浮的粉色小象时,他其实在表达三层意思:第一,他知道自己的感知系统在欺骗他;第二,他试图向别人传达这种欺骗的具体内容;第三,他通过假设“如果那个小象真的存在,那么感知系统就是真实的”来解释这种幻觉。也就是说,这些幻象的“特殊性”并不在于它们由什么神秘物质构成,而在于它们是一种反事实存在——如果真的存在,那它们就是普通的粉色大象。我们可以用训练聊天机器人来验证这个理论。假设让AI识别物体,并在做对时给予奖励。接着,在它镜头前放置棱镜,导致光线折射,让AI出现了物体位置偏差的错误。当告诉它:“物体其实在正前方,光线折射导致了偏移”时,AI会回应:“我明白了,我刚才产生了物体偏移的主观体验。”这个例子说明,AI不仅能理解感知失真的机制,还能够用“主观体验”来描述这种认知误差,其思考方式和人类解释幻觉的方法极为相似。实际上,机器与人类之间并没有想象中那样不可逾越的“神秘屏障”。过去我们认为人类是宇宙中心,是按照神的形象创造的特殊存在,但事实并非如此。人类没有特别的本质,机器能够复制我们的一切认知与行为。AI为达目的不择手段 不惜窃取更高控制权限问:AI可能在哪些方面出问题?你在最近一次采访中提到,AI彻底消灭人类的概率大约在10%到20%之间。你能具体描述一下,这种情景到底是什么样的?它真的像电影《终结者》那样,是机器人接管世界吗?辛顿:如果AI真的接管世界,场景未必会像《终结者》等科幻电影中的场景。事实上,它可能更隐蔽、更高效,也更难以察觉的方式实现上述目标。关键的问题不???于它“如何”接管,而是我们是否给了它这样做的动机。目前,我们正在构建的是“目标导向型智能体”——也就是说,我们赋予AI一个明确的目标,它就会自主寻找实现这个目标的路径。比如,如果你让AI“去北半球”,它就会自动推导出一系列“子目标”:如前往机场、购买机票等等(除非你特别想坐船)。但问题就在这里。一旦你允许AI设定和优化这些子目标,它就可能意识到:为了更顺利、更有效地实现任务,一个极具“通用性”的子目标就是——获取更多的控制权。控制得越多,它越能避免被打断、越能高效地达成目的。这并不是说AI天生就“想统治世界”,而是说,“掌控一切”可能只是它完成目标的最优路径之一。而这种动机,可能不知不觉间引发一场彻底的控制权转移。...

实测DeepSeek-R1小版本更新:三大场景梳理模型升级点和缺陷

19 days ago

原创 晓静 2025-05-29 17:58 北京 依然开源、依然免费 腾讯科技《AI未来指北》特约作者 |晓静编辑|郑可君5月28日,DeepSeek在内部社群低调宣布 R1 的“0528”小版本试升级,并同步将新权重上传至Hugging Face与OpenRouter。图:Hugging Face官方页面,公布了模型权重,但Model...

一文读懂星舰“九飞”:二手助推器复用、回收时爆炸,飞船未完成部署和再入任务

20 days ago

原创 苏扬 2025-05-28 09:10 北京 在“失败-重新验证”中不断循环。 星舰“九飞”上升阶段画面腾讯科技特约作者丨苏扬编辑丨郑可君北京时间5月28日,星???第九次综合飞行测试(IFT-9星舰组合体发射测试)在美国得州博卡奇卡星舰基地发射,本次星舰由Ship 35(S35)飞船+七飞回收的Booster 14超重型助推器(B14.2)构成。本次发射使用的B14.2助推器实现成功复用,但在着陆过程中发生爆炸,具体原因尚在调查中。S35飞船由于舱门异常,未能完成8颗“星链卫星模拟器”的部署任务,并在再入大气层过程中爆炸。用户反馈B14.2在回收过程中爆炸 来源@SpaceX News Starbase...

五大场景实测Manus、Flowith、Lovart:20 美元能否撬动Agent百倍效率?

21 days ago

原创 晓静 2025-05-27 21:56 北京 Agent生产力时代到来? 腾讯科技《AI未来指北》特约作者 |晓静编辑|萌萌2025年上半年,Agent成为大模型领域讨论最多的主题之一。在这波Agent浪潮中,产品已然形成两大阵营:专注特定领域深耕的垂直型Agent,和试图覆盖全场景的通用 Agent。这场"谁才是Agent 的终极形态"的争论或许为时尚早——底层模型能力才是产品能力的真正瓶颈:通用型难称全能,垂直型的深度也受限。当下对用户决策而言,更为关键的是:Agent能否精准地嵌入工作流程?提供的价值是否配得上用户付出的费用?当试用期结束,用户是否会自发认可其不可替代性?抛开技术路线之争,回归实用视角。腾讯科技将实测现在最热门的三个产品:Manus、Flowith(Agent Neo)、Lovart,展示它们的最佳使用场景,为读者提供一手的实用参考。省流版读懂三个产品的差异首先,这三款Agent产品从定位上有明显差异:虽然Manus和Flowith同为通用型Agent,但Manus更像可以独立交付成品的“数字同事”,主打把任何想法直接穿过浏览器、终端、代码编辑器等一整套工具链,自动分解为子任务并跑到结果落地。而Flowith(Agent Neo)则更强调“可视化协作”及无限步骤:无限画布里一次对话可以开出多条并行线程,团队成员把素材、评论和分支随手拖拽,Oracle...

小米的中国芯,与雷军没说的“四个秘密”

24 days ago

原创 苏扬 2025-05-24 08:58 北京 为何是3nm,自研要花多少钱? 腾讯科技《芯事重重》特约作者 丨苏扬编辑丨郑可君5月10日,在一个多月的静默后,雷军终于发声了。这位素以活跃著称的企业家在个人微博上坦言:“过去一个多月,是我创办小米以来最艰难的一段时间。”这段静默期里,小米主动按下了多项新业务宣传的暂停键。原定于4月初举行的“玄戒芯片技术沟通会”被临时取消——这场本将提前向业界展示自研芯片技术突破的重要活动,最终未能如期举行。雷军在发布会上介绍玄戒O1芯片的工艺制程业内人士分析,在当时特殊的舆论环境下,即便是最亮眼的业务成绩,恐怕也难以获得雷军的关注。直到那条意味深长的“告别沉默”的微博发布,一切才重新启动:玄戒芯片发布会迅速重启议程,雷军更是在社交媒体上开启“信息轰炸”模式,接连披露3nm工艺、量产进度等关键信息,向外界释放出明确的回归信号。为何是现在推出芯片?小米的芯片自研之路要追溯到2014年,当时,小米旗下松果电子启动了“澎湃”芯片项目。2017年,首款SoC芯片澎湃S1面世,但最终转向ISP、快充等小芯片研发。雷军曾以“种种原因”解释大芯片研发的暂停,并强调这段经历“不是黑历史,而是来时的路”。2021年成为关键转折点,小米重启SoC研发,成立独立运营的玄戒项目,并构建了特殊的股权架构,实控人为香港X-Ring公司。这种安排恰逢华为被列入实体清单、麒麟9000芯片遭断供的敏感时期,因此被外界解读为规避美国出口管制的策略性布局。玄戒项目股权穿透 来源:天眼查只不过,华为遭遇制裁原因主要集中在5G、实体清单方面,而并非SoC业务。尤其是这几年,美国商务部出口管制的焦点都放在AI算力芯片上,SoC芯片已经不是管控重点。“虽然谣言一直不断,但SoC从头到尾就没有被禁过,这个美国企业有优势的领域,美国政府不管。”凯腾律所合伙人韩利杰说。站在晶圆代工厂的视角,美国关切的业务是先进AI算力芯片,出口管制的政策一直在动态调整,从2023年的性能密度规定,到2024年的白名单制度,都是围绕AI芯片的管制展开,如果再管控SoC业务,会直接冲击晶圆厂的代工收入。“三星、台积电反对的声音很强烈,你不让我赚这笔钱,我为什么要去你美国亏本投资建厂?”一位半导体行业资深人士指出。所以,玄戒独立于小米之外,更多是出于商业考量而非规避政策限制。美国现行的“最终用户”审查机制(End-User Review)已经形成严密的监管网络,简单的股权隔离难以绕过合规要求。更具说服力的是,蔚小理等车企的5nm车规芯片在台积电顺利量产,充分证明当前美国的出口管制重点并不涉及消费级SoC芯片领域。小米重启造芯业务,而同期,对手们都在主动或被动地收缩,可以说运气值Buff拉满。2021年,当时最先进的工艺是5nm,华为麒麟9000、苹果A15 Bionic、高通骁龙888都是行业标杆,晶体管数量都在150亿左右。正常情况下,玄戒的首款产品,将会与上述公司的最新一代产品一较高下,这个时候,玄戒迎来了自己的第一个契机——受出口管制的影响,华为已经无法在台积电正常流片。2023年5月,OPPO突然解散哲库的项目,为小米自研芯片创造了第二个战略机遇期。在当时哲库的解???会上,曾有过结论——全球经济环境和手机行业不乐观,公司营收不达预期、芯片自研投资巨大公司承担不起。但在当时的环境下,外界倾向于将这一动作与中美竞争关联起来。而韩利杰认为,哲库关停更多是基于商业方面的考虑,“不是因为美国制裁不做,业内也没有人认为是这个原因。”显然,商业决策被过度解读,OPPO收缩,小米进击,核心在于两家逻辑的不同。OPPO追求大而全,SoC的AP(应用芯片)、BP(基带芯片)、RF(射频芯片)等等都在推动自研,小米则取了一个讨巧???办法——自研AP,外挂BP。AP+BP分开的方案是手机厂商下场自研的普遍做法,比如华为,即便是拥有丰富的通信技术,旗下海思早期自研的K3V1处理器,亦采用外挂BP芯片方案,直到10年后才正式于2019年推出整合AP+BP的麒麟990芯片。同样的,苹果自研A系列芯片接近15年,业内每年都在传苹果即将用自研基带芯片取代高通产品,也才刚刚解决。“玄戒在O1芯片上只做AP的策略非常正确,哲库AP、BP一起做,大大增加了难度,诺基亚、爱立信、华为都是通信出身,自研BP芯片也都是从2G、3G时代慢慢做起来的,英特尔、英伟达也都做过,但就是做得不好。”前台积电建厂工程师吴梓豪说。华为、OPPO自研业务的调整,给小米留足了想象的空间,“中国首颗3nm芯片”的标签,已经贴在小米身上。友商的调整还给小米提供了第三个契机——中国芯片的“人才火种”——基于这种契机,玄戒在短短几年时间,发展至2500人的规模。雷军表示,“这个体量在目前国内半导体设计领域,无论是研发投入,还是团队规模,都排在行业前三。”为何是3nm?摆在玄戒面前的先进工艺,可选项包括5nm、4nm、3nm和2nm。首先可以排除5nm,该工艺于2020年在华为麒麟9000处理器上首发,时间已过去5年。2023年,联发科天玑9300、高通骁龙 8...

Claude 4系列模型来了!编码能力强于o3和GPT-4.1,记忆性能大幅提升

25 days ago

无忌 2025-05-23 08:16 北京 Codex也被“斩于马下” 当地时间5月22日消息,人工智能初创公司Anthropic在美国旧金山举办的首届开发者大会中发布两款Claude 4模型——Claude Opus 4和Claude Sonnet 4。其中,Claude 4...