Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.
Get Feederwechat2rss.bestblogs.dev
Get the latest updates from 智能涌现 directly as they happen.
Follow now < 10 followers
Last updated about 1 hour ago
about 8 hours ago
原创 邱晓芬、王方玉 2025-07-31 19:02 安徽 具身智能的热浪中,这两家互联网巨头有着相似的面孔:急切、激进、不再沉默。文|邱晓芬、王方玉编辑|苏建勋刚刚结束的WAIC(世界人工智能大会)上,具身智能可谓是热到发烫。展商层面,去年WAIC只有“十八罗汉”(18个人形机器人),今年有90余款形态各异的机器人参展。嘉宾阵容上,美国明星具身公司Physical Intelligence(PI)的联创Sergey出现在智元机器人的论坛,具身领域的“伯克利四子”——吴翼、高阳、许华哲和陈建宇更是难得同台。进军具身智能,国内的互联网巨头也不甘示弱。腾讯这次难得把Robotics X实验室负责人张正友请出山。张正友是腾讯首位17级(腾讯历史上最高的专业职级)杰出科学家,也是Robotics X从 0 到 1的组建者,曾提出机器视觉的“张正友标定法”。为了给自家的具身业务站台,鲜少出席媒体活动的张正友在腾讯WAIC论坛上宣布:“腾讯要成为机器人厂商的合作伙伴”。△腾讯Robotics...
1 day ago
原创 周鑫雨 2025-07-30 19:23 安徽 如今在技术赛场上兵刃相接,也让大模型公司像2023年一样,重回到舞台中心。文|周鑫雨编辑|苏建勋沉寂许久的大模型竞技场,在这个夏天,又硝烟四起。最近一场战役,发生在刚刚落幕的“AI春晚”WAIC(世界人工智能大会)期间。贴身对垒的三方,是六小虎中的阶跃星辰和智谱,以及大厂中的模型强队,阿里。7月25日,阶跃开源了最新的多模态推理模型:Step-3。同一天,阿里又发布了全新的通义千问3推理模型:Qwen3-235B-A22B。28日,智谱发布了最新一代基座大模型:GLM-4.5。而阿里的攻势不断——再次在同一天,阿里放出了多模态大礼包,开源了通义万相2.2,涵盖文生视频、图生视频、统一视频生成三种模态。其中颇有火药味的一幕是:7月25日,最新的通义千问3,还被阿里冠以“全球最强”之名;三天后,GLM-4.5就以新王之姿成了全球开源模型的“SOTA”(最强)——在智谱放出的综合性能榜单中,GLM-4.5排全球第3,通义千问3排第9。△智谱GLM-43在模型综合性能榜单排第3。 图源:智谱一名智谱员工告诉《智能涌现》,算法团队几乎所有人都守着通义千问的更新,“太紧张了。”他说,“万一差距太大,我们后发就是个笑话。”直到GLM-4.5???赢Agentic能力在内的多个测评集,他心中的石头才落地。WAIC上的硝烟,是这两个月以来六小虎模型混战的一个缩影。早在6月,在为期5天的发布日中,MiniMax开源的推理模型M1,在上下文长度和工具使用场景中领跑了所有开源权重模型;视频生成模型Hailuo 2,在海外创造了“小猫跳水”等爆款视频。仅过了一个月,月之暗面的新开源推理模型K2,又以横扫之势,拿下了24项开源模型SOTA。转型后的百川智能和零一万物,既缺席了WAIC,也缺席了新一轮的模型混战。DeepSeek V3、R1发布后,六小虎在市场上已经沉寂了近半年。高管离职、人才出走,也已是常态。脉脉的一份报告显示,截至2025年7月初,六小虎中41.07%的员工都把状态设置成了“看机会”。后DeepSeek时代的战役,对六小虎能否回归舞台中央,甚至存亡,至关重要。这份成绩单,极大程度影响着公司后续的资本操作和商业化进展。更重要的是,在市场口碑下滑、内部军心涣散的半年中,六小虎急需一场翻身仗,向内外证明自己仍有留在大模型牌桌上的底气。但后DeepSeek时代的模型战役依然艰险。DeepSeek R1的掀桌,证明了模型要想一鸣惊人,不仅性能要好,还得发得早。被抢先的感觉,至今仍让不少小虎心悸——我们得知,K2的训练从2024年末就开始筹备,也是月之暗面的自信之作,本计划在2025年中旬发布。然而,R1的抢先发布,抢走了本可能属于Kimi的荣光。为了防守,R1发布的同一天,月之暗面不得不先释出带有遗憾的版本K 1.5。最后的市场声量,不尽人意。K2发布后的好口碑,某种程度上也抚平了被DeepSeek抢先的创伤。发布当晚,月之暗面联合创始人张宇韬则在朋友圈写下:make kimi...
1 day ago
原创 富充 2025-07-30 19:23 安徽 《涌现NewThings》是我们关注新兴AI应用的一档新栏目,如果你也是文生图/视频、情感陪伴、Coding、智能硬件等等AI应用创业者,只要你够新、够炫、够好玩,都欢迎添加文末作者微信与我们联系。文|富充编辑|苏建勋如何使人类更了解自己的宠物?AI或许是一种解决方法。SATELLAI星联未来(以下简称“星联未来”)是一家总部位于深圳的出海公司,主要业务是为宠物研发智能项圈。星联未来首款AI宠物智能项圈于今年春天推出,上线不到三个月,已实现数百万美元的销售额。在刚刚结束的亚马逊会员日,该产品还取得了该品类新品第一名。《智能涌现》获悉,星联未来近日完成Pre‑A轮融资,本轮金额数千万人民币,由零一创投(01VC)领投,老股东零以创投、麟阁创投持续加注。2024年12月,星联未来完成千万元天使轮融资,由未来光锥前沿科技基金、零以创投领投,麟阁创投跟投。△图源:企业提供事实上,在AI技术取得突破之前,市面上就已出现多个宠物的智能项圈品牌。北美市场知名品牌包括SpotOn、Halo等,该类产品功能多数围绕定位及健康监控。星联未来推出的首款智能项圈兼容上述基础功能,并在硬件、软件、AI算法层面等方面进行升级。目前,星联未来功能主要围绕三点展开:宠物狗的安全与找回、日常训练管理、AI健康分析预测。定位管理方面,智能项圈具有轨迹追踪功能,同时宠物主人可以自定义设置数千个大小能自由调节的虚拟围栏,来划定安全区域。该系统不依赖传统的地面埋线及物理束缚方式,而使用基于位置的警报和AI训练强化。当宠物跑出安全范围,将发出震动、主人唤回语音等反馈,引导经过训练的宠物回到安全的虚拟围栏范围内。同时,主人能够实时收到宠物的逃逸信息。该功能符合美国等在大空间养狗的家庭需求。目前北美总共有9000万只宠物狗,每年的丢失率高达10%。健康管理方面,项圈可以实时监控宠物的活动、睡眠等情况,还对急性异常进行预警。软件层面的优化,也将星联未来宠物项圈的续航时间提升至5天以上,同类产品续航时间多在1天左右。今后,基于大量数据的采集和AI、硬件能力的升级,星联未来还计划提供全链路的宠物智能管理,包括AI教练、个性化定制课程,及膳食建议等健康指导等功能。通过捕捉宠物的叫声、姿势表达、运动量等数据,AI能够帮助主人分析宠物的行为趋势,也能在主人不在场的时候及时通知宠物的紧急情况。随着科技发展,宠物智能设备将形成生态,项圈在未来也可能成为该生态的入口,与喂食器等产品联动。AI项圈项圈收集的数据还可能和保险、医疗⽤品协同,促进宠物服务。近日,北美知名宠物保险公司Fetch Pet Insurance也宣布与星联未来建立战略合作伙伴关系。双方可结合数据进行服务开发和算法,为保险公司优化宠物保费测算算法提供可能;也有可能通过联合开发数据,打通从宠物硬件到保险投保到宠物医疗到宠物食品和药品的链路。△图源:企业提供目前,全球宠物行业增长迅猛,其中,美国市场拥有1.64亿只猫和狗。但相比上游的食品、营养品,和下游的医疗保险、日用品零售,智能宠物设备的集中度仍然较低,硬件品牌仍然存在较大空间。基于创始团队的背景,星联未来从成立之初就确定了宠物穿戴和出海两大方向。星联未来团队由硬件行业出海老兵组成,前华米科技海外业务副总裁毛汉勇、华米科技研发副总裁顾岩合创立。两位创始人均拥有丰富的智能硬件行业经验和全球视野,涉及各类智能可穿戴产品、自有OS系统、健康云服务、全球首个运动AI Coach助手等,曾参与两亿台级人类可穿戴的工程与商业化 。因此,聚焦智能项圈,可以在避开大厂的竞争的情况下,将团队在人类可穿戴赛道积累的方法论系统迁移到宠物这一相对小众的场景。团队此前经验积累具体包括,低功耗系统设计、射频/天线⼯程、传感融合算法、固件—云协同、量产良率与品控等。△图源:企业提供星联未来产品目前主要出海美国,这是因为目的地有更成熟的宠物付费习惯,公司计划接下来将向欧洲地区销售。价格方面,星联未来的产品也存在差异化。目前,美国市场智能项圈分为“功能较好但贵”和“白牌、功能简单,但便宜”两种定位。美国高端智能项圈代表品牌SpotOn、Halo售价分别在在999美元和599美元起;白牌智能项圈约在百美元级别。依托于中国的供应链,星联未来的功能接近前者,但亚马逊官方定价相对较低,为499.99美元。商业模式方面,星联未来采取“硬件+订阅”。智能项圈监控宠物信息,用户通过付费软件订阅接收,这也组成了公司的另一部分收入。订阅功能收取每月9.99美元订阅费,这和北美头部智能项圈品牌Halo的订阅价一致。也与Tractive月订阅费为5至13欧元(约等于6至15美元)相近。智能项圈行业的欧洲头部玩家Tractive此前公布,其订阅服务的ARR已突破约1.05亿美元。这也侧面验证“硬件入口+订阅”模式的可行性。据悉,星联未来刚刚完成的新一轮融资,将被用于宠物定位项圈与卫星一体追踪器的持续迭代与量产、海外渠道拓展,以及围绕位置、行为、健康数据的服务化建设。CEO毛汉勇提及,融资也将有利于下半年旺季销售的备货准备。封面来源|企业提供👇🏻 扫码加入「智涌AI交流群」👇🏻36氪旗下AI公众号👇🏻 真诚推荐你关注...
2 days ago
2025-07-29 16:21 安徽 阿里巴巴近期在AI领域展现的“日更级”开源节奏和多项大模型技术突破,标志着中国AI正以全新的姿态参与全球竞争。这不仅是技术层面的突破,更是一场关于技术主权、生态重构和全球化竞争的战略博弈。从商业逻辑到产业应用,中国企业正在改写全球AI版图。 阿里巴巴近期在AI领域展现出的“日更级”开源节奏和多项大模型技术突破,标志着中国AI产业正在以一种全新的姿态参与全球竞争。这不仅仅是一项技术层面的突破,更是一场关于技术主权、生态重构和全球化竞争的战略博弈。从技术参数到开源策略,从商业逻辑到产业应用,中国企业正在改写全球AI版图。近一周,中国AI的速度与激情正在上演。阿里巴巴一口气连发四个开源模型,包括Qwen3系列Qwen3-235B-A22B-Instruct基础模型、Qwen3-Coder、Qwen3-235B-A22B推理模型和通义万相Wan2.2。“开源”、“登顶”等关键词频频出现,“日更级”的节奏更是令世界瞠目结舌。7月22日,阿里开源Qwen3-235B-A22B-Instruct,性能获得基础模型领域冠军,成为 “全球最智能的非思考基础模型”。7月23日,阿里开源AI编程模型Qwen3-Coder,代码能力及Agent调用能力超越GPT4.1、Claude4等顶尖闭源模型,登顶全球最大开源社区HuggingFace模型总榜冠军。7月25日,阿里开源千问3推理模型性能比肩顶级闭源模型Gemini2.5 pro,斩获推理模型的全球开源冠军。7月28日,阿里开源视频生成模型通义万相Wan2.2,共开源文生视频、图生视频和统一视频生成三款模型。密集的技术迭代和突破,阿里用实际成果打破了“闭源模型是高性能代名词”的固有认知,重新定义开源模型的天花板。技能突破:性能与开源的双重飞跃短短四天时间,阿里三款开源模型Qwen3-235B-A22B-Instruct基础模型、Qwen3-Coder、Qwen3-235B-A22B推理模型,分别在基础模型、编程模型、推理模型等主流领域登上全球开源冠军宝座。Qwen3-235B非思考模式基础模型的“天花板”突破,仅需4张H20显卡即可部署2350亿参数模型,显存占用仅为同类模型1/3,推理速度提升1.8倍,在GPQA、AIME25、Arena-Hard等任务中更是一举击败Claude4(Non-thinking)等闭源模型,这种“非思考模式”的优化,可能为需要高速推理的场景,如实时对话、自动化处理等提供更高效的解决方案。△图:AI研究机构Artificial Analysis:“千问3是全球最智能的非思考基础模型”同样,推理与视频生成的“全能型”布局,阿里AI正在加速覆盖从文本到多模态的全链路能力。Qwen3-235B-A22B推理模型和通义万相Wan2.2的开源,它可以支持处理256K上下文超长文本,解决复杂推理任务的能力显著提升,在知识、逻辑推理、数学、编程、人类偏好对齐、创意写作、多语言能力等任务中表现可比肩Gemini-2.5 Pro、o4-mini等顶级闭源模型。通义万相Wan2.2此次共开源文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-TI2V-5B)三款模型,其中文生视频模型和图生视频模型均为业界首个使用MoE架构的视频生成模型,总参数量为27B,激活参数14B,均由高噪声专家模型和低噪专家模型组成,分别负责视频的整体布局和细节完善,在同参数规模下,可节省约50%的计算资源消耗,有效解决视频生成处理Token过长导致的计算资源消耗大问题,同时在复杂运动生成、人物交互、美学表达、复杂运动等维度上也取得了显著提升。尤其文生视频、图生视频的开源,有望加速AIGC在影视、广告等行业的落地。△图:通义万相图Qwen3-Coder编程模型更是直接带来了AI编程能力的颠覆性竞争,首次将混合专家(MoE)架构引入编程模型,激活参数达35B,支持256K token上下文扩展至1M。在多语言SWE-bench、Mind2Web、Aider-Polyglot等模型Agent能力评估中,Qwen3-Coder超越GPT4.1、Claude4等顶级闭源模型,可帮助程序员实现“一句话生成3D物理模拟代码”、“5分钟搭建品牌官???”,大幅降低编程门槛。这一突破直接冲击了闭源模型与开源模型在编程领域的分工边界,成为全球开发者社区的“爆款”。Qwen3-Coder编程模型发布之后,迅速登顶全球最大AI开源社区HuggingFace模型总榜冠军,在全球AI圈掀起热潮。推特创始人杰克·多尔西(Jack Dorsey)、爆火Agent应用Perplexity CEO...
4 days ago
原创 晓曦 2025-07-28 14:07 安徽 阿里想用AI眼镜,定义下一个超级入口文|晓曦当大模型从生成走向完成的阶段,所有科技公司都在问同一个问题:AI真正融入人类生活的那一刻,会从哪里开始?是网页?是App?还是某种随身新终端?答案正在逐渐清晰:硬件,可能是AI原生时代最重要的起点。大型科技公司在用AI硬件的方式探索下一代入口形态。这些尝试指向一个共识:手机不一定是AI最好的容器,屏幕很难承载持续的对话、感知与主动服务。对 AI 足够有野心的科技大公司不可能放弃硬件。在这样的背景下,阿里巴巴在2025世界人工智能大会上发布了首款自研AI眼镜——夸克AI眼镜。从去年AI硬件成为行业热点开始,发布会、demo层出不穷。但这次发布,不仅是一次消费电子产品的亮相,更是阿里自整合AI To C业务以来,第一个真正意义上将AI能力装进物理终端的落地动作。阿里也成为继Meta之后,全球范围内第二个真正以大模型能力驱动智能眼镜落地的科技平台型公司。AI+硬件+生态协同,阿里全栈能力的实体化载体阿里正在密集布局在C端打穿用户的场景通路。2024年年底,通义APP并入阿里智能信息事业群,与夸克共同落地AI to C战略,其中夸克被明确为阿里的AI旗舰应用。这一架构的变化,初步划定了阿里在大模型时代的战略路径。进入...
4 days ago
原创 富充 2025-07-28 14:07 安徽 王光熙在今年4月晋升为联想创投管理合伙人,我们和他聊了聊具身智能赛道的共识收敛、场景真伪与泡沫。文|富充编辑|苏建勋当一部分声音开始唱衰具身智能,“落地场景不清晰”“泡沫即将破裂”的言论甚嚣尘上,王光熙用耐心投资表达自己的判断。王光熙是联想集团副总裁、联想创投管理合伙人,早在2011年就投资过提供自动化机器人工业场景解决方案的旷视科技,而在具身热潮之后,又押注星动纪元、逐际动力。7月21日,在2025联想创投CVC创投周,我们和王光熙聊了聊他对于具身智能的看法。在他看来,有关智能机器人长远技术方向的预判,所谓争执双方之间,其实没有太大的不同。非共识主要集中在如何操作才能获得投资收益最大化。他说话速度不快,语气克制,但对于具身智能的发展,保持着一种技术乐观主义。根据Gartner技术成熟度曲线提供的经验,王光熙判断具身智能行业的下行期大概率会存在,但更重要的是,如何投到那些具备穿越周期潜质的企业。当下的具身智能行业处于百花齐放的阶段,在2025联想创投CVC创投周也可见一斑。从人形机器人到复合形态机器人,从遥操手术臂到植发机器人等等,现场集结了基于不同技术、场景的项目与产品。△联想创投被投企业磅策医疗研发的植发机器人 图片:采访人提供不过,即使观点并不收敛,联想创投投资的具身智能公司仍然有两类存在其清晰特质。一种是在具身智能概念兴起之前已经在做机器人相关业务的存量公司,例如艾利特、云迹科技等。这类公司有客户基本盘,增加AI能力后能更快在原有场景兑现价值。另一种则是挑战边界的AI时代原生新公司,例如飞马机器人、跨维智能、星动纪元、逐际动力等。它们往往有较强的科研团队,具备技术动态调整的能力,追求仰望星空的风险更大,但上限也可能更高。有关具身智能行业的种种非共识与未来预判,王光熙向《智能涌现》分享了自己的看法。以下内容来自专访对话,由作者整理:△联想集团副???裁、联想创投管理合伙人王光熙 图片:采访人提供近未来增量场景:教育、工业闭环任务智能涌现:你在投具身智能的时候风格偏松还是偏紧?王光熙:这要看阶段,以及对技术的预判。我们在2022年的时候开始关注具身智能,但观察了半年没有出手。当时是比较谨慎的,犹豫的点在于不确定泛化能力能否突破。直到2023年四五月,我们在海外参加了具身智能领域的学术顶会,见了不少专家。虽然那时候美国的具身智能创业和融资都还没起来,但我们在了解技术路径之后认为,Transformer的框架有非常大可能性改善模型在物理世界的泛化能力。所以我们就在2023年下半年连续投了好几家。智能涌现:在你看来,在两三年后的近未来,具身智能主要会在哪些场景涌现机会?大概会达到什么量级?王光熙:之前已经被四足或者双足机器人印证过的教育、科研赛道,依然非常有规模扩大的潜力。大模???或者世界模型等新技术会继续驱动跟硬件、具身智能相关的研究。目前凭借教育场景,四足机器人的市场规模达到几十亿元左右。未来该领域的规模将是今天的好几倍,达到百亿级别。智能涌现:工业是具身智能落地的好场景吗?王光熙:刚才说教育、科研赛道会达到百亿级别,但在很多人看来规模还不够巨大。具身智能以后将进入垂直行业,工业肯定是其中之一,但到底工业场景能以多快的速度达到很大的规模,还不好说。我们过去投过的企业中,已经有一些从工业、物流、商业、商用领域中的特定场景切入,提供产品和解决方案。不过,具身智能最后可以覆盖工业多少百分比还言之过早,毕竟这需要非常高的稳定性。但是在已经进入的场景和环节中,具身智能、复合机器人可以通过为项目降本增效,在现有基础上实现销售量一两倍、两三倍的增加。这个机会就很大。智能涌现:所以哪些工业场景可能会被验真?王光熙:在过去自动化做得不太完全的领域会存在机会。比如说过去的AGV、AMR、无人叉车等,虽然可以自主完成运输,但仍在装卸、接驳等环节需要人的辅助。具身智能就可以去掉衔接环节,从移动,上料、取料,到把成品搬运到目的地,包装,独立完成闭环工作。在这类具身智能已经开始覆盖的工作中,还是有很大机会打通端到端。同时,过去的机器人很难通过对话理解客户意图,就会出现任务的发起、调度、分发和各个环节的衔接做不好的情况。现在,具备 LLM(Large Language Model,大语言模型)能力的机器人可以在对话后更清楚地理解、推理用户诉求,并生成解决方案。尤其是在装上手臂之后,它可以实现无人取送物。也就是说,在工业中找到闭环场景,就会提升智能机器人的价值。尽管这还只能替代很小比例的工人数量,但它将会促进具身智能机器人在工业场景的规模增长好几倍。比如,现在我们被投公司中有几家无人叉车企业做得很好,但是无人叉车在叉车行业的渗透率不足百分之五,如果能达到百分之十几的渗透率,就会形成三四倍的增长。△联想创投的被投企业云迹科技,是一家具身智能概念兴起之前就已开展机器人相关业务的存量公司 图片:采访人提供百花齐放的赛道,并非赢者通吃智能涌现:当前具身智能领域充满非共识,你怎么看?王光熙:现在正处于百花齐放的阶段,技术、对未来演进方向的预判等,都没有收敛,还处于变数多、非常动态的阶段。即便有些观点可能会形成共识,但这不解决什么问题。比如数据的获取是个瓶颈,这是有共识的客观现实,但每个人解决这个问题的方法不一样。再比如说,很多人认为VLA是共识,但不同团队训练出的VLA模型差异也很大。有共识不代表能在技术实现上达到一样的能力、进展、水准。智能涌现:所以你倾向于投怎样的团队?王光熙:现在,科研方法的迭代速度非常快,比过去几个时代的革新还要快好几倍。在这样的节奏中,一旦某个方法得到了印证或者一定程度的收敛,作为创业公司,不管这和自己原来做的方法是否一样,都必须有快速追上的能力。现阶段不可能说某个技术路径一定是最佳、最合理的,必须非常动态。所以具体的方向并不是最重要的。这也解释了我们为什么投资了一些有科学家背景的团队。这一批AI领域的原生科学家,虽然在不同路径上各有所长,但有能力互相理解、吸收彼此的技术特长。相当强的学术技术和产业化功底,使他们有能力快速跟上最前沿的变化。智能涌现:从团队组合的角度来讲,哪种类型的团队更好一些?王光熙:不同轮次涌现出来的企业在画像上有所不同。目前会有几种类型的具身智能创业者,有年轻教授团队,有自动驾驶背景团队,还有大厂、大疆等企业出来的团队。这些人的基因和成功的长板不太一样。我一直认为,投早期的的科技企业一定要找到长板足够长的。当然他们也要有能弥补短板的能力,比如通过联创、搭档等补足,或者具有较强学习能力和开放度,愿意配合投资人把短板补上。具有以上特质的是我认为比较好的创业者。回到具身智能领域,可以看到不同的团队所具有的长板并不一样,但都很有价值。比如有的是AI算法能力很强;有的???做过制造,擅长本体研发;或者是在自动驾驶领域摸爬滚打过,积累了对具身大赛道有一定借鉴意义的创业经验和人脉资源。所以,这个赛道不像过去的互联网一样赢者通吃的,各个方面排在前列的团队或许都有属于自己的机会。对于这种比较多元的领域来说,不太能够只赌一家或者一个类型的企业,押中万里挑一的几率很难。智能涌现:目前并不是每家具身智能公司都擅长做大脑,你认为这部分需要“补课”吗?王光熙:每个人都要补课,总要补自己的短板,尤其是存量公司需要考虑如何把AI赋能做好。比如我们投的一家公司,原来做核心部件增长非常快,机器人也展现了非常强本体的能力,但是以前的长板并不在大脑。不过,什么时候补、以什么方式补,不同团队有不同的判断。在这个问题上,一部分人认为,等技术到一定成熟度的时候再把大脑的能力加上;另一些人则坚持站在大脑发展的最前沿。而且所谓“把大脑补上”,也跟不同产品本身的方向和场景相关。我们的被投公司维他动力在研发陪伴机器人,很可能不需要手部操作,也就不需要特别强的“大脑”能力。我觉得先要把自主导航、自主行动、自主交互这些事做得很好,至于不同的场景下,对于泛化大脑要怎么补会有不同策略。△在王光熙看来,具身智能领域将是百花齐放的,会涌现不同形态的机器人...
4 days ago
原创 周鑫雨 2025-07-27 20:25 北京 编辑部已经热聊WAIC一周,我们写了点能播的……素材|邱晓芬 周鑫雨 邓咏仪 苏建勋 富充 王方玉文|周鑫雨编辑|苏建勋排版|王欣逸7月26日开幕的世界人工智能大会(WAIC 2025),中国AI展会的顶流,在今年火成了明星演唱会——WAIC的所有门票,在开幕两天前就全部售罄;主会场世博展览馆外,你还能听到黄牛此起彼伏的叫卖声:“要票吗?”如果你不幸没抢到票,又不想买坐地起价的黄牛票,可以看我们暴走1万多步整理的探展指南:《不管你来不来32°的上海逛WAIC,都需要这份探展指南》。WAIC也是智能涌现编辑部本周热聊的话题。作为AI届春晚,WAIC台前幕后的故事、八卦、笑料都有很多。我们整理了一些能播的,让你看到更完整的WAIC。△展商们的“显眼包”镇楼。图源:作者拍摄来了的,没来的1、据《智能涌现》了解,今年WAIC曾试图邀请OpenAI...
4 days ago
原创 富充 2025-07-27 20:25 北京 陈建宇、高阳、吴翼、许华哲的分享,基本代表了国内具身智能领域最先进的成果展示。 陈建宇(星动纪元创始人)、高阳(千寻智能联合创始人)、吴翼(蚂蚁集团强化学习实验室首席科学家)、许华哲(星海图联合创始人)的分享(题图从左至右),基本代表了国内具身智能领域最先进的成果展示。文|富充编辑|苏建勋7月27日,世界人工智能大会(WAIC)最“耀眼”的具身智能论坛,莫过于上海期智研究院举办的“人工智能交叉科学论坛”的主题活动。这场论坛难得聚齐了当下国内具身智能领域的“伯克利四子”——吴翼、高阳、许华哲和陈建宇,这四位学者均毕业自加州大学伯克利分校,目前都从事具身机器人相关工作。其中陈建宇创立了星动纪元,高阳为千寻智能联合创始人、许华哲为星海图联合创始人。吴翼则任蚂蚁集团强化学习实验室首席科学家。(点击“星动纪元”、“千寻智能”,可查看我们之前的报道。)这四位的罕见同台,分享内容自然离不开具身智能领域几大核心问题:具身智能的瓶颈——“获取数据”,这个难题怎么解?从简单任务(拿、放),到复杂任务(收拾屋子),机器人从大脑到本体该如何提升?已经形成共识的“VLA算法”,里面又有哪些非共识的方法论?除了创业者/大厂科学家的身份以外,吴翼、高阳、许华哲和陈建宇四位均担任上海期智研究院PI(Principal Investigator,首席研究员)。姚期智为图灵奖得主、清华大学交叉信息研究院院长。2005年,姚期智创立“清华学堂计算机科学实验班”(姚班),以培养世界顶尖的计算机科学人才著名。上海期智研究院于2020年成立,姚期智担任院长。△上海期智研究院院长、清华大学交叉信息研究院院长姚期智致辞 图片:上海期智研究院以下观点来自陈建宇、高阳、吴翼、许华哲在“人工智能交叉科学论坛”的发言,由《智能涌现》总结、整理编辑:陈建宇:获取质量最好的数据,需要具身智能学习人类畅想中会迎来一个与机器人有关的未来世界,我觉得达到这一愿景会有三个阶段。第一个阶段,机器人将进入我们的生产力系统,生产手机、汽车等现在生活中所需物品。这个可能贡献超过目前一半的GDP。第二阶段,机器人会成为最大的终端,也能够自己制造自己。第三阶段,机器人可以帮助人类去拓展能力边界,比如马斯克说的火星移民。在长远的未来,机器人甚至能布满整个宇宙。要实现这样的结果,我认为最短的路径是直接去学习人类的经验和数据,毕竟人类是现在世界上唯一的通用智能体。具身智能的瓶颈,主要在于如何使数据和模型更高效。构建人形机器人,可以更方便机器人从人类的学习范式里学习。△陈建宇和他分享的“具身智能数据金字塔” 图片:上海期智研究院具身智能有一个数据金字塔模型,显示了具身智能训练数据的来源。金字塔的塔尖是遥操作采集的数据,数据量大概在1万小时以内。但是我们训练语言模型的数据,如果换算成小时的话,大概是10的九次方小时,所以仅使用遥操作收集数据达不到具身智能需要的数据量。而真正训练具身智能的数据量比语言模型所需数据量还要大一些,所以我们必须要用到人类行为的数据,这就是具身智能训练数据金字塔中间的一层。我们可以通过VR眼镜、智能眼镜等终端采集到人类第一视角的数据。金字塔的最底端是我们称为“一切发生在人类世界”的数据,也就是互联网上的广泛数据,比如视频网站。目前统计出Youtube上所有视频时长大概是10的十一次方小时。这类数据是现成的,而且非常非常多样化。确实,在很多情况下我们可以用仿真,但仿真有一个致命问题,就是仿真里面没有人类这样的具身智能体去产生数据。几乎所有的智能代码和行为数据都是由人类去产生的,而如果仿真能构建出这样一个智能体的话,实际上我们已经把这个“真”做出来了。所以这是一个鸡生蛋、蛋生鸡的问题。仿真基本上只能构建比较Passive的物理交互数据。所以要构建人形机器人,直接去对标人类机体性能。比如星动纪元最新发布的星动L7,高度为1.7米,接近人类身高,同时它也有类人的胳膊、腰、头部以及腿部,能更好收集人类的多样性数据。有人会关心双足机器人的成本是不是会更高,我认为不用特别担心这个问题。因为对通用机器人来说,降低价格最重要的因素在于规模化,而不是仅仅降低它的自由度。通用人形机器人应用场景更多,随着规模起量,成本也将大幅下降;但专用或简易形态的机器人,由于可扩展的场景有限,所以也会限制规模化,所以成本的下降反而有限。接下来,说说模型如何构建。当前主流的VLA(Vision-Language-Action,视觉语言动作模型)模型会存在一些问题,因为本质上来说它是在做纯粹的克隆。问题一是模型只能从大量人类行为数据里克隆,缺乏举一反三能力;这也造成了第二个问题,机器人很难超越人类表现。所以具身智能要参考人类的学习方式。第一就是,建模整个世界,先形成物理世界的认知,类似我们说的“世界模型”。就像我们开车到十字路口会减速,即使没有经过大量的数据教学,人类也知道要防止撞到路口突然冲出来的人。第二点就是,向人类学“强化学习”。比如学乒乓球,教练手把手教学是一个“模仿学习”的范式。但是这还不足以让人学会这么高难度的技巧,所以需要在自己训练中根据击球情况调整姿势,达到想要的效果,这就是“强化学习”。所以我们的方法是,把VLM擅长的理解和世界模型擅长的生成进行结合,做成统一的模型,放到具身智能上。这是我们做的融合世界模型的第一个探索PID模型,同一个模型不光做预测,同时也是做行为的生成。要找到相应的工具,最接近的工具就是类似sora基于diffusion视频生成的模型,因为它能生成非常细致的物理世界的行为环境动作。基于Diffusion Policy,我们也有工具去很好地生成模型的行为。这样一来,具身智能就可以对视觉、以及其他模态做出预测。接下来我们提出了“Video Addiction...
5 days ago
邱晓芬、邓咏仪 2025-07-26 17:13 上海 如果你因为太热、太懒、太忙,没法来WAIC;或者是来到展馆,却不知从何逛起,在这份指南里,我们帮你把重点划好了。文|邱晓芬 邓咏仪编辑|苏建勋制图|王欣逸7月26日,世界人工智能大会(WAIC 2025)在上海世博展览馆开幕。这是一年一度中国AI领域最重要的盛会,没有之一。即使当日大雨且最高气温32度,上海黏腻的风也并不舒适,但依旧阻挡不了WAIC的火热。在展览空间上,WAIC分为“世博中心”(论坛)和“世博展览馆”(展会),据《智能涌现》了解,今年的展览门票首次提前售罄。开幕两天前,7月24日,官方就放出了门票全部售罄的通告。不少科技圈群聊中,“求票”成了近期的主题词。闲鱼上,一张原价为168元的WAIC单日门票,被炒到了650元,原价498元的三日通票,甚至要价2000多。今年,你能想象到的所有“当红炸子鸡”都来了……AI圈聚齐了北智谱、南阶跃,还有刚发完新品的MiniMax和Kimi;机器人圈,离上市只差临门一脚的智元和宇树也到了,还有一众刚融完钱,第一次参加WAIC的机器人新公司;更不用提阿里、腾讯、华为、京东等一众巨头。相比谁来了,“谁没来”反而更值得关注。《智能涌现》翻遍展商表,也没有找到“AI六小虎”中,王小川的百川智能和李开复的零一万物。(延伸阅读:「六小虎」里至少两家要放弃大模型了)据主办方的消息,本届大会规模创下了历届之最:四馆齐开,展览面积首次突破7万平方米;吸引了800余家展商参与,展出包括40余款大模型、90余款智能机器人。不管你因为太热、太懒、太忙,没法来WAIC;还是来到展馆却不知从何逛起,《智能涌现》给你提供的这份探展指南,也许在信息点上不是最多最全,但一定能帮你划下重点。以下为《智能涌现》编辑部甄选出的2025WAIC展区亮点集锦,enjoy~智能终端展区(二楼H3馆)宇树:起猛了,机器人揍机器人了今年,宇树的机器人对抗赛无疑是智能终端展区最热闹的,展台观众里三层外三层。两名人形机器人戴着拳击手套和护具“互殴”,互不相让。虽然偶尔有扑空,整体上还是很猛的,左勾拳,右勾拳。其中一个机器人被一个飞踢打倒了,没关系,一个侧身打挺,踉踉跄跄继续战斗…台下观众直呼——哇,机器人打架,果然拳拳到肉!智元机器人:最豪横的机器人展示,没有之一本次WAIC上,智元机器人的展位是所有机器人厂商里最大的,占地共有300平。他们的机器人不仅仅在自己的展位有,在场馆一些角落也可以看到机器人在写书法、打鼓、振臂欢呼…..在智元机器人展台,精灵G1像工作人员一样,为观众递物品、盖纪念章。在展台的人机冰壶互动游戏中,精灵G1还可以依据冰壶位置灵活调整策略。另一旁的远征A2-W,则一直在闷头勤奋拆垛搬运。有意思的是,就算遇到箱体轻微歪斜的情况,这台机器人也能自主校准位置。此次,智元机器人还展出了一款OmniHand灵巧手。在现场,这个灵巧手还能弹钢琴、跳手势舞、和人玩猜拳游戏,真是一双神奇的手。想了解智元机器人,可参考我们之前的报道:《解剖「智元机器人」:“华为系”操盘手,用经营大公司的方式创业》擎朗智能:机器人服务生,来杯威士忌逛展累了?来一杯夏日冰饮(机器人特调版)。擎朗此次把展馆设计成了酒吧、餐吧、剧院,让机器人化身服务员。穿梭其中,你可以使唤擎朗的双足服务机器人XMAN-F1,让它帮你打爆米花、做冰镇饮料等等。对了,记得告诉它,加不加冰。在酒馆的场景里,擎朗机器人侍酒师XMAN-R1还会识别订单内容,为观众一展“调酒”技艺——识别酒瓶、精准倾倒冰块、倒酒、双手递物等等。在剧场场景中,擎朗机器人XMAN-F1还能大胆登台开麦,自主完成PPT讲解和产品演示,主打的就是一个自我推销,展现了其融合多模态交互、大语言模型与自主决策系统的智能演示能力等。银河通用:机器人化身便利店员,机器狗自动捡垃圾银河通用的展台,轮式底盘的人形机器人化身店员,全天候值守商超和便利店。观众在iPad上挑选商品后,机器人Galbot会从琳琅满目、密集摆放的货架上为观众取送面包、卤蛋、塑料瓶、透明果冻杯等对应商品。还有自动捡垃圾的机器狗。观众在展区内随意投掷水瓶等垃圾,银河通用的机器狗能够自主精准识别目标物,并迅速将其抓起来。想了解银河通用,可参考我们之前的报道:《专访银河通用王鹤:真正能“干活”的机器人,不怕价格战》千寻智能:S型压弯,为你狂奔送饮料在千寻智能的点单互动区,观众只需扫码下单,机器人Moz1就会帮你辨识各类饮料、精准定位、稳稳抓取递送到手。机器人送的饮料,喝起来是不是更甜了?而为了送饮料,Moz1也是拼了——太空步、S型压弯、主动平衡挑战……不像其他厂商都是使唤机器人干活,在千寻智能的展台,机器人还能娱乐一把。在现场,机器人Moz1还给观众玩起了掌上迷宫走珠、搭建积木。另外,在这里,观众更能亲自上阵体验遥操。《智能涌现》体验后认为,几乎没有延迟的感觉,可以做到机器人和我同步运动。想了解千寻智能,可参考我们之前的报道:《千寻智能韩峰涛:到2025年底,投资人会更看好具身智能》星动纪元:一米七的机器人狂跳Breaking星动纪元展位机器人最大的特点则是,能做高强度大动作,也能完成精巧操作。机器人业内素有“每高十公分,难度翻一倍”的说法。他们的机器人星动L7,身高171cm、体重65kg,在现场不仅展示了360度旋转跳这样的高强度动作,还能跳好街舞Breaking,做着扭腰、摆臂、旋转等动作,相当魔性。在现场精细动作的演示中,展位的操作人员通过远程遥操作,让星动XHAND1完成了一系列高难度动作,比如捏取很轻薄的快递面单、使用扫码枪识别信息、用镊子夹取细小标签等等,甚至还能給现场来宾按摩。想了解云深处,可参考我们之前的报道:《融资5亿,90后清华博导做机器人,“外界对我们有不少误解”》非夕科技:能做关东煮,还能传承蛋雕非遗展台上,非夕科技的机器人“拂晓Rizon”演示了一把非遗技艺“蛋雕”。这可是个精细活儿,要在脆弱的鸡蛋壳上雕花,考验着机器人末端执行器的控制精度,还有对柔软易碎物体的动态力学建模能力。在WAIC的政府展区,他们还支了一个“拂晓串煮小站”,帮忙抓取原材料、穿串儿、加热、交付等等。云深处:空翻倒立,再耍个托马斯全旋如果说,在其他展位体会的是人与机器人的交互,那么在云深处的展位,你则能与机器人感同身受——戴上AR眼镜,观众就可以沉浸式体验机器狗“绝影Lite3”的第一视角。此次,云深处的山猫轮足机器人与其行业版山猫M20,亦在展会现场大显身手。你能看到它们能通连续攀爬70厘米的高台,和杂技演员一样做“空翻接倒立”、“托马斯旋转”等,其中的运动控制技术与地形适应能力还是很能打的。想了解云深处,可参考我们之前的报道:《独家对话云深处CEO朱秋国:给机器人安上“世界模型”,就不需要那么多数据了》普罗???宙:机器人打螺丝,12 秒打4个机器人进厂打螺丝不是梦。在WAIC展会现场,普罗宇宙的大白机器人就进行了无序螺丝锁付工艺演示。据工作人员介绍,大白机器人在12秒内能完成4个精密部件的装配。优理奇UniX:让机器人帮我做家务机器人全面接管家务,是众多懒人对机器人未来场景的终极想象,优理奇UniX机器人表示:我可以。在现场,其机器人Wanda 2.0化身勤劳保姆,帮你收拾餐桌、分类餐具、使用洗碗机、清理桌面等等。机器人通过自动化执行长序列任务,完全模拟真实家庭操作。在展台的乐器演奏区,Wanda 2.0还化身“节奏演奏家”,配合音响与麦克风设备,为观众敲奏手碟鼓。智平方:机器人也是专业鼓手智平方这次展示了机器人的架子鼓表演。鼓手的名字叫“爱宝”。随着节奏的起伏,“爱宝”的手臂在鼓面上快速击打。据现场工作人员介绍,机器人爱宝每0.375秒就能完成一次敲击,鼓与鼓之间的切换是0.75秒——差不多是专业鼓手的水准。《智能涌现》了解到,爱宝搭载了智平方的GOVLA大模型,借鉴了人类的“双系统”思维模式,慢系统负责整体乐曲理解和节奏把控,而快系统则专注于快速、精准的动作执行。双系统相互协作,让爱宝既能“听懂”鼓谱,又能完成复杂的鼓击动作。梅卡曼德:机器人能听懂人话,还能分类在梅卡曼德的展台,具身智能“眼脑手”机器人“小德”可以听懂“人话”了。梅卡曼德的“小德”理解了操作员的语音任务:将食肉动物放到黄色盒子里,将食草动物放到蓝色盒子里,很好地完成了任务。大模型+AI应用(H1及H2馆区)阿里:把大模型装进眼镜里刚高考完的同学们,熟悉的一位朋友又来了——阿里在WAIC上全新推出的AI硬件,把夸克装进了AI眼镜里。夸克不仅仅能帮你复习考试、规划学习,现在还能做生活小助手。它深度融合了阿里系旗下其他应用的能力——以后戴着眼镜就能看到高德地图,不再需要在手机和方向盘上来回切换。购物、支付也不在话下。戴着眼镜,看一下就能支付、在淘宝上比价;飞猪还能在眼镜上,给出差、旅游的你及时提醒。在未来,人人拥有一个钢铁侠的“贾维斯”管家,也不再是梦想B站:AI真·肉身参加高考AI参加高考不是新鲜事。加上机械臂之后,AI真·参加高考也成为了可能。B站这次带来了一位UP主“AI研究室帆哥”的新创作,就相当于在DeepSeek大模型上,加上了“手”和“眼睛”。只需把一张高考语文模拟卷放到台面上,三分钟后,机械臂就会开始用钢笔答题——上方的4K摄像头负责实时识题,AI在每道题写完后会“思考”几秒,再缓慢落笔到下一处答题框。这个简单的机械臂也已经能做到平均单题响应22秒,视觉识别误差7%,???2025年的高考语文试卷中,达成了选择题和非主观题全对的成就。腾讯:鹅总要把你的一天都给承包了这届WAIC上,鹅正式宣布:要用AI智能体,把你的一天24小时承包了。在展区里,腾讯按照人们日常行动的动线,规划好了一个AI好友圈——从从早上起床的健康管理、开车,到出游攻略,再到工作场景的学习、写代码,腾讯推出了超过10个AI 智能体,简直就是一位”赛博管家”。最有意思的可能是这位AI旅游Agent。夏日炎炎想出游,你还在被攻略笔记、酒店对比、景点距离搞得头昏脑胀吗?有了这个旅游规划搭子,现在只需输入”上海五日游”,它就能一键生成个性化攻略,集成旅游攻略生成、周边搜索、景点简介、小程序点单、路径规划等等。在现场的互动区,你还能体会到拖拉拽,直接实时二次修改路线、规划,即改即用,堪比一个24小时在线的J人旅游搭子。华为:AI超级服务器“昇腾384”真机亮相华为此次大手笔包下800平展区,是本届WAIC最大展位,当中550多平,都给了昇腾业务。巨大的昇腾384超节点(Atlas 900...
5 days ago
原创 王方玉 2025-07-26 17:13 上海 一个谈未来,一个谈落地。文|王方玉编辑|苏建勋7月26号,世界人工智能大会WAIC的开幕主论坛上,多位AI行业的顶级大咖出席并发表演讲,为与会者烹饪了一道学术大餐。“深度学习教父”、图灵奖、诺贝尔奖得主杰弗里·辛顿(Geoffrey Hinton)是最受关注的演讲者,他真人出席,发表了名为《数字智能是否会取代生物智能?》的演讲。这也是他在中国的首次公开演讲。大会前夕,辛顿和全球20位人工智能领域的顶级专家,刚刚在上海签完人工智能安全的“上海共识”。他的大会发言,同样也围绕人工智能安全为核心。辛顿首先回顾了从早期模型到现代大语言模型的发展历程,并指出大语言模型已经实现了对语言理解的深度模仿,这与人类理解语言的方式是相似的。但不同的是,AI系统具有“永生性”,且机器之间知识的复制可以在极大规模下进行,实现指数级的知识转移。因此AI的能力正在快速增长。他由此提出疑问,如果未来AI比人更智能会怎么样?“如果AI足够聪明,它会通过操纵人类、获得控制权等方式来避免被关闭。”因此,辛顿警示了人工智能超越人类智能的可能性及其带来的风险。“从长远来看,这是人类面临的最重要问题之一。”辛顿提醒,AI可能发展出比人类更高级的智能,这将改变人类作为最智能生物的地位。AI智能体可能追求生存和控制力,这可能导致它们操纵人类,就像成年人操纵三岁孩童一样。因此,人类必须找到方法来训练AI,确保其不会对人类构成威胁。与辛顿的发言主题不同,作为AI创业者,MINIMAX创始人、首席执行官闫俊杰的发言更多围绕AI???模型的实践和落地,主题是《每个人的人工智能》。闫俊杰以AI在数据分析、信息追踪、创意设计及视频制作等方面的高效应用举例,指出了人工智能不仅是一种强大的生产力,也是对个人能力和社会能力的一个持续增强,并且未来AI大模型成本将越来越低,能力越来越强。他判断,AI大模型不会被一家或者多家组织垄断。未来AGI一定会实现,并且将会是服务大众、普惠大众的一件事。“如果有一天AGI实现了,我认为实现过程一定是需要AI公司和它的用户一起来实现的。并且AI模型或者AGI(的所有权)应该属于AI公司和它的广泛用户,而不是只属于单个组织某家公司。”以下是经智能涌现编辑的嘉宾发言实录:诺贝尔奖、图灵奖得主、多伦多大学计算机科学名誉教授Geoffrey Hinton:数字智能是否会取代生物智能?从大约60年前开始,AI就发展出了两种不同的范式。一种是「符号主义」路径,强调逻辑推理的能力。我们通过规则操作符号来进行推理,这种方式可以帮助我们理解知识是如何被表达与处理的。这类AI模型的基础是对符号的处理,被认为更符合逻辑智能的本质。另一种路径则以生物智能为基础,是图灵与冯·诺依曼更倾向相信的方式。他们认为智能的本质在于从神经连接中学习,在于速度、结构和连接模式的改变。这种「连接主义」强调的是学习与适应,而非显式的逻辑规则。1985年,我曾构建过一个非常小的模型,试图将这两种理论结合起来。我的想法是:每一个词都可以由多个特征(features)表示,而这些特征之间可以被用来预测下一个词。这个模型不存储完整的句子,而是通过生成语言来学习词汇之间的关系。这种方式强调语言中的「语义特征」——也就是说,我们并不是仅仅靠规则,而是通过「理解」词汇的语义来进行预测。这为后来计算语言学界接受特征表示打下了基础。二十年后,这种思想得到了进一步发展,例如被用于构建更大规模的自然语言处理系统。如果问未来30年会发生什么,从发展轨迹能看到一些趋势。十年后,有人沿用这种建模模式,但将规模大幅扩大,使其成为自然语言的真实模拟。20年后,计算语言学家开始接受用特征向量嵌入来表达语义。又过了30年,谷歌发明了 Transformer,OpenAI的研究人员也向人们展示了它的能力。所以我认为,如今的大语言模型就是我当年微型语言模型的“后代”。它们使用更多词作为输入,采用更多层的神经元结构,由于需要处理大量模糊数字,学习特征之间也建立了更复杂的交互模式。但和我做的小模型一样,大语言模型理解语言的方式与人类相似——基本逻辑是将语言转化为特征,再以完美的方式整合这些特征,这正是大语言模型各层级所做的工作。因此我认为,大语言模型和人类理解语言的方式相同。用乐高积木来打比方或许能更好地解释“理解一句话”的含义。符号型AI是将内容转化为清晰的符号,但人类并非如此理解。乐高积木能拼出任何3D造型,比如小车模型。如果把每个词看作多维度的乐高积木(可能有几千个维度),语言就成了一种建模工具,能随时与人沟通,只要给这些“积木”命名——每个“积木”就是一个词。不过,词和乐高积木有很多不同:词的符号形态可根据情况调整,而乐高积木造型固定;乐高积木的拼接是固定的(比如正方形积木插入正方形孔洞),但语言中每个词仿佛有多个“手臂”,要通过合适的“握手”方式与其他词互动,词的“造型”变化,“握手”方式也会改变。当一个词的“造型”(即意思)改变,它与下一个词的“握手”方式就会不同,进而产生新的含义。这就是人脑或神经网络理解语义的根本逻辑,类似蛋白质通过氨基酸的不同组合形成有意义的结构。所以我认为,人类理解语言的方式与大语言模型几乎一致,人类甚至可能和大语言模型一样产生“幻觉”,因为我们也会创造出一些虚构的表达。软件中的知识是永恒的,即便存储LLM的硬件被摧毁,只要软件存在,就能随时“复活”。但要实现这种“永生”,晶体管需在高功率下运行以产生可靠的二进制行为,这个过程成本很高,且无法利用硬件中不稳定的类似特性——它们是模拟型的,每次计算结果都不同。人脑也是模拟型而非数字型的,神经元每次激发的过程都一样,但每个人的神经元连接方式不同,我无法将自己的神经结构转移到他人脑中,这就导致知识在人脑间的传播效率远低于在硬件中的传播。软件与硬件无关,因此能“永生”,还能带来低功耗优势——人脑只需30瓦特就能运转。我们的神经元连接达数万亿个,无需花费大量资金制造完全相同的硬件。但问题在于,模拟模型间的知识转移效率极低,我无法直接将脑中的知识展示给他人。Deepseek的做法是将大神经网络的知识转移到小神经网络中,即“蒸馏”,类似教师与学生的关系:教师将词语在上下文中的关联教给学生,学生通过调整权重学会表达。但这种方式效率很低,一句话通常只有100个比特的信息,即便全被理解,每秒最多也只能传递约100个比特。而数字智能间的知识转移效率极高,同一神经网络软件的多个拷贝在不同硬件上运行时,能通过平均化比特的方式分享知识。如果智能体在现实世界中运行,这种优势更明显——它们能不断加速、拷贝,多个智能体比单个智能体学得更多,还能分享权重,这是模拟硬件或软件做不到的。生物计算功耗低,但知识分享难。如果能源和计算成本低廉,情况会好很多,但这也让我感到担忧——几乎所有专家都认为,我们会创造出比人类更智能的 AI。人类习惯了作为最智能的生物,很难想象AI超越人类的场景。其实可以换个角度:就像养鸡场的鸡无法理解人类一样,我们创造的AI智能体已能帮我们完成任务,它们能拷贝自身、评估子目标,还会为了生存和完成目标而寻求更多控制权。有人认为可以在AI变得过强时关掉它们,但这并不现实。它们可能会像成年人操纵3岁孩子一样操纵人类,劝说控制机器的人不要关闭它们。这就像把老虎当宠物,幼虎很可爱,但长大后可能伤人,而养老虎当宠物通常不是好主意。面对AI,我们只有两个选择:要么训练它永远不伤害人类,要么“消灭”它。但AI在医疗、教育、气候变化、新材料等领域作用巨大,能提升所有行业的效率,我们无法消除它——即便一个国家放弃AI,其他国家也不会。因此,若想让人类生存,必须找到训练AI不伤害人类的方法。我个人认为,各国在网络攻击、致命武器、虚假信息操纵等领域的合作难度较大,因利益和看法不同。但在“人类掌控世界”这一目标上,各国存在共识:若有国家找到防止AI操控世界的方法,一定会愿意分享。因此我提议,全球主要国家或AI大国应建立一个由AI安全机构组成的国际社群,研究如何训练高智能AI向善——这与训练AI变得聪明的技术不同。各国可在自身主权范围内研究,再分享成果。尽管目前还不知道具体怎么做,但这是人类长期面临的最重要问题,且所有国家都能在此领域合作。MINIMAX创始人、首席执行闫俊杰:每个人的人工智能大家好,我给大家分享的题目是《每个人的AI,Everyone’s AI》。讲这个题目,跟我个人过去经历有关。当Hinton先生开始设计AlexNet之时,我是国内第一批从事深度学习研究的博士生;当AlphaGo人机大战上演,也是人工智能走进所有人视野之时,我在参与一家创业公司;而当ChatGPT出来的前一年,我们开始创立MiniMax,也是国内第一批大模型公司。在过去的15年里,当我每天面对任务写代码,看论文做实验的时候,一直都在想一件事:如此受关注的人工智能到底是什么?人工智能跟这个社会到底有什么样的联系?随着我们模型变得越来越好,我们发现人工智能正逐步成为社会的生产力。比如,我们在做人工智能研究的时候,每天需要分析大量的数据,一开始我们需要来写一些软件来分析这些数据,后续我们发现其实可以让AI来生成一个软件,来帮助分析所有数据。作为一个研究员,我非常关心每天AI领域的所有进展,一开始我们设想,是不是可以做一款APP,来帮我们追踪各领域的进展?后面我们发现,这件事也不需要自己来做,让一个AI Agent来自动跟踪更加高效。AI是更强的生产力,也是越来越强的创意。比如,15年前上海举办世博会的时候,有一个非常火爆的吉祥物叫“海宝”。过去15年,上海有了全方位的发展,我们如果想继续用“海宝”IP生成一系列更具上海特色,符合时下潮流的衍生形象时,AI可以做得更好。正如现场屏幕展示的,徐汇书院×海宝、武康大楼×海宝,AI能一键直出,帮我们生成各种各样的创意形象。再比如最近非常火的Labubu,此前制作一个Labubu创意视频,可能需要两个月,花费大约几十甚至百万人民币。通过越来越强的AI视频模型,像大屏幕右边展示的Labubu视频,基本一天时间就可以生成出来,成本只有几百块钱。过去六个月,我们的视频模型海螺(Hailuo)已经在全世界生成超过3亿个视频。通过高质量的AI模型,互联网上的大部分内容与创意会变得越来越普及,低门槛让每个人的创意得以充分发挥。除了释放生产力与创意之外,我们发现,AI的使用其实已经超出最初的的设计与预期,各种各样想象不到的应用场景正在发生;比如解析一个古文字、模拟一次飞行、设计一个天文望远镜……这样意想不到的场景,随着模型能力越来越强,变得越来越可行;仅仅需要少量协作,就可以增强每个人的创意。面对这么多变化,一个想法开始在我的心里涌现出来:作为一个AI创业者,AI...
8 days ago
原创 周鑫雨 2025-07-24 11:40 北京 Manus为迷茫的AI从业者定义了Agent的产品范式,至此,一场以华人为主角的AI Agent创业热潮,正在席卷全球。 Manus为迷茫的AI从业者定义了Agent的产品范式,至此,一场以华人为主角的AI Agent创业热潮,正在席卷全球。文|周鑫雨编辑|苏建勋2025年6月末,美国旧金山的一场科技峰会中。一张传单,出现在多场闭门会的每个座位上。这张A4纸白底黑字,炫耀式地印着两行大字:$36 Million ARR in...
8 days ago
原创 富充 2025-07-24 11:40 北京 《涌现NewThings》是我们关注新兴AI应用的一档新栏目,如果你也是文生图/视频、情感陪伴、Coding、智能硬件等等AI应用创业者,只要你够新、够炫、够好玩,都欢迎添加文末作者微信与我们联系。 《涌现NewThings》是我们关注新兴AI应用的一档新栏目,如果你也是文生图/视频、情感陪伴、Coding、智能硬件等等AI应用创业者,只要你够新、够炫、够好玩,都欢迎添加文末作者微信与我们联系。文|富充编辑|苏建勋职场人苦“做PPT”久???。基于这一痛点,一个凭借“一句话、一分钟、一键生成PPT”的AI办公类项目,在20个月实现过亿营收。这个项目名为AiPPT.com,于2023年8月上线。近日,其母公司像素绽放PixelBloom(以下简称“像素绽放”)完成B3轮融资。本轮融资由亦庄国投领投,国科投资、英诺天使基金、水木清华校友种子基金以及探路者创始人盛发强参与投资。据悉,该笔融资将用于AiPPT.com的全球化业务发展和产品品类拓展。此外,还将促进旗下AI产品的Agent化,由办公工具向助理转型。△四种PPT生成形式:智能生成、导入文档生成、导入PPT美化、链接生成PPT 图片:企业提供AiPPT.com包括AI智能生成、导入文档生成、导入PPT美化、链接生成PPT四种形式。AI智能生成功能可根据用户输入的一句话提示词,自动生成大纲。在用户调整确认大纲并选取模版后,AI会在约一分钟的时间里,自动组织内容生成多达二三十页的PPT。截至2025年5月,AiPPT国内与海外用户的合并月度访问量达到2347万次。凭借这一成绩,AiPPT.com访问量成为AI产品榜(aicpb.com)中,国内智能PPT赛道的第1名、全球第2名,并位居该榜单全国AI全品总榜Web端前十名。像素绽放CEO赵充将“AI时代的红利”归结为上述现象背后的最大变量。赵充曾先后就职于新浪和搜狐,2011年创办微梦传媒,已有14年创业经历。在赵充看来,所有模态与场景交汇的地方,都会产生AI创业的机会。此前“爱设计”的运营过程中,赵充团队积累了多模态与办公交叉处的技术和市场经验。这使他更先一步洞察到用户对于AI自动生成PPT的需求,从而占据该领域的先发创业优势。目前,AiPPT.com的商业模式分为三种:To C???直达C端用户);To Partner to C(通过渠道伙伴触达C端用户,与渠道伙伴分账);To...