Everything you care about in one place

Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.

Get Feeder

jiqizhixin.com

机器之心

Get the latest updates from 机器之心 directly as they happen.

Follow now 80 followers

Latest posts

Last updated 20 days ago

LeCun力荐的JEPA杀入LLM,用CV的思路训练LLM,性能鲁棒性双丰收

20 days ago

LeCun 这次不是批评 LLM,而是亲自改造。当前 LLM 的训练(包括预训练、微调和评估)主要依赖于在「输入空间」进行重构与生成,例如预测下一个词。而在 CV 领域,基于「嵌入空间」的训练目标,如联合嵌入预测架构(JEPA),已被证明远优于在输入空间操作的同类方法。JEPA 的核心概念最早由 Yann LeCun 及其团队提出,旨在通过在抽象表征空间中预测未来或缺失的特征来高效学习世界知识。随后,Meta AI...

加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐

20 days ago

快分叉与稳收敛在扩散 / 流匹配模型的人类偏好对齐中,实现高效采样与稳定优化的统一,一直是一个重大挑战。近期,北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO,BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过逐层奖励融合实现稠密反馈。该方法在 HPDv2.1 图像对齐与 WanX-1.3B 视频生成上均取得了优异表现。最令人瞩目的是,BranchGRPO 在保证对齐效果更优的同时,迭代时间最高近...

突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

20 days ago

在 AI 领域,大家通常采取后训练方式来让模型获取专项技能。然而后训练一般依赖带有标注参考的监督微调,或通过可验证的程序化检查器提供奖励。这就带来一些问题,目前许多有价值的任务可能同时缺乏这两种资源。例如在不可验证的场景中(临床、自由对话和创意写作),可能存在多个有效答案,确定性规则检查难以实施。在这种情况下,实践者往往只能依赖(i)繁琐的标注流程,或(ii)通过另一个 LLM 对自由形式输出进行粗略奖励。然而,当后训练缺乏真实标注时,学习信号从何而来?为了回答这一问题,来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想:推理计算是否可以替代缺失的监督?本文认为答案是肯定的,他们提出了一种名为 CaT(Compute as Teacher)的方法,核心思想是把推理时的额外计算当作教师信号,在缺乏人工标注或可验证答案时,也能为大模型提供监督信号。结果显示,推理时直接应用 CaT显著提升了 Gemma 3...

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

20 days ago

本文的第一作者曾敏来自 vivo AI Lab,主要研究方向为大语言模型、强化学习、agent。监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。SFT 和 RL 在训练的过程中都存在各自的特点:SFT 直接对着答案「死记硬背」,简单且有效,收敛速度快,但是泛化能力不行。而 RL 通过探索来获得答案,泛化能力强。但强化学习只会一味地探索,而不学习答案,学习速度缓慢,可能出现长期无法得到收敛甚至最后出现训练不稳定的现象。为了解决这些难题,最近,vivo...

全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

21 days ago

明略科技的专有 GUI 大模型 Mano 在行业公认的 Mind2Web 和 OSWorld 两大挑战性基准测试中,均取得了创纪录的 SOTA 成绩。通过在线强化学习和训练数据自动采集两大核心创新,Mano 为整个...

谷歌Gemini IMO和ICPC夺金功臣之一被xAI挖走,马斯克直呼:起飞

21 days ago

大厂之间不是「你挖我」,就是「我挖你」。那边特斯拉 Optimus AI 团队负责人 Ashish Kumar 被挖去 Meta,这边谷歌 DeepMind 资深研究科学家被 xAI 挖走了。马斯克发推祝贺,并用火箭符号喊话:「起飞啦」!此次,被挖去...

工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

21 days ago

本文的作者来自网易、香港城市大学、北京航空航天大学和清华大学等机构。本文的共同第一作者为网易互娱段颖琳、北京航空航天大学邹征夏、网易互娱谷统伟。本文的通讯作者为香港城市大学邱爽、网易互娱陈康。论文题目:LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation文章链接:https://arxiv.org/pdf/2509.05263构建一个工业级高仿真...

集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源

21 days ago

计算速度与系统稳定性的双重挑战,正推动 AI 基础设施向新一代集合通信技术迈进。在人工智能迅猛发展的今天,超大规模智算集群已成为推动技术突破的核心基础设施。海外科技巨头纷纷布局,OpenAI 与甲骨文和软银正在推进「星际之门」项目,计划配备数百万个 GPU,预计耗资超千亿美元;微软、谷歌、xAI 陆续完成十万卡集群交付使用。在国内,运营商也加速向 AI 基础底座供应商转型,累计投资已超百亿元,建成 4 个万卡级智能计算中心,智算规模增长超 2 倍。超大规模智算集群需要应对诸多挑战:硬件配套投入大、运营维护费用高。更重要的是,单纯堆砌硬件并不能解决所有问题,如何设计软件系统,将成千上万个计算单元高度组织起来才是核心挑战。在万卡甚至百万卡规模的集群中,设备故障几乎成为常态而非例外,任何一个组件的失效都可能导致整个训练任务中断,算力利用率和系统稳定性成为比纯粹算力更为关键的指标。AI...

AI尝试破译动物语言:黑猩猩的咕噜与鲸鱼的歌声,或许「有话要说」

22 days ago

编辑丨^_^你大概遇到过,或者至少看过「猫一直在响」这种事,也许也曾想过与自己的狗布鲁斯踏上一段传奇之旅。不过这些事,大都与一件事情有关:你懂不懂动物在说什么。科学家已经证明,世界上能够进行交流的动物并非只有人类,但光凭着我们可能还无法顺利地破解动物的交流语言。不过好在,人工智能在破译语言这方面,也绝非等闲之辈。科学家很早就发现,类似黑猩猩、鲸鱼和鸟类这些生物,其实也存在着符合人类语言定义特征的发声特征和模式,并且一直在积极尝试利用人工智能来加速动物声音的检测和解释,以及探索人类听众可能缺失的交流方面。地球物种项目(Earth Species Project)的人工智能研究员 David Robinson 表示:该组织正在开发解码动物交流的人工智能系统。动物叫声的组合方式研究人员在研究动物交流时,会提出与语言学家相似的问题。语音是如何在物理上产生的?声音是如何组合成有意义的单位的?哪些规则决定了MPP和句子的结构?以前的学者认为只有人类的语言才符合语言学中所谓的组合学特征,但2016年,关于日本山雀的研究提出了挑战:其中很明显提到了,山雀的叫声中出现了极其明显的组合性特征。图标:黑猩猩以多种方式将声音组合成文字。在近 700 只倭黑猩猩的叫声中,中断发现了多种叫声的组合方式,组合小组的意念并不能从单个叫声里推断出来。比如与爬树无关的声音能力推动它们上树并集体休息。在加勒比海,一群抹香鲸的叫声吸引了另一批科学家的注意。他们带着经过训练的生成式模型,该模型可以产生修改抹香鲸发出的声音和声音序列,希望能够收集大量关于其运动和声音的数据集,并以此为基础,成功翻译出鲸鱼的语言。图标:科学家们使用无人机将可以收集生物声学和其他数据的传感器连接到抹香鲸身上。他们发现,鲸鱼的尾音在方式上与人类的元音与双元音相似,并且还识别出两种具有不同音调模式的尾音,以四种方式变化:它们可以上升、下降,可以先下降后上升或先上升后下降。这些频率的变化可能是双元音的指标。语言的本质语言,目前存在两种思维主流的观点:其一认为语言与复杂本质上是相互关联的。在这种编程中,复杂思维的优先级关于语言,首先只是外部化的一种方式。如果从这个角度出发,否则动物进化出复杂思维,否则它们不可能拥有语言。另一种观点认为语言只是沟通的一种方式,就像言语或面部表情一样,不需要复杂的思维。但在这种情况下,动物是否具有语言能力与它们是否在野外自主使用就是不同的问题了。此外,一些更抽象的概念在非人类中尚未发现,尽管在一些情况下有传闻证据。例如海豚呼唤多年前消失的其他海豚的名字,以及兽告诉其他人关于曾经在该地区出现的捕食者。所以目前人类是否能够找到一种新的完整语言,尚无定论。虽然,AI 的这些成果并不意味着我们马上就能和鲸鱼唠嗑、和老虎辩论。毕竟人类语言不仅仅是声音,还包含抽象、语法、甚至情感色彩。但至少,AI 正在让我们离这个梦想更近一步。谁呢?也许哪天,动物世界的「谷歌翻译」真的会上线。原文链接:https://www.nature.com/articles/d41586-025-02917-9]]>

2025浦江创新论坛今日开幕!

22 days ago

今天(9月20日)下午,以“共享创新 共塑未来:构建开放合作的全球科技共同体”为主题的2025浦江创新论坛在上海开幕。本届论坛由中华人民共和国科学技术部和上海市人民政府共同主办,主宾国为白俄罗斯共和国,主宾省为辽宁省。本届论坛规模和参会嘉宾数量均达历届之最。共有来自美国、德国、瑞士、英国、法国、荷兰、丹麦、日本、新加坡、西班牙、澳大利亚、韩国、匈牙利、奥地利、巴西等国家和港澳台地区等45个国家和地区的300多家机构的550余位嘉宾参与本届论坛。本次论坛,主宾国白俄罗斯与中方联合举办的“中白科技创新年”系列活动成为焦点,涵盖合作项目签约、共建机构揭牌等重要仪式,为两国科技合作注入新动力。同时,历届主宾国和部分“一带一路”合作国家将积极参与,通过举办中欧医学影像人工智能合作与发展论坛、中德绿色科技与产业合作论坛等活动,搭建起高水平对话平台,共同探讨全球科技发展面临的挑战与机遇。主宾省辽宁省也将全面融入论坛,展示科技创新成果,分享科技赋能产业升级和区域创新合作的实践经验,为区域协同发展提供借鉴。论坛邀请政府主管部门、科学家、企业家、投资孵化机构和金融机构等代表齐聚一堂,为国家科技强国战略积极建言献策。同时,精心策划了AI for Science、量子智能、可控核聚变等30余场前沿领域专题论坛和闭门会议,邀请诺贝尔奖、沃尔夫奖、图灵奖等全球顶尖科学奖项得主等重量级嘉宾的参与,聚焦新一轮科技革命和产业变革趋势,共同探讨基础研究与未来产业的发展方向,为科技创新提供前瞻性思路。本届论坛的InnoMatch技术转移大会面向全球发布10000项技术需求,企业投入资金超200亿,同时发布2000个人才需求岗位,展示80余项前沿领域首发首秀产品和体验场景,吸引了120多家行业骨干企业等线上线下参展,促进了技术、人才和资本的有效对接。WeStart创业投资大会则将通过“一会一赛一展”的多元化形式,激发创新创业活力。全球四大前沿领域1487个团队报名参赛,其中境外项目71项,经严格筛选,100个优质项目进行大会路演,现场将集聚超百家创投机构以及各大银行、保险等金融机构,为创业项目提供资金支持和专业指导,。为了提升参会体验,今年论坛全新升级了基于大模型技术的浦江专属AI智能体——小江豚2.0。该系统具备实时直播、多语种查询、智能导航等实用功能,通过“线上 + 线下”融合部署,为参会嘉宾提供全流程、智能化的沉浸式服务。参会者只需扫码进入“全景浦江”,即可亲身体验这一创新服务带来的便捷与高效。浦江创新论坛自2008年创设以来,已连续举办18届。论坛坚持以启迪创新思想、传播创新理念、激励创新精神为使命,立足全球视野、国家需求、科技前沿,凸显国际化、聚焦专业化、关注青年创新,努力打造开???国际科技合作交流的重要窗口,国家重要科技创新实践的重要平台,全球科学家、创业者集聚的交流平台。]]>

陈天桥旗下AI公司MiroMind打造全球顶尖预测型大模型,性能登顶行业基准

22 days ago

科技的走向、股市的涨跌、比赛的胜负、选举的结果…… 在 AI 时代,未来还会像过去那样不可知吗?全球首个动态实时 LLM 智能体未来预测基准 FutureX 推出,被马斯克称为衡量智能的最佳标准。9 月 18 日,全球创新企业家、慈善家陈天桥旗下的 MiroMind...

OpenAI从苹果挖了20多人搞硬件,知情人士:苹果创新缓慢、官僚主义令人厌倦

22 days ago

苹果员工和 OpenAI 双向奔赴了,一个嫌自家产品保守,一个硬件人才紧缺。据外媒报道,OpenAI 正在从苹果挖走硬件、设计和供应链方面的人才,以加速硬件开发,并且已开始利用苹果在中国的供应链网络来帮助生产硬件设备。这些消息来自一些苹果现员工和前员工等知情人士,他们的领英个人资料也透露了一些信息。据悉,OpenAI 正在开发的产品线包括一款类似智能音箱但无显示屏的设备、智能眼镜、数字录音笔以及可穿戴胸针等多种硬件产品,目标发布时间定在 2026 年底或 2027 年初。在供应链层面,OpenAI 已经与苹果的主要代工厂商建立了合作关系。其中,负责组装 iPhone 和...