Everything you care about in one place

Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.

Get Feeder

tech.meituan.com

美团技术团队

Get the latest updates from 美团技术团队 directly as they happen.

Follow now 123 followers

Latest posts

Last updated about 3 hours ago

从月球漫步到赛博都市,WBench 测出了世界模型的边界

about 3 hours ago

AI 视频的进化速度突飞猛进。是否想过有一天能真正走进这些由 AI 生成的世界里,亲自感受一下? 点击查看视频 像这样,在月球上自由漫步,是什么感觉?它们是真的理解了世界,还是仅仅在模仿视频?目前的模型距离这个目标还有多远? 为了彻底搞清这个问题,美团 LongCat 团队提出了 WBench,它是首个面向交互式视频世界模型的系统性多轮评测基准。它就像一台“CT扫描仪”,能精准定位当前世界模型在从“被动观看”到“主动交互”的过程中,到底卡在了哪里。 我们用 WBench...

ACL 2026美团论文精选:从能力评测到推理优化,构建生成新范式

7 days ago

ACL(Annual Meeting of the Association for Computational Linguistics)是计算语言学和自然语言处理(NLP)领域的国际顶级学术会议。自 1962 年创办以来,ACL 已成为 NLP...

美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语

11 days ago

引言 物理世界的信息由图像、声音、文字交织而成。今天的大模型,本质上仍然是以语言为中心的建模系统,语言作为人类智慧符号化表述,在"压缩即智能"的范式下表现出强大的能力。但通往真正的物理世界智能,也许语言并不是世界的边界。视觉、语音与文本等多模态信号,实际上是对现实物理对象的不同侧面投影。 这就引出一个根本问题:能否让 AI 像处理语言一样,用同一种方式简洁有效地处理物理世界的多种信息? 如果能,那么物理世界的AI就有了统一的"母语",Token 不再局限于文本,而是成为描述一切物理信号的原生表示。对这些信号进行统一建模与压缩,可能使模型学到更加本质的表示,并实现更深层的模态内化。 LongCat 团队经过研究发现:在统一的建模框架与优化目标下,可以构造一种语义完备的离散表示。我们将图像、语音与文本统一映射为同源的离散 Token,使模型从学习连续空间的映射,转向学习离散 ID 之间的关系结构,并通过纯粹的下一个...

重塑站外体验:大众点评 M 站基于 Qwik.js 的重构实践

11 days ago

一、背景与挑战:流量转化与用户体验的困境 什么是 M 站?M 即 Mobile,对大众点评而言,M 站是面向公域的流量引流入口,经近年 M 站与 PC 站形态融合、交互链路剥离后,定位进一步明确为“信息展示 +...

美团 BI 在指标平台和分析引擎上的探索和实践

11 days ago

速读 在美团,我们构建了以指标平台为核心的新一代 BI 架构,通过自动语义和增强计算两种核心能力的建设,部分解决了传统 BI 平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。 自动语义能力实现了“定义即研发”。它将业务语言定义的指标自动解析为结构化的逻辑表达,并通过主外键关系将数仓模型自动关联成星型、雪花等模型,从而扩展出复杂指标。该能力贯穿了指标定义、模型关联、指标高亮与路由选表以及查询语义构建的全流程。我们利用自动语义能力,并结合指标仓库的预计算模式,不但使业务能够灵活扩展、查询、分析复杂指标,也满足了在有限时间内完成指标扩展、模型关联等复杂查询前置依赖计算的要求。 增强计算能力则旨在平衡运营监控(要求秒级响应)与灵活分析(处理海量数据)两种场景下的性能与成本挑战。它通过智能查询服务(支持多引擎模型、查询降级策略)和智能物化(自动构建宽表和汇总表)来提升查询稳定性和性能。此外,我们也对增量计算引擎进行探索,利用其存算分离、弹性伸缩、向量化执行等特性,进一步提升了查询性能和系统稳定性。 目前,该平台已支持公司百余业务线,查询量达百万级,查询成功率超过 99.9%,并在新引擎评测和灰度中验证了性能优势。未来,美团将继续在自动语义、增强计算深化演进,为数据分析智能化做好准备。 1 指标平台概述...

LongCat 为 OpenClaw 装上效率引擎:你的自动化任务还能再快 30%

11 days ago

OpenClaw 在开发者社区迅速获得 23万+ Stars,因其作为开源、本地优先的个人 AI Agent,能够将大语言模型的推理能力转化为对计算机的实际操作,为构建个人 AI 助手提供了系统级权限与自动化基础。 然而,近期部分平台开始收紧对非官方入口的访问。谷歌以“恶意使用”为由,大规模封禁通过 OpenClaw 路由 Gemini...

突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

11 days ago

音频生成技术正在经历一场全新的范式迁移——从传统级联架构,逐步向端到端生成范式演进。长期以来,主流的做法是"曲线救国":合成系统先将音频压缩成梅尔频谱图等中间表征,再依赖神经声码器"翻译"回波形。每一次转换都带来信息损失与误差累积,最终丢失了最需要保留的细腻音色与个性化细节。 能不能让 AI 直接学会声音本身的规律,跳过中间环节? 为破解这一技术瓶颈,美团 LongCat 团队正式发布 LongCat-AudioDiT。在该模型中,我们彻底抛弃梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(Text-to-Speech, TTS),从根源阻断数据转换的级联误差。 另外,我们做了两个关键改进:首先,我们识别并纠正了一个长期存在的"训练-推理不匹配"问题;其次,我们用自适应投影引导(APG)取代了传统的无分类器引导(CFG),从而大幅提升了最终的语音生成质量。 结果表明,LongCat-AudioDiT 在...

LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

11 days ago

如果你看过今年春晚武术节目《武BOT》,一定会对那群与人类武者同台对打的机器人印象深刻。但在流畅的武术动作背后,是一个工程师团队连续数周针对特定舞台、特定灯光反复调试后才可能达到的动作丝滑。 为什么机器人在固定场景下表现良好,但换一个环境、任务,泛化能力就会明显下降? 究其根源,是具身行业缺少带动作标注的训练数据进行泛化学习,而互联网上大规模人类数据是极具潜力的数据来源。为了指引具身智能走向GPT时刻,像大模型一样走通大规模数据学习范式,通过人类视频数据学习通用的、跨本体的隐式动作表征是关键。 为此,我们提出了 LARYBench (Latent Action Representation Yielding Benchmark) ,一个指引从大规模的视觉数据学习到通用的隐式动作表征的系统化评测基准。实验结果表明:在动作泛化和控制精度上,通用视觉模型的表现均显著优于专门为具身智能设计的动作专家模型,具身动作表征可以从大规模人类视频数据中涌现。 01...

LongCat-Flash-Prover:AI 攻克数学定理证明,不仅要“算得对”,更要“证得严”

11 days ago

引言 现如今的大语言模型已经能流畅地写文章、写代码,甚至执行复杂的 Agent 工作流,然而,它们在面对严谨的数学定理证明时,却往往显得力不从心。 在常规的数学解题中,模型只需要“答对最终数值”即可,但数学定理证明不同,它要求极度严苛的逻辑链条,任何一句自然语言的模棱两可,都可能导致整个证明的崩塌。那么,如何让 AI 从“猜答案”走向“严谨证明”,成为复杂推理具有挑战的课题。 为了解答这个问题,我们开源了专门用于数学形式化与定理证明的模型 —— LongCat-Flash-Prover。 LongCat-Flash-Prover 在解决定理证明和形式化任务时,将形式化推理拆解为自动形式化(Auto-Formalization)、草稿生成(Sketching)和证明生成(Proving)三大原子能力。在结合工具集成推理(Tool-Integrated...

用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践

11 days ago

当团队 90% 以上的代码由 AI 生成,31 万行的复杂业务系统还在高速膨胀,你会发现一个反直觉的事实:AI Coding 不会自动收敛复杂度 —— ???有统一规范的约束,不同人用 AI 写出的代码风格各异,系统反而会加速腐化。...

美团 LongCat 开源 General 365:树立推理评测新标尺

11 days ago

大模型在 AIME、IMO 等高难度竞赛中拿奖拿到手,仿佛已经进化出了“人类最强大脑”。但与此同时,如果你问大模型:“离洗车店只有 50 米,我是开车去还是走路去?”。这些号称满分推理的模型,依然会一本正经地为你规划导航路线。 这种看似知识丰富,但没常识的现象,正是当前大模型评测的死穴:大模型虽然擅长记忆复杂的公式,却常常连一道简单的逻辑题都答不对。 基于此,美团 LongCat 团队正式发布 General 365。我们发现,在对 26...

从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

11 days ago

美团正式开源 LongCat-Video-Avatar 1.5,作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar 1.5 即便在复杂商业场景里,也能稳定、自然地输出高质量内容,让数字人视频生成从彩排室的完美演练,走向千人千面的真实舞台。 为了让数字人"更稳定、更自然"地动起来,我们在以下三方面实现能力升级: 基础体验全面商用化:在长句、快语速、歌唱等复杂语音输入下,唇部运动更精准平滑,面部表情、头部姿态和肢体动作更协调,整体表达自然稳定; 支持更丰富的场景:借助高质量数据体系,模型能稳定处理真人、动漫、动物等多类主体,多人对话更加自然且准确区分说话者与聆听者; 推理部署更高效:采用 DMD...