Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.
Get Feederplink.anyfeeder.com
Get the latest updates from 微软研究院AI头条 directly as they happen.
Follow now 33 followers
Last updated 3 days ago
4 days ago
(本文阅读时间:6分钟)编者按:当 AI 智能体走出实验室,在真实世界中执行任务时,只有知识还远远不够。但如今的许多智能体即使拥有正确的信息,可在实际操作中仍频频失误,任务完成率令人堪忧。微软亚洲研究院的研究员对此提出了一个新方法 UI-Evol,旨在帮助计算机使用智能体(Computer Use Agent)进化知识,使智能体不仅“知道该怎么做”,还要真正“做得到”。在该方法的加持下,智能体在实际执行能力、稳定性和可靠性方面均得到显著提升。相关论文被 ICML 2025 Computer Use Workshop 接收。在当前计算机使用智能体(Computer...
6 days ago
(本文阅读时间:7分钟)6月10日至17日,全球计算机视觉领域的顶尖学术盛会 CVPR 在美国田纳西州纳什维尔举办。此前,我们通过两期“科研上新”为大家带来了多篇微软亚洲研究院入选 CVPR 2025 的精选论文解读。第一期分享的内容主要围绕生成模型与扩散技术等方向的研究工作。第二期涵盖图像与视频处理方向的相关研究,包括单目几何估计、视频生成、图像擦除、视频压缩等。根据读者朋友们的投票结果,我们特别邀请了票选人气最高的四篇论文的作者,于明天(7月2日)下午14:00,在微软亚洲研究院的直播间分享他们的前沿工作。欢迎大家锁定直播间!直播信息直播时间:2025年7月2日 14:00-16:00直播地址:微信视频号“微软亚洲研究院”小红书“微软亚洲研究院”直播间B 站账号“微软科技”直播间论文及讲者介绍梁展豪澳大利亚国立大学博士研究生梁展豪现于澳大利亚国立大学攻读博士学位,研究方向为视觉生成与生成模型后训练。他曾在微软亚洲研究院实习,并曾是开源项目 MMSegmentation 的主要贡献者之一。分享论文:Aesthetic Post-Training Diffusion...
7 days ago
你是否正在关注人工智能的前沿发展?你是否想深入了解微软亚洲研究院(MSRA)的科研突破?你是否希望与世界顶尖的研究员面对面交流?在不久前的MSRA Open Day 中,我们与近百位同学共同学习创新的理念,感受技术的力量。如今暑假将至,不妨来微软坐坐——MSRA 联合 Center One 与 Garage 再次开启开放日,邀你一同探索科研背后的故事!活动信息活动时间:7月11日下午1:30到5:00活动地点:北京海淀区丹棱街5号微软大厦2号楼面向对象:高校本硕博在读学生活动亮点技术前沿速览:AI、大模型、多模态、机器学习……MSRA 正在关注的科研热点,一次了解!人才项目全解读:“明日之星”实习生计划、星桥计划、星跃计划等多元项目,全面介绍、答疑解惑。研究员面对面交流:倾听一线研究员的科研故事,零距离对话交流,收获经验与启发。沉浸式参观体验:亲临微软亚洲研究院,走进真实的科技研发场景,感受创新文化。活动议程具体安排以现场为准,以下为参考:报名通道本活动参与名额有限请扫描下方二维码或点击“阅读原文”填写您的个人信息完成报名报名截止时间:7月3日 18:00成功报名将收到确认邮件/短信在...
11 days ago
(本文阅读时间:15分钟)编者按:2022年11月,ChatGPT 的诞生开启了人工智能的新纪元。在过去几年的时间里,人工智能在全球的医疗健康领域有怎样的应用?未来又有哪些机遇?近日,在微软研究院最新一期的播客节目中,微软联合创始人、盖茨基金会主席比尔·盖茨及 OpenAI 研究负责人 Sébastien Bubeck 与微软全球资深副总裁、微软研究院院长、微软全球研究与创新孵化负责人 Peter Lee 对此进行了探讨,分享了他们对人工智能与医疗健康融合发展的深入观察。本文节选了对话中的部分内容,完整版请点击播客收听。Peter Lee:作为在微软研究院被邀请参与 OpenAI...
18 days ago
(本文阅读时间:8分钟)编者按:当前,大语言模型在代码生成领域已展现出惊人的能力,但能否胜任真实软件开发中的“新增功能实现”任务,仍是一个关键未解的问题。对此,微软亚洲研究院与北京大学联合发布了首个专注于仓库级新功能实现的基准测试 FEA-Bench,填补了评估体系中的重要空白。该测试集构建于真实开源项目的 pull request (合并请求),覆盖1400多个高质量任务,系统评估了主流大模型在复杂工程任务中的表现。FEA-Bench 不仅为推动代码生成系统迈向真实世界的新功能实现任务提供了坚实支撑,也为相关研究拓展了更广阔的探索空间。随着人工智能的快速发展,大语言模型在代码生成领域展现出越来越多的可能性,从函数级别的补全到复杂问题的修复,AI 已逐渐渗透至开发者的工作流程。然而,在真实的软件工程场景中,大语言模型是否具备实现新功能的能力,仍是一个亟待验证的重要课题。与此同时,现有的基准测试多聚焦于大模型的独立编程问题或修复任务,缺乏对“新功能实现”这一核心能力的系统性评估。对此,来自微软亚洲研究院与北京大学的研究团队联合推出了首个面向仓库级新功能实现的基准测试 FEA-Bench,填补了当前代码生成评估体系中的关键一环。该基准测试通过1401个高质量任务实例,全面评估了大语言模型在新增功能时所需的代码生成与编辑能力,揭示了当前模型在复杂软件工程任务中的局限性,为未来的研究提供了重要方向。论文链接:https://arxiv.org/abs/2503.06680GitHub 项目页面:https://github.com/microsoft/FEA-BenchHugging Face 数据集地址:https://huggingface.co/datasets/microsoft/FEA-BenchFEA-Bench推动大语言模型走向真正的软件工程自动化尽管当前的大语言模型如 GPT-4、DeepSeek-Coder...
20 days ago
(本文阅读时间:10分钟)编者按:在传统的机械设计和制造流程中,参数化 CAD 文件一直是概念与制造之间的关键桥梁。然而,工程师们长期以来一直被复杂的 CAD 特征树和繁琐的建模流程所困扰。近年来,随着大语言模型(LLMs)的飞速发展,AI 在多个领域展现了其强大的能力。本文将介绍三项微软亚洲研究院的最新研究——FlexCAD、CADFusion 和 CAD-Editor。它们分别从统一建模框架、视觉反馈机制和自然语言编辑功能三个层面,逐步推动了 CAD 建模的智能化发展。这些创新不仅显著提升了建模效率,还让使用者能够更加专注于创意本身。从笔记本电脑的铰链、???动自行车的车架,到喷气发动机的涡轮叶片,很多工业产品的零部件,其设计最初都源自一份可制造的三维模型(manufacturable 3D model)——参数化...
25 days ago
(本文阅读时间:12分钟)编者按:当人工智能遇上创意设计,一场视觉革命正悄然展开。人工智能图像生成技术为人们提供了无限的灵感源泉。然而,从实验室走向实际应用,从激发灵感到完美创作,在编辑自由度和可控性需求日益增长的当下,人工智能生成图像的技术仍然面临诸多挑战。微软亚洲研究院的研究员们在文本生成图像领域的两项最新研究成果,为促进相关技术的实际应用开辟了新的道路——匿名区域 Transformer (Anonymous Region Transformer, ART) 通过生成多图层,赋予了图像编???更大的灵活性;DesignDiffusion 则实现了图文一致性的端到端生成,让文字与图像的融合更加自然、精准。相关论文已被 CVPR 2025 接收。人工智能图像生成技术正在以前所未有的速度重塑着人们的视觉世界。从简单的图像合成到复杂的创意设计,这一技术为视觉艺术注入了新的活力。但目前这些生成结果大多还停留在激发灵感的层面,距离实现直接应用于设计需求还有一定差距,仍需要设计师人工进行大量修改与完善。当前的文本生成图像模型通常只能一次性生成整张图片,无法对指定的部分进行修改。例如,当生成图像中的某个元素颜色与需求不符时,现有的技术难以在此基础上直接更换颜色或进行二次修改。当你想要生成一朵朵分散的云时,人工智能可能会生成一团云,而且每次修改都重新生成一整张图,无法单独对云朵进行修改。此外,设计图往往需要与文字搭配,但人工智能生成带文字的图像时,常常会出现文字错误、文字布局不一致等问题,严重影响了图像的整体质量和实用性。在如下人工智能生成的图像中,文字有的错误,有的不整齐,还有重复或变为符号的情况。如何让人工智能文生图更加灵活、更具可编辑性呢?微软亚洲研究院的研究员们设计了全新的匿名区域 Transformer...
27 days ago
(本文阅读时间:16分钟)编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉。6月10日至17日,全球计算机视觉领域的顶尖学术盛会 CVPR 在美国田纳西州纳什维尔举办。我们通过两期“科研上新”为大家带来多篇微软亚洲研究院入选 CVPR 2025 的精选论文解读。第一期分享的内容主要围绕生成模型与扩散技术等方向的研究工作。第二期将涵盖图像与视频处理方向的相关研究,包括单目几何估计、视频生成、图像擦除、视频压缩等。欢迎大家参与文末投票,选出你最感兴趣的论文!我们将于近期邀请论文的作者们与你在直播间进行前沿技术的交流与探讨!「 本期内容速览 」01用于单域泛化的对抗性域提示微调与生成02DCVC-RT:4K实时视频编解码器03HoGS:通过齐次高斯投影实现近远物体的统一重建04MoGe:最优监督训练解锁任意图像精确单目几何估计05SmartEraser:使用遮罩区域引导从图像中移除任意内容06VidTwin:解耦结构和动态信息的视频Tokenizer01用于单域泛化的对抗性域提示微调与生成论文链接:https://openaccess.thecvf.com/content/CVPR2025/papers/Xu_Adversarial_Domain_Prompt_Tuning_and_Generation_for_Single_Domain_Generalization_CVPR_2025_paper.pdf单域泛化(Single Domain Generalization, SDG)旨在仅利用单一源域的标注数据,训练出能够在多个未见目标域上依然保持高性能的鲁棒模型。由于目标域数据在训练阶段完全不可见,如何有效模拟领域分布的多样性、缩小源域与目标域之间的分布差距,便成为该任务的核心挑战。现有工作多依赖于数据增强或基于风格统计的图像增强方法,虽能在一定程度上扩充训练样本的多样性,但难以覆盖与源域分布差异极大的“抽象”域样式,因而其泛化性能仍受限。为突破这一瓶颈,微软亚洲研究院的研究员首次提出借助强大的预训练文本到图像(Text-to-Image, T2I)扩散模型,通过对抗式提示调优(prompt...
about 1 month ago
(本文阅读时间:12分钟)编者按:在 MBTI 测试风靡的当下,人们热衷于探寻自己究竟是充满活力的“快乐小狗”,还是敏感细腻的“流泪猫猫”。当大模型逐渐成为人们生活中不可或缺的助手时,你是否会好奇:这些大模型有着怎样的特性,或者说,它们秉持何种不同的价值观?微软亚洲研究院最新发布的 Value Compass Benchmarks(价值观罗盘评估中心),可以帮助用户以更科学、系统和可靠的方式,对大模型的价值观展开评估。同时,用户通过访问 Value Compass Benchmarks 网站,可以直接查看主流大模型的价值观倾向,并选择最适合自己的大模型。当大模型逐渐融入日常生活,在享受技术带来便利的同时,你是否思考过这些大模型的“三观”是否与你契合?有的模型具有创造力,能够激发创作灵感;有的模型擅于总结,可以从海量信息中快速提炼核心要点;有的模型逻辑缜密,面对复杂问题能给出清晰的分析路径……在这个百家争鸣的大模型时代,哪个模型的价值观和你契合度最高?为了帮助用户更好地了解不同大模型在价值观层面的表现,微软亚洲研究院基于最新研发的价值观评估框架,推出了 Value Compass...
about 1 month ago
(本文阅读时间:20分钟)编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉。6月10日至17日,全球计算机视觉领域的顶尖学术盛会 CVPR 将在美国田纳西州纳什维尔举办。我们将通过两期“科研上新”为大家带来多篇微软亚洲研究院入选 CVPR 2025 的精选论文解读。第一期的分享内容是主要围绕生成模型与扩散技术等方向的研究工作,包括视频生成、自动平面设计、图像压缩、3D内容生成等。欢迎大家参与文末投票,选出你最感兴趣的论文!我们将于近期邀请论文的作者们与你在直播间进行前沿技术的交流与探讨!「 本期内容速览 」01SPO:面向扩散模型的逐步偏好优化学习方法02BizGen:面向信息图表生成的文章级视觉文本渲染技术03由元素至设计:基于分层原则的自动平面设计编排04FloVD:利用光流增强视角可控的视频生成05HomoGen:融合单应性传播与扩散机制的视频修复方法06I2VGuard:保护图像不被 I2V 模型随意“视频化”07PICD:基于扩散基础模型的多用途主观图像压缩08StableAnimator:高质量人像动画生成09基于结构化潜变量的三维生成大模型01SPO:面向扩散模型的逐步偏好优化学习方法论文链接:https://arxiv.org/pdf/2406.04314项目链接:https://github.com/RockeyCoss/SPO随着后训练在语言模型的应用中取得巨大成功,如何对基于扩散模型的文生图大模型进行后训练吸引了大量研究者的兴趣。对文生图大模型进行后训练可以显著提高生成的图片的美学质量与文本指令遵从能力,从而更加对齐人类对图片的偏好。但这些工作都有一个重要的假设,即最后生成出来的图片偏好可以传播到整个扩散模型的所有去噪步。研究员们经过探索发现,这一假设在复杂的图片偏好学习过程中难以成立。研究员们认为图片的偏好包括多个方面,比如布局、美学,或者指令遵循方面的偏好都是互相独立的,而扩散模型不同的去噪过程是聚焦于优化其中某一方面,所以简单地将图片的偏好传播到整个去噪过程是有缺陷的。通过分析现有的开源图片偏好数据集,研究员们进一步发现其偏好标注往往反映的是图文对齐、画质和美学偏好等方面综合后的总体偏好,在这些数据上训练时,监督信号难以专注于某一方面。即便对数据进行美学方面的重新标注,由于图像在布局和结构上的差异过大,所以精细粒度的美学信息(比如纹理、色彩)依然容易被干扰,导致文生图模型在后训练过程中难以在美学方面进行有效提升。为了解决这个问题,研究员们利用扩散模型在生成过程中对中间步的分布 p_θ (x_(t-1)│x_t...
about 1 month ago
(本文阅读时间:13分钟)编者按:在视觉多模态大语言模型的快速发展中,幻觉问题一直是研究者们关注的焦点。模型生成与输入图像不一致甚至虚假的内容,不仅影响用户体验,也阻碍了多模态技术在实际场景中的落地。对此,微软亚洲研究院和香港中文大学的联合研究团队从直接偏好优化(DPO)入手,提出了 On-Policy Alignment (OPA)-DPO 算法,可通过确保训练数据与初始策略(reference policy)的一致性,有效解决幻觉问题。该成果已获选计算机视觉领域顶会 CVPR 2025 的 Oral 论文。在视觉多模态大语言模型领域,生成与输入图像不一致甚至还有虚假内容的“幻觉”现象,是一个亟待攻克的核心难题。作为一种简单有效的解决方案,直接偏好优化 (DPO)...
about 1 month ago
(本文阅读时间:11分钟)编者按:随着应用场景的扩展,端侧设备(如手机、电脑、可穿戴设备、机器人等)对大模型高效运行的需求日益增长,但端侧设备对模型运行的计算资源、访存带宽、能耗都有着极其苛刻的要求。存内计算技术有望从根本上解决以上资源问题,它能够将存储单元和计算单元融合,显著减少数据在存储和计算单元间频繁搬运而产生的资源损耗。然而,传统存内计算涉及对硬件架构的改动,不仅技术难度大,且迭代周期长,无法在实际场景中大规模量产落地。为此,微软亚洲研究院与东京大学合作推出了基于商用 DRAM 的全新按位累计方法和 MVDRAM 系统,无需改动内存硬件,即可实现矩阵乘累加、矩阵向量乘等存内计算操作,使端侧设备无需依赖外部加速器,就能完成大模型的复杂推理任务,推理速度与同设备上 GPU 等专用加速器相当甚至翻倍。这些方法有潜力重塑端侧 AI 硬件的格局,推动高性能推理在更多端侧设备上普及。大模型在自然语言处理、图像识别、视频生成等多个领域都取得了显著突破。但动辄上百亿参数的大模型对计算资源、存储空间和能耗都提出了极高的要求,导致目前绝大多数模型只能在云端运行。随着端侧大模型应用需求的增长,特别是对智能程度和实时性要求极高的机器人等具身设备,如何在资源受限的终端设备上实现高效推理,是一个亟待解决的问题。存内计算作为一种新兴的计算范式,为解决这一问题提供了新方法。它将计算功能直接集成到存储单元,使数据无需频繁在存储与计算单元之间搬运,从而大幅降低能耗并提升计算效率。存内计算的核心优势在于能够在存储单元内部完成部分计算任务,特别适用于访存密集型操作,因此在大模型推理中展现出巨大的应用潜力。然而,传统存内计算技术无论是基于集成逻辑电路还是基于存储阵列的模拟比特并行计算,都需要对硬件进行改动。对于逻辑电路方法,由于存储器和处理器芯片制程差异较大,所以将计算单元整合到存储芯片上面临着极高的技术难度。此外,在存储芯片中划出一部分区域用于逻辑计算,会进一步压缩原本就有限的存储空间。对于模拟电路的方法,模拟电路的随机性、外围电路开销等,使得制造相同特性的模拟硬件非常困难。因此,传统存内计算技术的工程化实现仍处于探索阶段,距离实际应用还有很长的路要走。为了让存内计算真正从实验室走向实际应用,微软亚洲研究院和东京大学联合开展了针对商用 DRAM 中存算实现的研究。尽管通过修改存储控制器指令发射时序,利用同一位线共享电荷的方法,商用 DRAM...