Everything you care about in one place

Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.

Get Feeder

plink.anyfeeder.com

微软研究院AI头条

Get the latest updates from 微软研究院AI头条 directly as they happen.

Follow now 44 followers

Latest posts

Last updated 8 days ago

AI解码脑疾病,开启精准诊疗新可能

8 days ago

(本文阅读时间:10分钟)编者按:阿尔茨海默病、帕金森病等神经退行性疾病,长期面临早期难诊断、药物难入脑、病程难预测等挑战,困扰着无数患者与家庭。如今,人工智能的跨越式发展,正在为这一领域带来新突破。微软亚洲研究院(上海)深耕人工智能与脑科学交叉领域,以三大创新推动神经疾病诊疗升级:通过多模态融合提升阿尔茨海默病早期信号识别能力,以人机协作打通脑靶向药物递送路径,并借助个性化模型实现帕金森病病程轨迹精准预测。随着全球人口老龄化不断加深,阿尔茨海默病、???金森病等神经退行性疾病的发病率持续攀升。这类疾病起病隐匿、进展缓慢,且发病机制尚未明确,长期以来缺乏有效的早期诊断手段、高效的治疗药物以及个性化的病程管理方案,已成为全球医疗卫生领域亟待攻克的重大挑战。人工智能技术的快速发展,为复杂神经疾病的研究与诊疗开辟了全新路径。凭借对多模态异构数据的处理能力、对潜在关联规律的挖掘能力,以及更强的预测与推理能力,AI有望从基础研究到临床应用,重塑神经疾病诊疗的全流程体系。微软亚洲研究院(上海)长期深耕人工智能与脑科学交叉领域,围绕神经疾病诊疗中的核心难题持续探索并取得了突破。近年来,团队针对阿尔茨海默病多模态数据融合难题,构建了统一的多模态诊断框架;在脑靶向药物递送领域实现了对血脑屏障关键瓶颈的研究范式突破,探索建立人机协作的闭环研发体系;同时,在帕金森病病程预测中提出了AdaMedGraph图神经网络方法,首次实现了个性化的病程建模和预测。从诊断模型到药物研发,再到病程管理,这些研究成果为长期缺乏有效解决方案的神经退行性疾病提供了新的思路,也推动脑部疾病诊疗向更精准、高效和个性化的方向持续演进。相关论文已整理于文末,欢迎点击相关链接,了解更多技术详情。三大创新,直击脑神经疾病诊疗瓶颈在神经退行性疾病研究中,科研人员通常面临多重难题:如何在症状尚未显现时实现早期识别;如何让药物真正跨越血脑屏障,进入大脑发挥作用;以及如何理解不同患者之间差异显著的病程演化?这些问题持续制约着神经疾病的基础研究与临床实践的进展。对此,微软亚洲研究院(上海)团队展开了一系列探索。1. 从“单一视角”到“多模态融合”:推动阿尔茨海默病早期诊断迈出关键一步阿尔茨海默病(AD)的临床诊断通常需要综合多种检查手段,如认知量表评估、磁共振成像(MRI)、血液生物标志物检测及基因测序等。尽管针对单一模态的AI模型已展现出强大的性能,但医生仍需手动整合多个独立模型的输出结果进行综合判断,增加了临床医生的决策成本。然而,将多个高性能单模态模型整合为统一的框架在机器学习上面临着巨大的挑战。这需要对齐不同模型的特征空间、融合其输出结果,才能充分利用互补信息,让基础模型实现有意义的交互。研究员们发现,由于每个基础模型的预训练目标都是捕捉独特的单模态特征,其表征具有固有的异质性与结构化特点。若简单对齐或融合这些特征空间,可能无法有效利用不同模态间的互补性,甚至导致性能下降。如何在实现基础模型的充分交互与保留其预训练特征空间完整性之间取得平衡?微软亚洲研究院(上海)联合同济大学提出了一种基于模态锚定基础模型交互的统一多模态阿尔茨海默病诊断框架。该方法以一种模态作为锚点,保留其原有特征空间结构,同时通过全新设计的模态感知查询转换器Q-former,将其他辅助模态的特征精准映射至锚点空间,从而实现跨模态信息的有效对齐与融合。图1:多模态阿尔茨海默病诊断框架流程这一框架首次整合了阿尔茨海默病相关的三类核心数据:基因数据、神经影像数据和临床数据。在更全面的模态覆盖基础上,结合对基础模型的适配策略,模型能够更深入地理解疾病的病理机制,提升诊断精度。同时,该方法还展现出强大的泛化能力,可扩展应用于帕金森病等其他神经退行性疾病。Joint Adaptation of Uni-modal Foundation Models for Multi-modal Alzheimer's Disease Diagnosis...

祝贺微软张冬梅博士荣获 IEEE 杰出领导力奖

9 days ago

近日,微软杰出科学家、微软亚洲互联网工程院首席科学家张冬梅博士获得了由IEEE颁发的 2026 IEEE CS TCSE B. Bühnová 杰出领导力奖(Distinguished Leadership Award),以表彰她“在软件分析(Software Analytics)领域的开创性贡献,以及在指导、支持并促进亚太地区女性科技人才发展方面所展现出的卓越领导力”。这一奖项既是国际学术界对张冬梅博士长期科研贡献的高度认可,也体现了她在推动科技行业多元与包容发展方面的深远影响。张冬梅博士深耕软件工程研究领域多年,率先提出并开创了 Software...

ICLR上新 | 多模态生成与具身智能的前沿突破

10 days ago

(本文阅读时间:20分钟)编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。4月23日至4月27日,深度学习与表征学习领域最负盛名的学术会议之一的ICLR,将在巴西里约热内卢举行。我们通过两期“科研上新”为大家带来多篇微软亚洲研究院入选ICLR 2026的精选论文解读。在第一期中,我们分享了强化学习基础理论分析、长上下文推理和代码生成验证的专项优化、智能体探索能力的优化等研究工作。第二期我们将聚焦多模态生成、视觉与音频生成、具身智能机器人操作、神经网络内核优化等方向,呈现从大模型能力创新到机器人落地应用、再到底层性能优化的完整技术链路,展现从理论突破到工程实践的前沿探索。欢迎大家参与文末投票,选出你最感兴趣的论文!我们将邀请论文的作者们与你在直播间进行前沿技术的交流与探讨!「 本期内容速览 」01AdAEM:一种自适应且自动扩展的大语言模型价值观差异度量方法(Oral)02Aurelius:面向大规模的关系感知文本转音频生成03BAR:重构自回归视觉生成的基础04基于上下文学习的高效大语言模型微调数据选择05TileLang:一款面向GPU深度学习算子实现的特定领域编程语言(Oral)06TwinVLA:利用孪生单臂VLA模型,实现数据高效的双手操作07VidGuard-R1:基于推理多模态大语言模型与强化学习的AI生成视频检测与解释08villa-X:增强VLA模型中的潜在动作建模09VisCodex:通过融合视觉与编码模型,实现统一的多模态代码生成01AdAEM:一种自适应且自动扩展的大语言模型价值观差异度量方法(Oral)论文链接:https://openreview.net/forum?id=qNlTH4kYJZ在大语言模型的价值观评估中,现有测试数据集常面临“信息量不足”的挑战。由于测试问题陈旧、存在数据污染或过于通用,这些测试往往只能捕捉模型在安全合规等通用价值观上的趋同倾向,难以揭示不同模型间细微且具有区分度的价值观取向差异。为解决这一问题,研究员们提出了自适应、自动化可扩展的测量框架AdAEM。该方法突破了静态数据集的限制,利用来自不同文化和时期的多个大语言模型,探测其???部的价值观边界,并基于信息论目标函数自动生成和扩展评测问题,旨在挖掘具有争议性和区分度的主题,从而最大化模型间的价值观分歧。实验表明,利用AdAEM构建的测试数据集(AdAEM Bench)包含12310个问题,在语义多样性和新颖性上显著优于现有数据集。通过Value Priming实验验证,该框架不仅能有效缓解数据污染问题,还能精准捕捉模型在特定议题下的价值偏移,展现出极高的构念效度与信度。在对比评估中,AdAEM成功揭示了GPT-4、Claude、Llama及GLM等不同架构和地域来源的模型在施瓦茨十大价值观维度上的差异,而这些差异在其他测试集中往往是扁平或混淆的。此外,AdAEM具备良好的扩展性,能够通过整合最新发布的模型自动生成反映当下社会热点的评估问题,为跨学科的大模型价值对齐与风险诊断提供了可靠工具。图1:(a) 不同的大语言模型在回答通用问题时,其价值取向难以区分。(b) AdAEM通过近期具有争议性的问题(例如加利福尼亚州山火)更能凸显出价值观差异。02Aurelius:面向大规模的关系感知文本转音频生成论文链接:https://openreview.net/forum?id=LAYCYiIgZ1文本到音频(TTA)生成技术在通用音频合成上已取得显著进展,但现有模型在处理涉及多事件组合、时空关系及逻辑约束的“关系感知”生成任务时表现不佳,难以像人类一样理解文本中的复杂关系并生成对应的声学场景。为此,研究员们提出了Aurelius框架,构建了包含110个类别的高质量音频事件语料库AudioEventSet,以及涵盖100种关系的AudioRelSet,系统性地覆盖了物理世界与文本描述中的潜在关系。结合创新的“文本-音频对”生成策略,该框架能够创建海量训练数据,并配套多维度评估协议。图2:Aurelius通过引入音频事件语料库AudioEventSet、关系语料库AudioRelSet以及“文本-音频对”生成策略,为关系感知TTA做出了贡献。实验表明,现有主流TTA模型在关系感知任务上的各项指标均低于10%,即使引入智能体工作流分解任务亦收效甚微。通过在构建的数据集上进行微调或从头训练,模型的关系建模能力显著提升。Aurelius提供的大规模基准测试与数据资源,为推动关系感知TTA从单事件生成迈向结构化、关系化的音频合成奠定了基础。03BAR:重构自回归视觉生成的基础论文链接:https://openreview.net/forum?id=2m9XQq4Dc3 尽管自回归(AR)视觉生成模型在图像合成领域取得了进展,但在处理图像token时通常依赖固定的光栅扫描顺序,难以充分捕捉图像固有的二维结构,限制了模型性能。而现有的改进方法多基于人工设计的归纳偏置,缺乏统一的数学框架,导致不同设计之间难以比较且易陷入局部最优。研究员们提出了基自回归(Basis Autoregressive, BAR)新范式,将图像视为向量空间中的点,通过线性变换矩阵A重构基向量,从而自适应地学习最优的token预测顺序。该框架统一了VAR、xAR、RAR、PAR等主流AR变体,并以端到端优化目标(含残差损失)替代手工先验,配合正交投影约束保证变换稳定性。图3:BAR统一框架概述及其优势。(a) 通过应用与矩阵A相关的线性变换,BAR提供了一种广义视角,将先前方法视为A的特定实例,并为进一步扩展提供了便利。(b)...

在书页间,寻一处心灵的缓冲地带

15 days ago

从中世纪的缮写士伏案誊抄古籍,到如今无数读书人在社交网络上分享自己的阅读感受,书籍如丝线般串联起跨越时空的文化与心灵。然而,在技术不断提速、生活节奏愈发紧凑的当下,那种缓慢而沉浸的阅读,似乎正变得奢侈、珍贵。也正因为此,阅读反而成为人们一处难得的“精神缓冲带”,在喧嚣之间,留出一隅安静。翻开一本书,你仿佛把自己轻轻安放进另一个世界之中。纸页翻动间,现实的紧绷逐渐松弛:有人在故事中与英雄并肩作战,有人因命运的不公而愤懑,也有人在细腻的情感中获得共鸣与释怀。那些未必直指答案的文字,却常常在不经意间,抚平焦虑、安顿情绪,甚至在某个时刻,为人注入继续前行的力量。阅读不只是理解世界的方式,也是一种温柔而持久的自我修复。在“世界读书日”这个属于阅读的日子里,我们邀请了微软亚洲研究院的几位同事,分享一本对他们而言宛如“心灵按摩”的书籍。和煦四月,春光正好,愿这些分享,能陪你度过一个个安静的片刻,在字里行间进行一场心理疗愈!#世界读书日 #缮写士 #阅读 #心灵按摩 #心灵疗愈 文章原文

大模型智商在线,为何“情”商掉线?

16 days ago

(本文阅读时间:10分钟)如今的大语言模型早已在数学领域展现出令人惊叹的实力,在 AIME 美国数学邀请赛、IMO 国际数学奥林匹克竞赛等高难度抽象数学竞赛中,多款主流模型都能交出近乎满分的答卷。这一表现也成为大模型推理能力持续突破的亮眼标签。但是,这些在抽象数学题中所向披靡的“学霸”,面对藏在现实场景中的数学问题时却频频失手,抽象解题能力始终无法转化为可靠的现实应用能力,形成了巨大的性能落差。比如模型能精准解出抽象的数字三元组计算问题,可当这些数字对应成无人机飞行步数、智能能源系统的组件参数,仅为数学逻辑披上一层现实叙事的“马甲”后,其解题准确率便大幅下降。针对这一问题,微软亚洲研究院联合香港中文大学等多所高校展开系统性探索,推出了 ContextMATH 情境化数学推理基准测试集,通过对 61 款主流大模型的全面测试,揭示了大模型在抽象与情境化数学推理之间的能力差距,为大模型的实际应用优化提供了关键科学依据。相关论文已被ICLR 2026接收。点击文末相关链接,了解更多技术详情。大模型解不了场景化数学题的原因:读不懂题为了精准找到大模型解不了场景数学题的核心症结,研究员们设计了ContextMATH 基准测试集,将 AIME 和...

联合国中文日 | 当AI“缝合”起甲骨碎片

17 days ago

(本文阅读时间:6分钟)每到谷雨,人们都会想起那个关于“仓颉造字”的古老传说。值此联合国中文日,同时也是安阳华夏文字节,让我们重新回望汉字的源头——甲骨文。三千年前的殷墟甲骨,是中国最早的成熟文字系统。但它们从重见天光的那一刻,就开始了不可逆的消逝。甲骨文研究者面对的甲骨碎片,就像一张张被时间撕碎的老照片。同一版甲骨可能有十几种拓本,却各有各的残缺、各有各的模糊。传统校重全靠学者凭经验逐一比对,“劳而少功”,难以周全。当18万张甲骨文拓本遇上“AI甲骨文校重助手Diviner”——这是微软亚洲研究院与首都师范大学甲骨文研究中心莫伯峰教授团队的跨界杰作,用AI为华夏文明“拼图”。其技术亮点在于“自监督学习”,即无需人工标注,模型可从海量无标注的残片影像中自主学习甲骨文独特的纹理与笔画特征。近日,首都师范大学与微软亚洲研究院将利用AI发现的甲骨文补合成果集结成册,出版了《甲骨补合集》。相关工作对甲骨文领域的科研范式转变起到了重要的示范作用。该合集中每则补合包含三张图,层层递进:原图 → 补合前的基础拓本 叠压图 → 多张拓本透明叠加,差异一目了然补合图 → AI智能合成,浑然一体、恢复原貌华夏文字的基因,在AI助力下变得重新完整。图1:左上角一整列残字被拼合图2:额外补充了若干文字,已有文字更加清晰图3:正反两面同一片甲骨均实现了补合联合国中文日设立的初衷是纪念“中华文字始祖”仓颉造字的贡献,同时也是为保存中华文明灿烂悠久的传统文化而做的众多努力之一。当技术让古老甲片的修复变得更为便捷,让藏在斑驳刻痕中的信息变得明晰,每一位亲眼见证的人都可以感受到其背后灼灼的温度。实现科技和人文的交融,也是微软亚洲研究院致力于做的事情。从助力敦煌文化遗产保护到提升甲骨文校重工作效率,微软亚洲研究院一直践行“技术向善”的理念,推动前沿科技成为守护人类文明传承的重要力量。互动福利:猜猜下面这几个甲骨文分别对应现代汉语中的哪个字?在评论区回答正确的前三名,将获得一本微软亚洲研究院出版的图书《无界》。#华夏文字节 #仓颉 #甲骨文 #AIforGood #跨学科研究...

AI Next 播客 | 对话夏炎&杨蛟龙:AI创作浪潮下,内容生产将如何被重塑?

20 days ago

(本文阅读时间:25分钟)《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。第一季主要围绕当今智能发展的核心议题,探索前沿趋势。  在第七期节目中,我们邀请到了微软亚洲研究院的首席开发经理夏炎和首席研究员杨蛟龙,与大家共同探讨 AI 如何从“生成工具”逐步演进为“创作伙伴”。当一个人就能完成过去需要一个团队才能实现的播客、动画甚至虚拟场景创作时,AI 带来的不仅是效率的提升,更是创作门槛的显著降低。那么,《AI Next》节目制作所采用的三项核心技术,背后隐藏着怎样的设计思路?AI辅助创作还面临哪些关键挑战?面向未来,创作者又将如何与 AI...

ICLR上新 | 基于验证、奖励与进化的LLMs智能体强化学习前沿解析

21 days ago

(本文阅读时间:15分钟)编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。4月23日至4月27日,深度学习与表征学习领域最负盛名的学术会议之一的ICLR,将在巴西里约热内卢举行。我们将通过两期“科研上新”为大家带来多篇微软亚洲研究院入选 ICLR 2026的精选论文解读。第一期的研究工作涵盖强化学习基础理论分析、长上下文推理和代码生成验证的专项优化、智能体探索能力的优化等。欢迎大家参与文末投票,选出你最感兴趣的论文!我们将邀请论文的作者们与你在直播间进行前沿技术的交流与探讨!「 本期内容速览 」01理论视角分析,语言模型规划中强化学习的收益与陷阱02基于智能体奖励反馈的代码美学优化03EMPO²:基于记忆增强与混合优化的高搜索效率智能体04EvoTest:面向自我完善智能体系统的进化测试时学习05LoongRL:面向长上下文高级推理的强化学习(Oral)06ProRe:通过推理器-执行器协作实现的GUI智能体主动奖励系统07ReVeal:通过可靠自我验证实现的自演化代码智能体01理论视角分析,语言模型规划中强化学习的收益与陷阱论文链接:https://openreview.net/forum?id=34a6DfHOUF尽管强化学习已被广泛用于增强大语言模型的规划能力,但其背后的理论机制尚不清晰。为此,微软亚洲研究院的研究员们构建了一个基于图的规划抽象框架,从理论层面分析了策略梯度(PG)与Q-learning两类主流强化学习方法在LLMs规划任务中的优势与局限。研究员们发现,监督微调容易使模型依赖训练数据中的共现关系产生“退化解”,而强化学习通过探索机制才能学到真正可泛化的规划策略。但策略梯度方法存在“多样性坍塌”问题,即在训练数据上达到最优准确率后,输出分布的多样性仍然持续下降。相比之下,Q-learning不仅支持离策略学习(off-policy),还能在收???时保持输出多样性。然而,若奖励函数设计不当,Q-learning会产生Q值偏差,反而损害模型性能。最后,在Blocksworld这一经典规划基准上的实验结果验证了上述理论分析在真实任务中的有效性。图1:Q-learning 与 PG 的实证比较。 (a) 展示了训练集和测试集的准确率随训练进程的变化情况(采用贪婪解码)。(b) 比较了训练集和测试集上输出多样性与准确率的帕累托前沿(采用温度解码)。02基于智能体奖励反馈的代码美学优化论文链接:https://openreview.net/forum?id=Q87kwGI6bx尽管大语言模型在代码生成等任务上表现卓越,但其在生成图表、网页等视觉导向的代码时,往往只关注功能实现,忽视了布局、色彩和交互等美学维度,导致产出效果不佳。为应对这一挑战,研究员们提出了一套完整的代码美学优化流程:首先构建了包含约35.8万高质量样本的大规模指令微调数据集AesCode-358K,涵盖Python可视化和网页设计;随后引入“智能体奖励反馈”机制,利用多智能体系统从代码可执行性、静态视觉美感和动态交互体验三个维度进行评估;在此基础上,研究进一步提出GRPO-AR算法,将多维度奖励信号融入强化学习,以联合优化代码的功能性与美学表现,并配套开发了用于系统性评估的OpenDesign基准。图2:AesCoder流程概述,集成了数据构建、模型训练和加权评分机制。GRPO-AR 通过协调三个专门的奖励智能体(即执行智能体、静态美学智能体和交互式美学智能体)来执行...

微软亚洲研究院辰星荣誉计划开启招募!提前锁定心仪团队校招入场券

22 days ago

(本文阅读时间:10分钟)项目介绍辰星荣誉计划(Honorary Scholars Talent Program)是微软亚洲研究院(Microsoft Research Asia,MSRA)面向顶尖科研学子推出的高潜人才专项,我们希望在全球范围内寻找和我们一起定义AI新纪元的同行人。本计划首次开启直通微软亚洲研究院全职岗位(FTE)面试的绿色通道。你将在研究员的带领下聚焦MSRA核心科研项目,完成一段沉浸式的实习之旅,并有机会提前锁定心仪团队的校招入场券。本项目集合了微软亚洲研究院的顶尖科研团队,入选者将加入具有长期影响力的重点前沿研究方向及战略科研项目,涵盖以下六大前沿方向:General Artificial Intelligence  AI Infrastructure (Systems /...

CHI上新 | 从工具到伙伴:人机协作迈入“深度共融”时代

23 days ago

(本文阅读时间:8分钟)编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资???,保持对前沿领域的敏锐嗅觉。人机交互领域最具影响力的国际顶级会议之一CHI于本周在西班牙巴塞罗那举行。本期“科研上新”精选了微软亚洲研究院入选该大会的六篇论文,展示生成式AI在创意内容创作、无障碍交互及信息可视化等领域的前沿探索。 「 本期内容速览 」01DuoDrama:通过大语言模型辅助的人类反思支持剧本优化02从困境到成功:屏幕阅读器用户在计算机使用中的情境感知引导03从编剧能动性视角看人机协作共创04InfoAlign:用于信息图叙事的人机协同创作系统05通过跨时间情感建模实现更自然、更具陪伴感的虚拟智能体‌01DuoDrama:通过大语言模型辅助的人类反思支持剧本优化论文链接:https://programs.sigchi.org/chi/2026/program/content/223501当前剧本创作工具在润色阶段难以有效协调“角色内心体验”与“外部故事结构”的双重反思视角。这导致编剧常陷入单一视角的局限,无法同时满足角色内部心理真实性与外部总体叙事结构的要求。为突破这一瓶颈,研究员们基于斯坦尼斯拉夫斯基的沉浸式体验与布莱希特的间离效果的表演理论,设计了名为DuoDrama的系统及“基于经验的反馈生成工作流”(ExReflect)。该系统让每一个AI智能体先在经验角色中模拟角色内心独白,再切换至评估角色(扮演该角色的演员)生成反馈,从而在单一评估流程中实现内在心理真实性与外在叙事一致性的动态平衡,最终在每一个剧本场景中通过多智能体架构提供多角色的反馈。图1:基于经验的反馈生成工作流(ExReflect),用于人类反思。一个智能体依次扮演同一场景中的两个利益相关者角色。在体???角色中,智能体采用某个利益相关者的身份和交互情境来生成个人体验。随后,它再切换到评估角色,采用不同的利益相关者视角,基于该个人经验生成反馈。这种设计使反馈植根于个人经验,同时引入了评估距离,从而在内部沉浸感与外部批判之间取得了平衡。对十四名专业编剧的研究表明,DuoDrama在反馈质量与叙事对齐度上显著优于传统基线方法。实验结果显示,该系统生成的反馈不仅在情感洞察、行为动机、人物关系等五个维度上表现出更高的内容丰富度与具体性,还有效提升了编剧反思的深度与广度。与缺乏经验基础的评估模式相比,DuoDrama通过锚定角色主观经验,减少了抽象、空泛的建议,使反馈更具可操作性;同时,相较于单纯的角色扮演模式,其引入的外部审视视角更能激发创作者的修改意愿。这种结合沉浸式演绎与批判性抽离的双轨机制,不仅解决了剧本润色中视角割裂的问题,也为教育、设计等其他需要情境化反思的人机协作领域提供了普适性的设计范式。02从困境到成功:屏幕阅读器用户在计算机使用中的情境感知引导论文链接:https://programs.sigchi.org/chi/2026/program/content/223238 目前,主流界面普遍是以视觉为中心的设计,导致屏幕阅读器用户在计算机操作中面临陡峭的学习曲线与频繁的障碍。现有教程也严重依赖视觉描述和鼠标操作,缺乏针对键盘导航和屏幕阅读器用户的无障碍指导,从而迫使用户依靠低效的在线搜索或同伴求助。为突破这一局限,研究员们设计了按需获取帮助的AI助手AskEase,通过管理多源上下文,如桌面截图、屏幕状态、屏幕阅读器轨迹及聊天历史等,来推断用户意图,并结合检索增强生成(RAG)技术整合软件文档,生成符合屏幕阅读器使用习惯的无障碍分步指导。AskEase系统采用无缝交互设计,最大限度地减少了用户寻求帮助时的注意力中断。AskEase 会自动收集和管理多种上下文来源,以增强情境感知能力,并提供精准且适合屏幕阅读器用户的指引。它主要考虑三类上下文:(1) 环境上下文,包括突出显示焦点元素的桌面截图、结构化屏幕状态以及实时屏幕阅读器轨迹;(2) 知识上下文,例如检索到的软件文档以及针对屏幕阅读器用户的响应偏好原则;(3) 对话上下文,包括聊天记录和当前卡住的步骤。在屏幕阅读器用户中进行的研究显示,AskEase在任务成功率上显著优于用户常用工具,例如搜索引擎和通用AI助手,同时显著降低了用户的感知工作负荷,包括体力消耗、操作难度与挫败感等。参与者能够借助情境感知问答、自适应支持和屏幕描述等功能,独立完成学习新兴AI工具及处理无障碍问题等复杂任务。结果表明,这种基于大语言模型的上下文感知辅助系统不仅能有效弥补通用AI助手在无障碍支持上的不足,更有望促进计算领域的包容性,让视障用户在教育、就业和社会参与中获得更多平等机会。图2:AskEase流程图03从编剧能动性视角看人机协作共创论文链接:https://programs.sigchi.org/chi/2026/program/content/222136 随着生成式人工智能在剧本创作领域的深入应用,创作者虽获得了效率提升,却仍面临如何持续协调人机协作关系、避免技能退化及保持创作主体性的深层挑战。现有研究多聚焦于特定时刻的人机协作瞬时记录,缺乏对创作者如何通过能动性主动塑造协作范式的长期思考。为此,基于班杜拉的人类能动性理论,研究员们通过为???两周的定性研究,对19名专业编剧与AI共同创作剧本的全过程进行了追踪,综合运用与AI的共创记录、半结构化访谈等方法,系统探究了编剧在intentionality(意向性), forethought(前瞻性), self-reactiveness(自我调节性)...

如何让生成式AI更懂你?全新交互模型IAI,重塑人机协同范式

28 days ago

(本文阅读时间:10分钟)随着生成式AI逐步走入设计、数据分析和程序开发等工作流程,甚至点餐、购物等生活场景,人们开始频繁与AI“对话”。然而,设计师反复修改提示词却始终难以贴近心中的画面;数据分析师难以用文字精确指代图表局部;程序员也很难仅凭文字就让AI准确理解特定的代码结构——“说不清楚”,正成为生成式AI时代普遍存在的交互瓶颈。文字提示灵活却天然模糊,GUI界面交互精准却表达受限,两者之间始终缺少一座连接用户意图与AI理解的桥梁。为系统性破解这一难题,来自微软亚洲研究院、香港科技大学和佛罗里达州立大学的研究团队,在人机交互领域顶级会议ACM CHI 2026上提出了交互增强指令(Interaction-Augmented Instruction,IAI)模型,并荣获CHI 2026最佳论文荣誉提名奖(Best Paper Honorable Mention)。该工作尝试从根本上回答一个关键问题:如何让人类的意图,被AI更准确地理解与执行?点击文末相关链接,了解更多技术详情。图1:IAI模型研究概览一个模型,六个实体:重新刻画“人机对话”的本质IAI模型首先解决的是“如何描述人与AI的交流”,也就是描述力(Descriptive Power)。研究团队从两条最基本的人机交互路径出发——"提示词驱动生成"与"GUI直接操作产物",提炼出六个不可或缺的核心实体:人类(Human, H)、交互(Interaction, I)、文字提示(Text Prompt...

告别盲猜token时代,LTD赋予大模型“时间感知”能力

29 days ago

(本文阅读时间:8分钟)慢,越来越慢…… 你在使用大模型时是否也面临这样的无奈:AI的回答总是需要等待,敲完一个问题,要等上几秒甚至十几秒才能得到回复,在复杂推理、多轮对话或代码生成等场景中,可能还需要更长的时间。推测解码方法一定程度上缓解了这一延迟问题。它通过引入一个更快、更小的草稿模型,先猜一些可能的词元(token),再由大的目标模型统一验证,从而减少逐步生成的时间。然而,其现实效果并不总是理想的。由于推测解码采用固定策略或简单的启发式规则,所以无法根据具体任务动态调整生成多少和验证多少词。小模型猜得太多,大模型验证成本就会更高;小模型猜得太少,又无法发挥并行验证的优势。结果就是加速效果打折,甚至出现越优化越慢的情况。在这样的背景下,微软亚洲研究院与北京大学联合提出了LTD(Learning to Draft)方法,它不再依赖静态规则,而是通过强化学习,让小模型生成和大模型验证之间形成动态协同关系,并直接以大模型的有效吞吐量为优化目标,助力大模型推理从机械加速走向智能加速。相关论文已被ICLR 2026接收。点击文末相关链接,了解更多技术详情。LTD:让小模型和大模型实现“灵魂契合”传统的推测解码原理是“小模型猜词、大模型验证”。小模型用固定的长度去猜,比如每次固定猜8个token,然后大模型会一次性验证这8个token。但在简单的上下文场景中,小模型能猜对超过8个token,所以只猜8个会不够用,因为它其实可以猜更多;而在复杂的上下文终,小模型往往一个token都猜不对,如果猜8个然后送去验证的话,就会造成算力的浪费。另外,小模型和大模型在整个过程中就像两个没有沟通的人各干各的,没有配合。LTD打破了这种各自为战的模式,将“单位时间有效生成量”作为唯一的优化目标,不再单纯追求猜中多少答案,而是看在猜token和验证的总时间里,能生成多少有效的正确内容,让小模型的生成阶段和大模型的验证阶段实现动态协同工作,从根本上实现智能加速。图1:LTD方法概述:将草稿小模型与目标大模型之间的交互建模为一个强化学习环境。采用两种策略,通过控制草稿树的深度和验证规模,动态管理草稿与目标验证之间的资源分配。这些策略基于每个“生成-验证”周期的吞吐量所产生的奖励信号,来联合优化。为了让猜token和验证环节精准适配、默契配合,LTD 为大模型的加速过程配备了两个“智能协调员”:深度策略和规模策略。首先,深度策略管控小模型,决定小模型应该猜多少token,也就是草稿树的深度。它会根据当前的问题上下文、小模型猜测token的概率等信息,判断问题的难易程度,在草稿树每一层扩展后,做出“继续扩展”或“停止扩展”的二元决策,确保小模型的猜测数量恰到好处,既不会太少,浪费了大模型的验证能力,也不会太多而增加无谓的时间成本。其次,规模策略专门对接大模型,决定大模型需要验证多少个候选答案,也就是验证规模。它会根据小模型猜测token的结果、当前的生成进度,从所有候选token中挑选出最优的数量让大模型验证,让大模型的每一次计算都能发挥最大价值。两个策略通过强化学习联合优化,根据上下文与候选质量动态调整,实现协同平衡,使系统能够在不同输入和场景下自动找到最优平衡点,实现算力的高效利用。更关键的是,这种默契是通过强化学习训练而来的。LTD 将整个推理过程建模为一个决策环境,每一轮“生成+验证”都会产生一个反馈信号。两个策略利用这一信号不断优化自身行为,逐渐学会如何协同决策。其训练过程分为两个阶段。第一阶段,深度策略和规模策略分别独立训练。深度策略会在固定验证规模的前提下,反复训练如何根据不同场景判断最优的猜token深度;规模策略则会在固定猜token深度的前提下,训练如何选择最合理的验证规模。经过这一阶段的训练,两个协调员都能形成稳定的独立决策能力,从而为后续的协同配合打下基础。第二阶段是迭代协同优化,让两个模型开始练习配合的默契。这一阶段先固定深度策略的决策规则,训练规模策略如何根据小模型的猜token结果,做出最适配的验证决策;再固定规模策略的决策规则,训练深度策略如何配合大模型的验证能力,调整最优的猜token深度。研究员们发现,仅需两轮交替迭代,两个策略即可实现完美的协同配合,让整个加速过程高效且顺畅。这样的创新设计,让 LTD 方法拥有了三大优势。其一是时间感知能力。小模型不再盲目追求猜中答案的数量,而是始终在计算“是否值得”,从而避免无效开销。其二是动态适配能力,在不同任务、不同上下文中,系统都会自动调整策略,而不是依赖固定参数。最后是轻量高效,两个策略模型本身非常小,额外计算开销低于1.5%,几乎不会增加系统负担,这让加速方案的落地变得简单可行。LTD 的加速实力超能“打”:最高提速 36.4%研究员们在多个主流大模型,包括Llama-3、Vicuna、Qwen3 等,以及涵盖多轮对话...