Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.
Get Feedermsra.cn
Get the latest updates from MSRA directly as they happen.
Follow now 77 followers
Last updated over 2 years ago
over 2 years ago
编者按:当前,半监督学习的发展如火如荼。但是现有的半监督学习基准大多局限于计算机视觉分类任务,排除了对自然语言处理、音频处理等分类任务的一致和多样化评估。此外,大部分半监督论文由大型机构发表,学术界的实验室往往由于计算资源的限制而很难参与到推动该领域的发展中。为此,微软亚洲研究院的研究员们联合西湖大学、东京工业大学、卡内基梅隆大学、马克斯-普朗克研究所等机构的科研人员提出了 Unified SSL Benchmark(USB):第一个将视觉、语言和音频分类任务进行统一的半监督分类学习基准。该论文不仅引入了更多样化的应用领域,还首次利用视觉预训练模型大大缩减了半监督算法的验证时间,使得半监督研究对研究者,特别是小研究团体更加友好。相关论文已被国际人工智能领域顶级学术大会 NeurIPS 2022 接收。 监督学习通过构建模型来拟合有标记数据,当使用监督学习 (supervised learning)对大量高质量的标记数据(labeled data)进行训练时,神经网络模型会产生有竞争力的结果。例如,据 Paperswithcode...
over 2 years ago
微软研究峰会2022将于10月18日至20日在线举行。在为期三天的会议中,每天都将以一个主题演讲开启并展开深入讨论,包括探讨深度学习对科学发现的潜在影响;如何利用技术使医疗更精准、更普惠;基础技术的发展如何使未来的云计算成为可能。三大主题将带你共同开拓科技的无限可能! 欢迎扫描文末二维码,注册参会。这场大咖云集的科研盛会你不容错过! 主题演讲:科学发现的第五范式 时间:10月18日, 9:00 - 10:00 在这个主题演讲中,微软技术院士、微软研究院科学智能中心负责人 Chris Bishop 将与微软研究院的同事和合作者一起探讨深度学习将如何对科学产生变革性影响,包括药物发现和材料设计的潜在应用。 主题演讲:行星级计算的新基础...
over 2 years ago
当前,我们正在经历一波又一波计算机技术的突破,这些突破几乎改变了我们生活的方方面面。人工智能让我们的开发和创造方式产生了变革,人类语言技术彻底改变了医疗专业人员的工作流程,深度学习加速了我们理解和预测从原子到星系规模的自然现象的能力。与此同时,云计算的基础也在历经着一场彻头彻尾的重塑。 要让这些新的技术突破对社会发展有所裨益,就需要全球科研界以一种全新的方式连接到一起。从高度理论到即时可用,发明和创新的活力越来越多地体现在传统研究学科之间的交叉点上。要确保科技的持续发展可以让每一个人受益,需要创造新技术和使用新技术来改善生活的群体充分沟通、合作,并且共同创新。 因此,微软研究院诚挚地邀请大家参加今年的微软研究峰会,峰会将于2022年10月18日至20日在线举行。来自全球的科研人员将汇聚于此,共同探索新兴研究将如何更好地应对社会挑战,并在未来对我们的生活产生重大影响。微软研究峰会2022将有超过120位分享者,包括来自微软的研究人员和领导者,以及推动计算机和各个科学领域发展的来自产业界、学术界和政府的合作伙伴。 https://www.msra.cn/wp-content/uploads/2022/09/research-summit-2022-register-video.mp4 在为期三天的微软研究峰会2022中,每天我们???将以一个主题演讲开启并展开深入讨论,包括探讨深度学习对科学发现的潜在影响;如何利用技术使医疗更精准、更普惠;基础技术的发展如何使未来的云计算成为可能。从更高效、适应性更强的人工智能,到赋能人类创造力和助力可持续社会发展的技术,这些主题演讲和专题将引领我们进行深入探究。 欲了解更多详情,欢迎访问微软研究峰会2022网站,并注册参会!希望你能加入我们! 本文作者:Ashley Llorens,微软研究院副总裁、微软杰出首席科学家
over 2 years ago
编者按:如今在各种社交网络平台上发布的视频,因拍摄便捷、可实时分享、互动交流等特点而深受大众喜爱。视频深刻影响和改变了人们观察世界、记录生活和表达情感的方式。然而,现在市面上许多视频或音频剪辑软件为了满足用户需求尽管拥有丰富的功能,但操作却很复杂,很多简单的剪辑任务都还需要在软件中逐帧对照确定剪切时间点。对于以语音为主要背景声音的视频,如线上会议录像、演示视频、vlog 等,如果我们能通过编辑文本的形式,直接编辑音视频中的语音内容,让音视频的编辑自动根据文本完成,那么将大大降低音视频的编辑难度,提高创作者的效率。为此,微软亚洲研究院的研究员们研发了一个基于文本的语音编辑系统。本文将详细介绍这个基于文本的语音编辑系统和研究员们研发的语音合成及填充词检测技术。 无论是演示视频、教学视频、会议录像还是记录生活片段的 vlog,在很多实际的应用场景中,人们常常需要重新录制语音(视频)或对语音(视频)进行编辑。因为拍摄的素材中往往会存在大量停顿和脱口而出、词不达意的语句,或者是冗余的内容。但由于声音的特性,我们没有办法在录音底本的基础上去修改字词,只能一帧一帧在剪辑上下功夫,因此声音的剪辑工作繁琐又充满挑战。如果拥有一个基于文本的语音编辑系统,可以通过直接编辑语音对应的文本,完成对语音(视频)的编辑,那么普通用户也能成为一个有创意的剪辑师,把一段冗杂的音视频变得清晰、自然又专业。 市场上现在已经有一些类似的产品或相关的研究工作,但都有一些限制:有的研究工作可以根据文本合成匹配上下文的语音,但是必须是模型训练过程中学习过的音色;有的产品想合成定制化的声音,比如用户自己的音色,但需要用户准备至少10分钟的声音,并将声音上传,然后再等待2-24小时,通过后台对声音进行训练之后,软件才可以合成定制化的声音。这些限制无疑都给基于文本的语音编辑在现实中的使用带来了极大的不便。为此,微软亚洲研究院的研究员们研发了一个基于文本的语音编辑系统,来解决这些技术难点??? 技术难点 在以语音为主的音视频中,语音中的内容和文本有着时间上的一一对应。研究员们发现,若要让基于文本的语音编辑系统可以直接编辑文本,再根据语音和文本的对应关系自动完成语音的编辑,需要着重关注以下技术要点: 图1:语音和文本的对应关系 1. 自动语音识别:如果语音不是按照已有脚本读的,那就没有文本信息,需要 ASR(自动语音识别)来识别得到文本,现有的 ASR...
over 2 years ago
你心中的老师是什么样的? 或许是在你懒惰懈怠时在旁鞭策的严师;或许是在你失意迷茫时指引方向的恩师;或许也是和你一起玩闹的朋友;或许还是带你成长的引路人。 每一个学生心中都有对自己老师的“独家记忆”。 曾经读到过这样一句话:对于老师来说,每一位学生可能是他们漫长职业生涯中的 “千分之一”,但是对于学生来说,每一位老师都是自己不同成长阶段里的 “唯一”。 过去,我们习惯了聆听老师对我们的指导和教诲,却很少主动向老师表达我们心中的感谢。所以今年我们尝试转换视角,让微软亚洲研究院的8位实习生同学,向我们描述他们心中的那位老师,分享他们和老师之间的“独家记忆”。祝所有老师,教师节+中秋节,双节快乐! 这一次 老师,请您听我说 01 廖佳怡: 中国科学技术大学大四...
over 2 years ago
编者按:近年来,基础模型(foundation models,也被称为预训练模型)的研究从技术层面逐渐趋向于大一统(the big convergence),不同人工智能领域(例如自然语言处理、计算机视觉、语音处理、多模态等)的基础模型从技术上都依赖三个方面:一是 Transformers 成为不同领域和问题的通用神经网络架构和建模方式,二是生成式预训练(generative pre-training)成为最重要的自监督学习方法和训练目标,三是数据和模型参数的规模化(scaling up)进一步释放基础模型的潜力。 技术和模型的统一将会使得 AI 模型逐步标准化、规模化,从而为大范围产业化提供基础和可能。通过云部署和云端协作,AI 将有可能真正成为像水和电一样的“新基建”赋能各行各业,并进一步催生颠覆性的应用场景和商业模式。...
over 2 years ago
编者按:科研之路并非繁花似锦,很多时候是在一条没有脚印的道路上探索未知。科研之路应该怎么走?如何抓住机遇实现转弯?微软亚洲研究院主管研究员邓攀在以《人生的“贪心”算法》为题的演讲中,分享了自己从本科毕业到现在一路走来的经历与收获。从生物跨界到计算机,邓攀是如何做到“内心有谱,丝毫不慌”的?遇到机会,她又是如何竭尽全力把握住每一个可能的?一起来看邓攀怎样编写了自己人生的“贪心”算法吧! 点击“阅读原文”或在以下地址可观看邓攀的分享视频: https://www.bilibili.com/video/BV1Rv4y1K7AE 大家好,我是邓攀。我本科就读于清华大学生命学院,期间进行的是生殖干细胞相关的研究。博士的研究方向是线粒体,研究细胞的能量中心在各种毒性损伤下的应激反应。现在,我是微软亚洲研究院的一名研究员。 有时候我自己都会诧异:我一个学生物的,怎么就来了微软呢?我来了微软,怎么还在做生物呢?我是怎么做到这么酷的事情的呢? 话说回来,我现在确实是在做着自己非常喜欢的事情。今天,我将和大家分享我一路走来的经历与收获。 我的分享主题是《人生的“贪心”算法》——回顾自己从本科毕业到现在的十年历程,“贪心”的思想真是精确描述了我的每一步选择。 做实验和写代码,我全都要 故事开始于 2012 年,是我抵达纽约、开始博士学习的第一年。 我们研究生院有“轮转”制度,每个新入学的博士生在第一年的时候都可以选择...
almost 3 years ago
编者按:从1992年到2022年,微软扎根中国30年,与中国的信息产业共同发展壮大。而伴随着微软在中国的不断成长,微软亚洲研究院也已发展成为具有世界级影响力的计算机基础和应用研究机构。能够取得这样的成绩,除了微软亚洲研究院一直对科研秉持“长期主义”、持续创新突破外,也离不开与全球顶级高校、科研机构及企业的合作。其中,微软亚洲研究院与中国计算机学会(CCF)的合作已有十六载,双方不断推动领域内的交流合作,营造新型健康的学术生态体系,一起见证了中国科技行业的繁荣。 2022年是中国计算机学会(CCF)创建60周年。就在刚刚过去的这个周末(8月6日),CCF举办了60周年庆典活动。微软亚洲研究院常务副院长张冬梅代表微软亚洲研究院在庆典活动的重头环节,接受了“CCF创建60周年杰出贡献奖”的奖杯和证书。这一奖项旨在表彰过去60年在CCF的创建与发展过程中为 CCF各级各类工作机构和重要项目及关键事项做出杰出贡献的个人和单位。微软亚洲研究院能够获此殊荣,不仅代表了CCF对微软亚洲研究院过去十六年良好合作关系与大力支持的认可,也更加坚定了微软亚洲研究院与CCF携手共创计算机事业美好未来的信念与决心。 微软亚洲研究院常务副院长张冬梅(右二)代表微软亚洲研究院在 CCF 创建60周年庆典上领奖 中国计算机学会理事长梅宏表示,“近20年来,CCF 高速发展,在国际化发展战略的指导下,与多家国际知名学术机构建立战略合作伙伴关系,拓宽学会发展空间。其中,非常感谢微软亚洲研究院过去十六年的大力支持,与 CCF 一起探索创新之路,为科技发展贡献力量。” 微软亚洲研究院院长周礼栋表示,“非常荣幸微软亚洲研究院与中国计算机学会基于一致的理念,共同予力计算机领域青年学者的成长与发展。作为一家有着国际化背景的企业研究院,微软亚洲研究院非常期待能够一如既往地与 CCF...
almost 3 years ago
编者按:近年来,越来越多的实践证明,AI 是一项可以用于发现规律的关键技术,除了工程技术领域,AI 也为自然科学提供了新的科学发现工具。科学家们利用 AI 技术、基于大量高通量数据分析,不仅能加速实验进程,甚至还可以从数据中总结和发现尚未被人类知晓的科学规律。微软亚洲研究院很早就看到了这一趋势,并在过去几年中,陆续开展了 AI+生物学、AI+环境科学、AI+物理学等方向的研究。 近日,微软亚洲研究院邀请了中国科学院半导体研究所首席科学家、北京龙讯旷腾公司首席科学顾问汪林望教授,就“高性能大规模原子材料模拟的挑战与机遇”等话题进行了分享,并与微软亚洲研究院副院长、微软研究院科学智能中心亚洲团队负责人、微软杰出首席科学家刘铁岩博士展开了深入对话。汪林望教授在材料科学领域深耕近30年,对大规模电子结构计算、密度泛函理论(DFT)、第一性原理计算的研究有着深厚的经验。此次对话中,汪教授深度解析了当前材料领域研究技术的发展现状、面临的挑战、存在的问题,以及 AI 技术在材料科学中的应用方向和待解决的问题。希望这场与材料科学领域专家的精彩对话,可以为 AI 探索更多自然科学领域带来新的灵感。 刘铁岩:汪教授在材料学领域已深耕近三十年,包括对密度泛函理论...
almost 3 years ago
编者按:随着科学技术的飞速发展,数据资源呈现海量化、多元化的特征,但人们的生活也面临着信息冗余和过载的问题。如何在网购时挑选到心仪的商品?如何在出行中找到吃喝玩乐的推荐?如何在纷繁的资讯中找到感兴趣的内容…… 在大数据时代,人们日常的工作休闲都离不开推荐系统(Recommender Systems)的助力。 为了帮助大家更好地了解、学习推荐系统领域的相关知识,我们邀请了微软亚洲研究院的研究员们推荐了该领域的五本“必读”书籍,其中既有推荐系统的概念、经典算法等基础知识,也包括了推荐系统在不同领域的具体应用,希望能够对大家在深度学习时代的推荐系统研究和实践带来启发。 Recommender Systems: An introduction 中文版:《推荐系统》 作者:Diermar Jannach, Markus...
almost 3 years ago
编者按:你是否有过图像检索的烦恼?或是难以在海量化的图像中准确地找到所需图像,或是在基于文本的检索中得到差强人意的结果。对于这个难题,微软亚洲研究院和微软云计算与人工智能事业部的研究人员对轻量化视觉模型进行了深入研究,并提出了一系列视觉预训练模型的设计和压缩方法,实现了视觉 Transformer 的轻量化部署需求。目前该方法和模型已成功应用于微软必应搜索引擎,实现了百亿图片的精准、快速推理和检索。本文将深入讲解轻量化视觉预训练模型的发展、关键技术、应用和潜力,以及未来的机遇和挑战,希望大家可以更好地了解轻量化视觉预训练领域,共同推进相关技术的发展。 近来,基于 Transformer 的视觉预训练模型在诸多计算机视觉任务上都取得了优越性能,受到了广泛关注。然而,视觉 Transformer 预训练模型通常参数量大、复杂度高,制约了其在实际应用中的部署和使用,尤其是在资源受限的设备中或者对实时性要求很高的场景中。因此,视觉预训练大模型的“轻量化”研究成为了学术界和工业界关注的新热点。 对此,微软亚洲研究院和微软云计算与人工智能事业部的研究员们在视觉大模型的结构设计和训练推断上进行了深入探索,同时还对大模型的轻量化、实时性以及云端部署也做了创新应用。本文将从轻量化视觉预训练模型的发展谈起,探讨模型轻量化研究中的关键技术,以及轻量化视觉 Transformer 模型在实际产品中的应用和潜力,最后展望轻量化视觉模型的未来发展机遇和挑战。 视觉大模型层出不穷,轻量化预训练模型却乏人问津...
almost 3 years ago
编者按:企业数字化转型中,以文档、图像等多模态形式为载体的结构化分析和内容提取是其中的关键一环,快速、自动、精准地处理包括合同、票据、报告等信息,对提升现代企业生产效率至关重要。因此,文档智能技术应运而生。过去几年,微软亚洲研究院推出了通用文档理解预训练 LayoutLM 系列研究成果,并不断优化模型对文档中文本、布局和视觉信息的预训练性能。近期发表的最新的 LayoutLM 3.0 版本,在以文本和图像为中心的任务上有了更加出色的表现,让文档理解模型向跨模态对齐迈出一大步! 随着各行各业的数字化转型,涵盖表单、票据、邮件、合同、报告、论文等的电子文档数量持续增长。电子文档包含大量与行业相关的图像和文本信息,人工处理这些大量的信息耗时长、成本大。电子文档的自动识别、理解和分析技术对提高个人或企业的生产力十分重要,因此文档智能技术应运而生。文档智能利用计算机自动识别、理解及分析电子文档,大大提升了个人和企业处理电子文档的生产力,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。 图1:文档智能任务示例:表单理解、文档布局分析 虽然为特定任务设计的深度学习方法针对某一项文档理解任务能取得较好的性能,但这些方法通常依赖于有限的标注数据,而对于文档理解任务尤其是其中的信息抽取任务来说,获取详细的标注数据昂贵且耗时。为此,微软亚洲研究院的研究人员将目光转向了那些被忽视的无标注数据上,通过自监督预训练技术来利用现实生活中大量的无标注数据。由于近年来预训练在深度学习领域被广泛应用,所以该技术???文档智能领域也取得了显著进展。经过预训练的文档智能模型可以解析并提取文档的各类信息,这对文档智能的学术研究和生产应用都有重要意义。 LayoutLMv3:距离文档理解跨模态对齐又进一步 现实生活中的文档不仅有大量的文本信息,同时也包含丰富的布局和视觉信息,并且这三种模态在文档中有天然的对齐特性。如何对这些文档进行建模并且通过训练达到跨模态对齐是一个重要的研究课题。对此,微软亚洲研究院在文档智能领域进行了诸多探索,推出了通用文档理解预训练 LayoutLM...