Everything you care about in one place

Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.

Get Feeder

52nlp.cn

我爱自然语言处理

Get the latest updates from 我爱自然语言处理 directly as they happen.

Follow now 32 followers

Latest posts

Last updated 4 days ago

MiniMax-M1:闪电注意力重塑大模型推理效率,百万上下文时代来临,附技术报告英中对照版

4 days ago

一、核心创新:闪电注意力 + 混合架构 1. 闪电注意力(Lightning Attention) 问题根源:传统Transformer的Softmax注意力存在O(n²)计算复杂度,限制长文本处理能力(如DeepSeek-R1仅支持128K上下文)。 解决方案: 采用线性注意力变体(Qin et al.),通过核函数近似Softmax,将复杂度降至O(n)。 I/O感知优化:减少GPU内存读写次数,实测生成100K...

Mistral Magistral:纯强化学习炼就的推理引擎,颠覆LLM训练范式

26 days ago

无需蒸馏、抛弃SFT,Mistral用纯强化学习在数学与代码推理任务上实现50%性能飞跃 近日,Mistral AI发布了其首个纯强化学习训练的推理模型系列Magistral,并开源24B参数版本Magistral Small。这份技术报告揭示了其革命性的训练框架,不仅挑战了当前主流RLHF范式,更在多语言推理、跨模态泛化等方面带来突破性发现。本文将深入解析其技术脉络。 一、核心创新:纯RL训练框架 与传统RLHF依赖监督微调(SFT)蒸馏不同,Magistral采用完全从零开始的强化学习路径: 基础模型:基于Mistral Medium 3(数学/代码推理)和Small 3(轻量版) 训练方式:仅用强化学习(RL)优化,跳过任何预训练推理轨迹的蒸馏步骤 关键优势:避免教师模型偏差,直接探索模型原生推理能力...

小红书dots.llm1:重新定义MoE效率边界,14B激活参数挑战72B密集模型极限

26 days ago

核心突破:极简激活的超级大脑 142B总参数 | 14B动态激活(每token激活6个专家+2个共享专家) 性能对标:Qwen2.5-72B、DeepSeek-V3等顶级模型 训练成本仅1/4:11.2T token预训练耗用146万GPU小时(Qwen2.5-72B需612万小时) 推理经济性:单节点8张GPU(40/80GB)即可部署  MoE架构精要: 128路由专家 + 2共享专家(SwiGLU激活的细粒度FFN)...

Qwen3 Embedding 技术解析:多语言文本嵌入与重排序的新标杆

about 1 month ago

阿里巴巴通义实验室发布的 Qwen3 Embedding 系列模型在文本嵌入(Embedding)和重排序(Reranking)任务上实现了重大突破。本文深入解读其核心技术、创新点及性能表现。 一、核心目标与背景 文本嵌入(将文本转化为稠密向量)和重排序(对检索结果进行精细化排序)是信息检索、RAG(检索增强生成)和智能体系统的基石。随着大语言模型(LLM)的发展,传统方法(如基于BERT的编码器)面临多语言支持弱、指令泛化能力差、专业领域(如代码)表现不足等问题。Qwen3 Embedding 系列旨在解决这些痛点,提供高效且强大的开源解决方案。 二、模型架构设计 1. 基础架构 骨干网络:基于...

解密小米MiMo-VL:7B小模型如何实现多模态SOTA性能

about 1 month ago

近日,小米开源社区发布了MiMo-VL-7B视觉语言模型技术报告,其SFT(监督微调)和RL(强化学习)版本在40多项多模态任务评测中表现惊艳,尤其在复杂推理和GUI交互领域刷新了开源模型记录。本文将深入解析其核心技术方案。 一、核心架构设计 MiMo-VL采用经典的三模块架构: 视觉编码器:基于Qwen2.5-ViT,支持原生分辨率输入保留细节 跨模态投影层:MLP结构实现视觉-语言特征对齐 语言模型:小米自研MiMo-7B基础模型,专为复杂推理优化 图:模型架构示意图(来源:技术报告Figure 2) 二、四阶段预训练策略(2.4万亿Token) 阶段目标关键数据序列长度1投影层预热图文对8K2视觉-语言对齐图文交错数据8K3多模态预训练OCR/视频/GUI/推理数据8K4长上下文SFT高分辨率图像/长文档/长推理链32K 核心突破:在阶段4注入合成推理数据(含长思维链),使模型在MMMU任务响应长度从680 token跃升至2.5K...

QwenLong-L1:通过强化学习实现长上下文推理的大模型飞跃

about 1 month ago

近年来,大型推理模型(Large Reasoning Models, LRMs)在数学、编程和逻辑推理等任务中展现了接近人类专家的能力。然而,短上下文推理任务的优势能否扩展到长上下文场景(如处理数万token的文档问答)仍是一个关键挑战。阿里巴巴团队提出的QwenLong-L1框架,通过强化学习(RL)和渐进式上下文扩展策略,首次在长上下文推理任务中实现突破性性能。本文将从技术背景、方法创新、实验结果和实际案例等方面解析这一研究成果。 一、长上下文推理的挑战与解决方案 1.1 问题背景:短上下文与长上下文推理的本质差异 传统LRMs(如GPT-4、Claude等)的RL优化主要针对短上下文任务(如4K token内的数学题),其依赖模型内部参数知识生成推理链。然而,长上下文推理(如120K token的金融报告分析)需要模型从外部长文本中检索信息并逐步整合,这对训练效率和稳定性提出了更高要求。实验发现,长上下文RL训练存在两大核心问题: 训练效率低下:奖励收敛延迟,输出熵降低导致探索不足。 优化过程不稳定:KL散度波动剧烈,长输出序列引入方差放大效应。...

英伟达选择阿里千问背后的技术逻辑:中国开源大模型的全球崛起

about 2 months ago

英伟达前几天开源代码推理模型 OpenCodeReasoning(OCR)时,一个细节引发全球AI社区关注——其7B/14B/32B全系模型均基于阿里通义千问(Qwen2.5)微调。模型仅通过SFT训练,在 LiveCodeBench 和 CodeContests 测试基准上实现了先进的性能,超越了使用强化学习训练的替代方案。另外在LiveCodeBench评测中,OCR-Qwen-32B 以61.8% pass@1 的成绩超越OpenAI闭源模型O3-Mini: 比较有意思的是,英伟达团队并没有选择自己的基座模型 Nemotron, 而是选择了来自中国的千问???列模型,这并非孤例:...

深度解析DeepSeek-V3:硬件与模型协同设计如何突破LLM规模化瓶颈

about 2 months ago

就在今天,梁文锋署名DeepSeek新论文的刚刚放出,以下是该论文的解读和英中对照版,仅供学习参考: 近年来,大型语言模型(LLMs)的规模呈指数级增长,从GPT-4、LLaMA到Gemini,模型参数量已突破千亿级别。然而,这种增长也暴露出当前硬件架构的局限性:内存墙(Memory Wall)、计算效率瓶颈和通信带宽不足。如何在有限的硬件资源下实现高效训练和推理,成为学术界与工业界共同关注的焦点。 DeepSeek团队在论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware...

Qwen3技术解析:开源大模型的新标杆,附Qwen3技术报告英中对照版

about 2 months ago

近年来,大型语言模型(LLM)在通用人工智能(AGI)领域持续突破,而开源社区的贡献正不断缩小与闭源模型的差距。由Qwen团队推出的Qwen3系列模型,以其创新的架构设计、高效的多语言支持和卓越的性能表现,成为当前开源大模型领域的焦点。本文将从技术角度解析Qwen3的核心亮点及其背后的设计哲学。 一、Qwen3的核心创新 1. 动态思维模式:推理与响应的灵活切换 Qwen3首次将思考模式(Thinking Mode)和非思考模式(Non-Thinking Mode)整合到同一模型中。 思考模式适用于需要多步推理的复杂任务(如数学证明、代码调试),模型会生成详细的中间推理过程。 非思考模式则针对即时响应场景(如聊天、简单问答),直接输出最终结果,显著降低延迟。用户可通过在输入中添加/think或/no_think标签动态切换模式,甚至设置思考预算(Thinking Budget)以控制推理深度,平衡性能与计算成本。 2. 混合专家(MoE)架构的优化...

Llama-Nemotron:高效推理大模型的技术突破与应用前景

2 months ago

近年来,大型语言模型(LLM)在复杂推理任务(如数学解题、代码生成、科学问答)上的表现突飞猛进。然而,推理效率和用户控制能力逐渐成为制约模型实际落地的核心挑战。针对这一痛点,NVIDIA 近期发布了 Llama-Nemotron 系列模型,以开放许可、高效推理和动态控制为核心卖点,在性能与效率之间实现了新的平衡。本文将深入解析这一技术报告,揭示其背后的技术革新与应用潜力。 一、核心亮点:为什么关注 Llama-Nemotron? 1. 动态推理切换:按需调整模型行为 用户只需在输入中添加 "detailed thinking on/off"...

DeepSeek-Prover-V2:形式化数学推理的范式突破

2 months ago

一、引言:形式化定理证明的困境与机遇 在数学研究的圣殿中,形式化定理证明始终扮演着"终极验证者"的角色。从欧几里得的《几何原本》到现代数学的ZFC公理体系,严格的形式化证明始终是数学真理的基石。然而,这一过程长期面临两大挑战: 人类认知瓶颈:数学家需要将直觉性思维转化为符号逻辑系统(如Lean/Coq)的严格推导,这种"思维编译"过程耗时且易错。 机器可解释性缺失:传统自动定理证明器依赖硬编码规则,难以处理开放域的高阶抽象推理。 DeepSeek-Prover-V2的诞生,标志着神经定理证明(Neural Theorem Proving)进入新纪元。该模型在MiniF2F-test上达到88.9%的通过率,首次在形式化推理领域逼近人类顶尖选手水平,其技术突破值得深入解析。 二、技术架构:三阶递进的智能证明引擎 2.1 递归子目标分解(Recursive Subgoal Decomposition)...

小米MiMo-7B技术报告深度解读:如何打造面向推理的高效大模型?

2 months ago

近日,小米LLM-Core团队发布了MiMo-7B技术报告,详细介绍了其专为复杂推理任务设计的大语言模型系列。该模型通过创新的预训练与后训练策略,在数学、编程及通用推理任务中表现卓越,甚至超越参数量更大的主流模型。本文将深入解析其核心技术,探讨其设计思路与性能优势。 核心亮点速览 推理潜力爆发:7B参数的MiMo-7B-Base在数学与编程任务中超越32B量级模型。 两阶段优化:预训练阶段通过数据优化与多令牌预测(MTP)强化基础能力,后训练阶段基于强化学习(RL)实现精准调优。 高效基础设施:无缝滚动引擎将训练速度提升2.29倍,验证速度提升1.96倍。 开源共享:完整模型检查点(Base、SFT、RL)已开源,推动社区研究。 预训练:为推理而生的数据与架构设计 1. 数据优化:密度与多样性并重 高质量数据提取:开发专用HTML解析工具,保留数学公式与代码片段,提升推理模式密度。 三阶段混合策略: 阶段1:平衡数据分布,过滤低质量内容(如广告、新闻),提升专业领域数据权重。...