Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.
Get Feeder52nlp.cn
Get the latest updates from directly as they happen.
Follow now 69 followers
Last updated 28 days ago
30 days ago
What Makes Modern Online Casinos So Popular Online casino sites have become...
30 days ago
What Makes Modern Online Casinos So Popular Online casino sites have become...
5 months ago
Qwen3-VL 是阿里推出的最先进多模态基础模型,面向文本、图像、PDF、表格、界面(GUI)与视频的统一理解和推理任务。它具备 256K 原生上下文 的长文能力,能够跨数百页文档、完整教材、长视频进行稳定关联、定位与引用,是面向企业真实场景的全栈多模态引擎。 模型体系覆盖 2B / 4B / 8B /...
7 months ago
近年来,大语言模型在处理长文本任务中展现出强大能力,但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek-AI 最近发布了实验性模型 DeepSeek-V3.2-Exp,通过引入一种新颖的稀疏注意力机制(DeepSeek Sparse Attention, DSA),在保持模型性能的同时,显著提升了长上下文任务中的训练与推理效率。 什么是 DeepSeek Sparse Attention? DeepSeek Sparse...
8 months ago
近日,美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告,这是一款总参数量达 5600亿 的混合专家模型(Mixture-of-Experts, MoE),在保持高性能的同时,显著提升了训练与推理效率,尤其擅长处理需要多步推理和工具调用的智能体(Agent)任务。 一、核心创新:动态计算与通信优化 1. Zero-Computation Experts(零计算专家)...
9 months ago
在追求通用人工智能(AGI)的道路上,智能体能力(Agentic)、复杂推理(Reasoning) 和编程能力(Coding) 是衡量大模型综合实力的“黄金三角”。而最新开源的 GLM-4.5 系列,正是以“ARC三位一体”为目标打造的超级模型,以3550亿参数登顶全球开源模型性能前三! 一、核心突破:MoE架构 + 混合推理模式 1. 高能效设计 总参数3550亿,激活参数仅320亿(MoE稀疏激活),计算效率提升3倍 对比:参数量仅为DeepSeek-V3(6710亿)的一半,Kimi-K2(10430亿)的1/3...
9 months ago
OpenAI 发布的 gpt-oss-120b 与 gpt-oss-20b 是首批面向开源社区、同时强调“强推理+工具调用”的权重开放模型。以下从性能、安全与生态三个维度给出简评。 性能:小模型也能打• 在 AIME、GPQA 等硬核数学与科学基准上,120b 版本已逼近 o4-mini,20b...
10 months ago
1. 引言:为什么 K2 值得关注? 过去两年,大模型的竞争主线从「参数规模」转向「推理深度」再到今天的「智能体能力(Agentic Intelligence)」。Kimi K2 用一份 32 页的技术报告告诉我们:开源模型第一次在「非思考」条件下,同时在代码、数学、工具调用三大硬核基准上逼近甚至超越 Claude-4 系列。更重要的是,K2...
10 months ago
近日,Google DeepMind发布了震撼业界的Gemini 2.5系列模型技术报告,标志着大模型技术迈入全新阶段。作为谷歌迄今最强大的AI模型,Gemini 2.5 Pro不仅在传统基准测试中大幅刷新记录,更在长上下文理解、复杂推理和多模态智能体能力上实现质的飞跃。本文将深度解析这一技术里程碑的核心突破与潜在影响。 一、架构革新:从混合专家到思维引擎 Gemini 2.5系列基于稀疏混合专家模型(MoE) 架构,但进行了关键升级: 动态路由优化:通过改进token到专家的分配策略,计算效率提升40%(相比Gemini 1.5 Pro)...
10 months ago
一、从“答得好”到“做得成”:Kimi K2 的产品观跃迁 过去两年,大模型的竞争主线是知识密度(同等参数下答得更准)。Kimi K2 第一次把竞争焦点转向行动密度——在 32 B 激活 / 1 T...
10 months ago
一、核心创新:闪电注意力 + 混合架构 1. 闪电注意力(Lightning Attention) 问题根源:传统Transformer的Softmax注意力存在O(n²)计算复杂度,限制长文本处理能力(如DeepSeek-R1仅支持128K上下文)。 解决方案: 采用线性注意力变体(Qin et al.),通过核函数近似Softmax,将复杂度降至O(n)。 I/O感知优化:减少GPU内存读写次数,实测生成100K...
11 months ago
无需蒸馏、抛弃SFT,Mistral用纯强化学习在数学与代码推理任务上实现50%性能飞跃 近日,Mistral AI发布了其首个纯强化学习训练的推理模型系列Magistral,并开源24B参数版本Magistral Small。这份技术报告揭示了其革命性的训练框架,不仅挑战了当前主流RLHF范式,更在多语言推理、跨模态泛化等方面带来突破性发现。本文将深入解析其技术脉络。 一、核心创新:纯RL训练框架 与传统RLHF依赖监督微调(SFT)蒸馏不同,Magistral采用完全从零开始的强化学习路径: 基础模型:基于Mistral Medium 3(数学/代码推理)和Small 3(轻量版) 训练方式:仅用强化学习(RL)优化,跳过任何预训练推理轨迹的蒸馏步骤 关键优势:避免教师模型偏差,直接探索模型原生推理能力...