Follow | Feeder – RSS Feed Reader

← Find more feeds

52nlp.cn

Get the latest updates from directly as they happen.

Follow now 69 followers

Latest posts

Last updated 28 days ago

What Makes Modern Online Casinos So Popular

30 days ago

What Makes Modern Online Casinos So Popular Online casino sites have become...

Read full

What Makes Modern Online Casinos So Popular

30 days ago

What Makes Modern Online Casinos So Popular Online casino sites have become...

Read full

Qwen3-VL技术报告英中对照版.pdf

5 months ago

Qwen3-VL 是阿里推出的最先进多模态基础模型，面向文本、图像、PDF、表格、界面（GUI）与视频的统一理解和推理任务。它具备 256K 原生上下文的长文能力，能够跨数百页文档、完整教材、长视频进行稳定关联、定位与引用，是面向企业真实场景的全栈多模态引擎。模型体系覆盖 2B / 4B / 8B /...

Read full

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

7 months ago

近年来，大语言模型在处理长文本任务中展现出强大能力，但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek-AI 最近发布了实验性模型 DeepSeek-V3.2-Exp，通过引入一种新颖的稀疏注意力机制（DeepSeek Sparse Attention, DSA），在保持模型性能的同时，显著提升了长上下文任务中的训练与推理效率。什么是 DeepSeek Sparse Attention？ DeepSeek Sparse...

Read full

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

8 months ago

近日，美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告，这是一款总参数量达 5600亿的混合专家模型（Mixture-of-Experts, MoE），在保持高性能的同时，显著提升了训练与推理效率，尤其擅长处理需要多步推理和工具调用的智能体（Agent）任务。一、核心创新：动态计算与通信优化 1. Zero-Computation Experts（零计算专家）...

Read full

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

9 months ago

在追求通用人工智能（AGI）的道路上，智能体能力（Agentic）、复杂推理（Reasoning）和编程能力（Coding）是衡量大模型综合实力的“黄金三角”。而最新开源的 GLM-4.5 系列，正是以“ARC三位一体”为目标打造的超级模型，以3550亿参数登顶全球开源模型性能前三！一、核心突破：MoE架构 + 混合推理模式 1. 高能效设计总参数3550亿，激活参数仅320亿（MoE稀疏激活），计算效率提升3倍对比：参数量仅为DeepSeek-V3（6710亿）的一半，Kimi-K2（10430亿）的1/3...

Read full

OpenAI gpt-oss-120b & gpt-oss-20b 模型技术报告英中对照版

9 months ago

OpenAI 发布的 gpt-oss-120b 与 gpt-oss-20b 是首批面向开源社区、同时强调“强推理+工具调用”的权重开放模型。以下从性能、安全与生态三个维度给出简评。性能：小模型也能打• 在 AIME、GPQA 等硬核数学与科学基准上，120b 版本已逼近 o4-mini，20b...

Read full

从万亿参数到智能体：Kimi K2 技术报告全景解读

10 months ago

1. 引言：为什么 K2 值得关注？过去两年，大模型的竞争主线从「参数规模」转向「推理深度」再到今天的「智能体能力（Agentic Intelligence）」。Kimi K2 用一份 32 页的技术报告告诉我们：开源模型第一次在「非思考」条件下，同时在代码、数学、工具调用三大硬核基准上逼近甚至超越 Claude-4 系列。更重要的是，K2...

Read full

解码Google Gemini 2.5：推理、多模态与智能体能力的革命性突破

10 months ago

近日，Google DeepMind发布了震撼业界的Gemini 2.5系列模型技术报告，标志着大模型技术迈入全新阶段。作为谷歌迄今最强大的AI模型，Gemini 2.5 Pro不仅在传统基准测试中大幅刷新记录，更在长上下文理解、复杂推理和多模态智能体能力上实现质的飞跃。本文将深度解析这一技术里程碑的核心突破与潜在影响。一、架构革新：从混合专家到思维引擎 Gemini 2.5系列基于稀疏混合专家模型（MoE）架构，但进行了关键升级：动态路由优化：通过改进token到专家的分配策略，计算效率提升40%（相比Gemini 1.5 Pro）...

Read full

深度解析Kimi K2：当 1T 参数不再只是“大”，而是“能动手”的开放智能体

10 months ago

一、从“答得好”到“做得成”：Kimi K2 的产品观跃迁过去两年，大模型的竞争主线是知识密度（同等参数下答得更准）。Kimi K2 第一次把竞争焦点转向行动密度——在 32 B 激活 / 1 T...

Read full

MiniMax-M1：闪电注意力重塑大模型推理效率，百万上下文时代来临，附技术报告英中对照版

10 months ago

一、核心创新：闪电注意力 + 混合架构 1. 闪电注意力（Lightning Attention）问题根源：传统Transformer的Softmax注意力存在O(n²)计算复杂度，限制长文本处理能力（如DeepSeek-R1仅支持128K上下文）。解决方案：采用线性注意力变体（Qin et al.），通过核函数近似Softmax，将复杂度降至O(n)。 I/O感知优化：减少GPU内存读写次数，实测生成100K...

Read full

Mistral Magistral：纯强化学习炼就的推理引擎，颠覆LLM训练范式

11 months ago

无需蒸馏、抛弃SFT，Mistral用纯强化学习在数学与代码推理任务上实现50%性能飞跃近日，Mistral AI发布了其首个纯强化学习训练的推理模型系列Magistral，并开源24B参数版本Magistral Small。这份技术报告揭示了其革命性的训练框架，不仅挑战了当前主流RLHF范式，更在多语言推理、跨模态泛化等方面带来突破性发现。本文将深入解析其技术脉络。一、核心创新：纯RL训练框架与传统RLHF依赖监督微调（SFT）蒸馏不同，Magistral采用完全从零开始的强化学习路径：基础模型：基于Mistral Medium 3（数学/代码推理）和Small 3（轻量版）训练方式：仅用强化学习（RL）优化，跳过任何预训练推理轨迹的蒸馏步骤关键优势：避免教师模型偏差，直接探索模型原生推理能力...

Read full

Or log in

Everything you care about in one place

Latest posts

What Makes Modern Online Casinos So Popular

What Makes Modern Online Casinos So Popular

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

OpenAI gpt-oss-120b & gpt-oss-20b 模型技术报告英中对照版

从万亿参数到智能体：Kimi K2 技术报告全景解读

解码Google Gemini 2.5：推理、多模态与智能体能力的革命性突破

深度解析Kimi K2：当 1T 参数不再只是“大”，而是“能动手”的开放智能体

MiniMax-M1：闪电注意力重塑大模型推理效率，百万上下文时代来临，附技术报告英中对照版

Mistral Magistral：纯强化学习炼就的推理引擎，颠覆LLM训练范式

Try Feeder for free