← Find more feeds

kexue.fm

科学空间|Scientific Spaces

Get the latest updates from 科学空间|Scientific Spaces directly as they happen.

Follow now 76 followers

Latest posts

Last updated 6 days ago

Transformer升级之路：20、MLA究竟好在哪里？

6 days ago

自从DeepSeek爆火后，它所提的Attention变体MLA（Multi-head Latent Attention）也愈发受到关注。MLA通过巧妙的设计实现了MHA与MQA的自由切换，使得模型可以根据训练和推理的不同特性（Compute-Bound or Memory-Bound）选择最佳的形式，尽可能地达到效率最大化。诚然，MLA很有效，但也有观点认为它不够优雅，所以寻找MLA替代品的努力一直存在，包括我们也有在尝试。然而，经过一段时间的实验，我们发现很多KV Cache相同甚至更大的Attention变体，最终效果都不如MLA。这一现象不禁让人深思：MLA表现如此出色，背后的关键原因究竟是什么？接下来，本文将详细介绍笔者围绕这一问题的思考过程以及相关实验结果。观察MLA提出自DeepSeek-V2，本文假设读者已经熟悉MLA，至少了解之前的博客《缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA》所介绍的内容，因此MLA自身的细节将不会过多展开。[...]

Read full

一道概率不等式：盯着它到显然成立为止！

9 days ago

前两天，QQ群里有群友抛出了一道不等式求证：简短的题目，加上“easily”的提示，让人觉得这似乎是显然成立的结果，然而提问者却表示尝试了很久仍未果。那么实际情况如何呢？是否真的是显然成立呢？初步尝试题目等价于证 \begin{equation}\sum_{i=0}^j p^i \leq \sum_{i=0}^j \left(\log\frac{1}{1-p}\right)^i/i!,\qquad p\in[0, 1)\label{eq:q}\end{equation}[...]

Read full

SVD的导数

13 days ago

SVD（Singular Value Decomposition，奇异值分解）是常见的矩阵分解算法，相信很多读者都已经对它有所了解，此前我们在《低秩近似之路（二）：SVD》也专门介绍过它。然而，读者是否想到，SVD竟然还可以求导呢？笔者刚了解到这一结论时也颇感意外，因为直觉上“分解”往往都是不可导的。但事实是，SVD在一般情况下确实可导，这意味着理论上我们可以将SVD嵌入到模型中，并用基于梯度的优化器来端到端训练。问题来了，既然SVD可导，那么它的导函数长什么样呢？接下来，我们将参考文献《Differentiating the Singular Value Decomposition》，逐步推导SVD的求导公式。推导基础假设$\boldsymbol{W}$是满秩的$n\times n$矩阵，且全体奇异值两两不等，这是比较容易讨论的情形，后面我们也会讨论哪些条件可以放宽一点。接着，我们设$\boldsymbol{W}$的SVD为： \begin{equation}\boldsymbol{W} = \boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^{\top}\end{equation}[...]

Read full

智能家居之手搓一套能接入米家的零冷水装置

17 days ago

之前在《智能家居之热水器零冷水技术原理浅析》，我们详细介绍过零冷水的原理，最后指出当时市面上只有名为“爱喜易”的设备实现了文章介绍的理想设计，笔者前两年也一直在用它。然而，笔者的该套装置最近出现了故障，加之无法接入米家，所以也不大想修了，另外“爱喜易”的新版设备也越来越贵，颇有一种“屠龙少年终成恶龙”的感觉。所以，笔者决定按照相同的原理，手搓一套能接入米家的零冷水装置，并将制作过程简要记录如下。有回水管当然，说是“手搓”，实际上只是把各种现成配件组装在一起，成为一个完整的系统。实际上理解了前文后，制作思路并不难，只不过由于非专业原因，有些配件可能大家不知道怎么搜索和购买。[...]

Read full

Transformer升级之路：19、第二类旋转位置编码

22 days ago

持续将“Transformer升级之路”系列关注到本篇的读者，想必都已经对旋转位置编码（RoPE）有所了解。简单来说，RoPE是施加在Attention的Query（$\boldsymbol{Q}$）和Key（$\boldsymbol{K}$）上的旋转变换，形式上属于绝对位置编码，但结合Attention的内积（Dot-Product）特性，能够自动实现相对位置的效果。那么，RoPE可以加在Value（$\boldsymbol{V}$）上吗？看上去不可以，因为对$\boldsymbol{V}$旋转后就不是相对位置编码了。然而事情并没有那么绝对，本文就来讨论加在$\boldsymbol{V}$上RoPE，我们可以称之为“第二类旋转位置编码”。基础回顾我们将Dot-Product Attention分解为 \begin{equation}\boldsymbol{o}_i = \sum_j a_{i,j}\boldsymbol{v}_j,\qquad a_{i,j} = \frac{e^{s_{i,j}}}{\sum\limits_j e^{s_{i,j}}},\qquad s_{i,j} =...

Read full

矩阵的有效秩（Effective Rank）

29 days ago

秩（Rank）是线性代数中的重要概念，它代表了矩阵的内在维度。然而，数学上对秩的严格定义，很多时候并不完全适用于数值计算场景，因为秩等于非零奇异值的个数，而数学上对“等于零”这件事的理解跟数值计算有所不同，数学上的“等于零”是绝对地、严格地等于零，哪怕是$10^{-100}$也是不等于零，但数值计算不一样，很多时候$10^{-10}$就可以当零看待。因此，我们希望将秩的概念推广到更符合数值计算特性的形式，这便是有效秩（Effective Rank）的概念。误差截断需要指出的是，目前学术界对有效秩并没有统一的定义，接下来我们介绍的是一些从不同角度切入来定义有效秩的思路。对于实际问题，读者可以自行选择适合的定义来使用。[...]

Read full

通过梯度近似寻找Normalization的替代品

about 1 month ago

不知道大家有没有留意到前段时间的《Transformers without Normalization》？这篇论文试图将Transformer模型中的Normalization层用一个Element-wise的运算DyT替代，以期能提高速度并保持效果。这种基础架构的主题本身自带一点吸引力，加之Kaiming He和Yann LeCun两位大佬挂名，所以这篇论文发布之时就引起了不少围观，评价也是有褒有贬。无独有偶，上周的一篇新论文《The Mathematical Relationship Between Layer Normalization and Dynamic...

Read full

MoE环游记：4、难处应当多投入

about 1 month ago

前两篇文章我们都在讨论负载均衡，其中在《MoE环游记：3、换个思路来分配》介绍Loss-Free方案时，笔者留了一个悬念：它引入的Bias项有一个冗余的自由度，这个自由度可以用来做另外有趣的事情。这篇文章我们就来讨论这件事。我们知道，MoE是为每个Token只选择最匹配的$k$个Expert来进行计算，从而在增大参数量的同时还节省了计算量。然而，当我们仔细思考就会发现，这个策略实际上有明显的可改进之处：直观来看，每个Token的难度并不一样，所以更合理的方案应该是难的Token分配更多的计算资源，简单的token分配更少的资源，这样或许能在同样有限的资源下将效果最大化。而刚才提到的Bias的额外自由度，恰好可以用来简单地实现这个目标。[...]

Read full

高阶muP：更简明但更高明的谱条件缩放

about 2 months ago

在上一篇文章《初探muP：超参数的跨模型尺度迁移规律》中，我们基于前向传播、反向传播、损失增量和特征变化的尺度不变性推导了muP（Maximal Update Parametrization）。可能对于部分读者来说，这一过程还是显得有些繁琐，但实际上它比原始论文已经明显简化。要知道，我们是在单篇文章内相对完整地介绍的muP，而muP的论文实际上是作者Tensor Programs系列论文的第5篇！不过好消息是，作者在后续的研究《A Spectral Condition for Feature Learning》中，发现了一种新的理解方式（下称“谱条件”），它比muP的原始推导和笔者的推导都更加直观和简洁，但却能得到比muP更丰富的结果，可谓muP的高阶版本，简明且不失高明的代表作。准备工作顾名思义，谱条件（Spectral Condition）跟谱范数（Spectral Norm）相关，它的出发点是谱范数的一个基本不等式： \begin{equation}\Vert\boldsymbol{x}\boldsymbol{W}\Vert_2\leq...

Read full

初探muP：超参数的跨模型尺度迁移规律

about 2 months ago

这篇文章我们来学习Maximal Update Parametrization，简称“muP”，它首先出自论文《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter...

Read full

MoE环游记：3、换个思路来分配

2 months ago

这篇文章我们继续探讨MoE的负载均衡问题。在上一篇文章《MoE环游记：2、不患寡而患不均》中，我们主要讨论了通过Aux Loss来促进负载均衡的思路。Aux Loss固然简单直观，但它也有一个明显的缺点——权重不好调——调低了无法促进均衡，调高了容易损害LM Loss，所以业界一直有寻找替代方案的尝试。本文要分享的是名为“Loss-Free”的方案，由DeepSeek在《Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts》提出。和DeepSeek众多耀眼的开源作品相比，这篇论文也许不算起眼，但在笔者看来，它潜在的学术影响力可能远超其他工作，因为所提方法不仅简单有效，而且极具普适性，堪称经典。方法大意面对负载不均衡，Aux Loss的应对思路是通过额外的损失引导Router给出均衡的打分，而Loss-Free的想法则是换个新的分配思路，即不改变Router现有打分结果，而是改变$\mathop{\text{argtop}}_k \boldsymbol{\rho}$这个分配方式。[...]

Read full

Muon续集：为什么我们选择尝试Muon？

2 months ago

本文解读一下我们最新的技术报告《Muon is Scalable for LLM Training》，里边分享了我们之前在《Muon优化器赏析：从向量到矩阵的本质跨越》介绍过的Muon优化器的一次较大规模的实践，并开源了相应的模型（我们称之为“Moonlight”，目前是一个3B/16B的MoE模型）。我们发现了一个比较惊人的结论：在我们的实验设置下，Muon相比Adam能够达到将近2倍的训练效率。优化器的工作说多不多，但说少也不少，为什么我们会选择Muon来作为新的尝试方向呢？已经调好超参的Adam优化器，怎么快速切换到Muon上进行尝试呢？模型Scale上去之后，Muon与Adam的性能效果差异如何？接下来将分享我们的思考过程。[...]

Read full

Or log in

Everything you care about in one place

科学空间|Scientific Spaces

Latest posts

Transformer升级之路：20、MLA究竟好在哪里？

一道概率不等式：盯着它到显然成立为止！

SVD的导数

智能家居之手搓一套能接入米家的零冷水装置

Transformer升级之路：19、第二类旋转位置编码

矩阵的有效秩（Effective Rank）

通过梯度近似寻找Normalization的替代品

MoE环游记：4、难处应当多投入

高阶muP：更简明但更高明的谱条件缩放

初探muP：超参数的跨模型尺度迁移规律

MoE环游记：3、换个思路来分配

Muon续集：为什么我们选择尝试Muon？

Try Feeder for free