AI大模型专业术语

发表于 2025/02/20

作者 MasterKe

阅读量 1000000 13 分钟阅读

AI大模型专业术语

蒸馏：DeepSeek提供的1.5B~70B的小参数R1模型是通过”蒸馏”产生的。蒸馏是一个知识迁移的过程，以其他开源模型(如qwen、llama)作为基座，用DeepSeek-R1大模型对这些模型进行训练，让这些参数较小的模型学习R1的生成结果、思考过程等，在显著降低模型参数规模的同时能保留一定的性能和精度。

量化：量化是大模型领域中的一项关键技术，它通过降低模型参数的精度，将浮点数转换为整数或定点数，从而实现模型的压缩和优化。这样做的主要目的是减少模型的存储需求、加快推理速度，并降低模型的计算复杂度，使得大模型能够更高效地在资源受限的设备上运行，例如移动设备、嵌入式系统等场景。

入门

最近在捣鼓深度学习，今天突然开窍，对于大模型、上千亿参数的理解顿悟了，所以才有了这篇文章。

一个通俗易懂的模型举例

先用一个最简单的例子来说明，例如身高和体重之间是有一定对应的关系的。

如果我们有了非常多身高与体重对应关系的数据，我们就可以运用这些数据得到二元一次方程函数：

y=ax+by = ax + by=ax+b

这里 aaa 和 bbb 是常数，经过对方程求解，我们是可以得出 aaa、 bbb 的具体数值。

之后只要输入一个代表 xxx 的身高，就可以得出一个代表体重的 yyy 值，当然这个 yyy 值不是精确的，是一个预测值。

以上就是一个最简单的机器学习模型，即线性回归，这里的 aaa、 bbb 就是模型的参数，但是它太简单，一共就2个参数，所以其能力也必然非常有限。

从编程的角度理解怎么运行模型

每一个模型都是在解决某一方面的问题，上边的例子中我们可以看出，这是一个预测体重的数据模型，要解决的问题是，我输入一个身高，会给我一个预测的体重。

我们要运行使用这个模型，从编程的角度大致可以理解：

加载模型文件：其实模型文件里面记录的就是 aaa、bbb 的值，所以有些模型文件是json格式，加载模型的伪代码如下：

        
      
js 代码解读复制代码function loadModule(moduleFile){
    let str = fs.readFile(moduleFile)
    let obj = JSON.parse(str)
    // 本质上我们就是为了拿到a、b
    let a = obj.a; 
    let b = obj.b;
}

运行模型的神经网络架构，模型的参数 aaa、bbb 是运行在这个神经网络里面的，其实也就是把这个公式：

y=ax+by = ax + by=ax+b

用代码实现出来：
1 2 3 4 5 6 js 代码解读复制代码function net(x){ // 这里的a、b来自第一步 let a = 1; let b = 2; return a * x + b; }
这样经过net函数的计算，就得到了一个预测的结果，从使用者角度来说，我们已经拿到了想要的结果。

模型参数 aaa、bbb 怎么来的

你可能还有一个疑问，模型文件里面记录的是参数 aaa、bbb ，那它们怎么来的？

答案是他们是经过训练得到的，什么意思呢？

举个例子，我们已经知道模型的函数如下，这个函数其实是解释了xxx、 yyy之间的关系：

y=ax+by = ax + by=ax+b

最开始我们肯定不知道 aaa、bbb 的具体值，所以我们才需要通过训练找到 aaa、bbb 的值。

训练的过程如下：

将第一组采样数据传递给这个函数，比如身高170，体重60，很明显，一组采样数据得不到 aaa、bbb 结果，因为 aaa、bbb 有很多个解能够使这个函数成立，但是这一步我们还是需要确定来一个满足采样数据的 aaa、bbb 解，即使 aaa、bbb 的解存在非常多个。
将第二组采样数据传递给这个函数，比如身高160，体重50，很明显，两组数据就能求解 aaa、bbb ，因为一组二元一次方程就能求解方程中的2个未知数，这就不需要再解释为什么吧，小学的数学知识。

至此，我们已经求解出 aaa、bbb，我们将aaa、bbb的值以某种格式保存起来，然后别人使用这个模型的时候，加载这个文件即可，和上一步的流程形成了闭环。

为什么叫做深度学习

如果我们继续将第三组采样数据传递给这个函数，就会发生问题，因为上边的方程是一个线性方程，如果训练的第三组数据不满足线性，那么我们就无法求解aaa、bbb，因为二元一次方程无法同时满足3组非线性采样数据。

如果出现这种情况，有很多种解决办法：

修改模型函数，增加方程的未知数，很显然这种办法不具有通用性，因为我们的采样数据数量是不确定的。
增加模型函数的深度，即增加调用层数，用代码说可能比较直观
1 2 3 4 5 js 代码解读复制代码let deep = 10; let result = x; for(int i = 0; i < deep; i++){ result = net(result) // 还记得之前的net函数的实现么？ }
将上一层的计算结果作为当前的参数进行计算，重复这个过程，直到最后一层，这个过程就像剥洋葱一样，我想这也是为啥叫做深度学习的原因吧

到这里，我们也能理解为啥会产生多层神经网络了。

对智能涌现的思考

模型的预测结果什么样子，完全取决于训练的数据。

实际生活中，我们的采样数据一般都不是线性的，经过我们的训练，训练数据的输入和输出最终都会落在我们设计的神经网络，当我们传递一个新的数据时，当然结果也是落在那条拟合曲线里面。

这里就又牵扯智能涌现，大概就是说当神经网络足够复杂（意思就是参数足够多），结果有时候不会落在这个拟合曲线里面，这里就不展开了，因为我也是门外汉。

神经元为什么是y=ax+b

深度学习就像洋葱一样，一层又一层，每一层我们都可以看做一个单元，有点神经元的感觉，我们再仔细观察下这个方程：

y=ax+by = ax + by=ax+b

这里的 aaa 非常像权重（通俗点说就是占比），bbb 非常像偏置（通俗点说就是偏移），作为一个基础单元，它足够简单却又不失灵活。

就像乐高积木一样，每一块的设计都是非常类似，而且结构简单，但是却能相互连接成网，堆叠成层，组合出非常神奇的作品。

虽然神经元y=ax+b非常简单，这一层虽然只有2个参数，当我们层数非常多的时候，参数都是翻倍增长。

可以大概的说，参数越多，模型的表征能力就越强，包含的知识就越多。

不过你可能发现了输出的结果是一个数值，而我们使用chat-gpt的时候，反馈的结果是自然语言，这里面就牵扯到了自然语言模型，对自然语言的转换，其背后原理是transformer，也是深度学习的结果，不太懂，这里就不再细聊了。

模型里面都存储了什么，能力越强为啥模型文件越大

看到这里，相信你也就知道这个问题的答案了

因为模型里面存储的是参数，模型越强悍，模型的参数越多，保存这些参数的文件就越大，模型也就越大。

按照我的理解，参数越多，模型的网络层级就越复杂，消耗的计算资源就越多。

像我们最开始举例的模型，模型文件就2个参数，模型文件估计也就1k，当然能干的事情也非常少！

希望这篇文章能够让你对深度学习有所了解，以上是我个人理解，肯定有错误的理解，欢迎指正，相互交流。

作者：xu__yanfeng 链接：https://juejin.cn/post/7231018408627814457 来源：稀土掘金著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

NOTES

本文由作者按照 CC BY 4.0 进行授权

入门

一个通俗易懂的模型举例

从编程的角度理解怎么运行模型

模型参数 aaa、bbb 怎么来的

为什么叫做深度学习

对智能涌现的思考

神经元为什么是y=ax+b

模型里面都存储了什么，能力越强为啥模型文件越大

热门标签