潘禺：理解DeepSeek的中国式创新，要先回顾深度学习的历史-信息化-前沿探索网

【文/观察者网专栏作者潘禺】,深度学习，这个在科技圈的热门词汇，究竟为何让人如此着迷？它就像一个数据的探险家，借助深层神经网络（DNN）在信息的海洋中探寻奥秘。而这里的“深度”就意味着一个层层深入的学习过程，能从复杂的数据中自动提取有价值的特征，无需人类费劲心力去设计。,不论是图像识别还是自然语言处理，深度学习已经成为它们的幕后英雄。然而，当你听到GPT或Transformer的名字时，是不是总忍不住想知道它们背后的秘密？,近来在网上被热捧的中国“AI界拼多多”DeepSeek，以模型架构的创新，在性能表现出众的同时节约了显存和计算资源，证明了中国人不是只能做从1-10的应用创新，也能做从0-1的技术创新。你也许听说过其创新的架构设计，叫多头潜在注意力（MLA）机制，想粗浅理解一下这是什么意思？,这正是本文的目的——用通俗易懂的语言，心智观察所带你回顾深度学习的发展史，从感知机的萌芽到GPT的辉煌，揭开那些重要的技术突破。,从感知机到深度神经网络,让我们回到1958年，那时候，Frank Rosenblatt提出了感知机，这可是神经网络的鼻祖。感知机就像一个简单的开关，接收信号，加权计算，然后通过一个神奇的激活函数决定是开还是关。这就像是在说：“嘿，这个图像是猫还是狗？”如果信号足够强，它就会说：“是猫！”否则就是：“不是猫！”通过学习，感知机能够调整自己的权重，变得越来越聪明。,感知机的基本结构类似于生物神经元，它接收多个输入信号，并通过加权计算生成一个输出信号。每个输入代表一个特定的特征，例如图像中的像素值。每个输入都有一个与之关联的权重，感知机会将所有输入乘以相应的权重，并将结果求和。,求和后的结果通过一个激活函数，决定输出是0还是1。例如，如果和超过某个阈值，感知机输出1，表示属于某个类别；否则输出0。通过一组已标注的训练数据，感知机可以调整输入的权重，以不断优化其判断的准确性。,感知机特别适合用于处理线性可分的问题，比如简单的分类任务，例如判断一封电子邮件是“垃圾邮件”还是“正常邮件”。然而，感知机也有其局限性，它只能处理线性可分的情况，也就是说，对于一些更加复杂的非线性问题（例如某些图像识别任务），单层感知机无法得到正确的分类。,尽管感知机有其局限性，但它的提出标志着神经网络技术的开端，随后更复杂的多层神经网络得到了发展。,多层神经网络（也称为深度神经网络）通常由多个层次构成，包括输入层、隐藏层和输出层。每一层由多个神经元组成，神经元之间通过权重连接，形成一个复杂的网络结构。当输入数据通过网络时，逐层进行处理和变换，从而实现最终的输出。,到了1986年，三位大师Rumelhart、Hinton和Williams推出了反向传播（Backpropagation）算法，为训练多层神经网络开辟了新天地。这套算法的核心理念是：当模型预测错了，就通过误差信息“反向追踪”，告诉每一层网络的权重该如何调整。,

,Geoffrey Hinton ,想象一下，反向传播就像是老师在批改作业，指出学生的错误并给予具体的改进建议。它通过链式法则计算梯度，逐层调整权重，最终让模型的预测误差越来越小。,梯度计算的目的是为了找到损失函数的最小值。损失函数衡量了网络预测输出与实际输出之间的差异，优化的过程就是通过调整网络中的权重和偏差来使得损失函数的值不断降低，从而提高模型的预测性能。,反向传播算法的核心在于通过链式法则有效地计算每个参数（权重）的梯度，从而优化网络的性能。,整个过程中，在网络中输入数据，神经元通过激活函数计算输出，从输入层一路传播到输出层。预测输出与实际输出之间的误差（损失函数）被计算出来，这个误差将用于后续的权重更新。,反向传播从输出层开始，首先，计算输出层每个神经元的误差，通常使用均方误差（MSE）等损失函数来衡量。然后，通过链式法则将输出层的误差向后传播到每一个隐藏层。对每一层神经元的各个权重进行求导，计算出每个权重对应的梯度。最后，使用计算得到的梯度信息，通过优化算法（如梯度下降法），调整网络中的权重，以减小预测误差。这一过程会反复进行，直至网络收敛到一个较低的误差水平。,尽管这一算法解决了训练深层网络的技术难题，但受限于当时的计算资源和数据量，深度学习的发展仍然步履蹒跚。,梯度消失也是一个问题，随着网络层数的增加，反向传播过程中，误差的梯度可能会逐渐减小至接近零，导致权重更新变得非常缓慢，影响模型的学习效果。,卷积神经网络与循环神经网络,面对深度学习的瓶颈，科学家们开始研发针对不同任务的专用网络模型。其中，卷积神经网络（CNN）和循环神经网络（RNN）成为了两大明星。,卷积神经网络（CNN）是为了解决传统深度神经网络在处理图像数据时的效率和精度问题而提出的。CNN通过引入卷积操作，优化了网络结构，有效地解决了一系列图像处理中的挑战。,想象一下，你是一位侦探，正在分析一幅复杂的地图（例如城市的俯视图）。这幅地图包含许多细节：道路、建筑物、河流等。为了找到重要的信息，你不会一次性看完整张地图，而是使用一个“放大镜”逐步扫描地图的不同区域。,放大镜就是卷积核，放大镜是一个固定大小的工具（例如 3x3 的矩阵），你用它覆盖地图的一个小区域（感受野），捕捉局部特征（如建筑物形状或道路交叉口）。,逐步移动放大镜就是卷积操作，你会逐步移动放大镜（滑动窗口），扫描整张地图。每次移动时，你记录下当前区域的特征。每个小区域的分析结果都会形成一张“总结表”（特征图），告诉你哪些区域更重要。多层放大镜就是多层卷积，你可以用不同的放大镜（卷积核）关注不同的细节，例如一个看建筑形状，另一个看道路模式。经过多层分析后，你能更全面地理解整张地图。,与CNN不同，循环神经网络（RNN）是为了解决序列数据学习任务而提出的，它特别适合处理时间序列或序列数据（如文本、音频等）。,想象你正在阅读一本小说，而不是一口气看完整本书，你会逐句阅读，并不断记住之前的信息，以便理解当前的情节。,当前句子就是当前时间步的数据，每次你只看一小段内容（一个时间步的输入，例如一个单词或一句话）。你的记忆力就是隐藏状态（Hidden State），你会用“记忆力”记住之前的内容（例如上一章发生了什么），并结合当前句子的内容，理解当前的情节。每次阅读新的句子时，你的理解依赖于之前的记忆。,例如，读到“她突然哭了”时，你需要记得前面提到她失去了最好的朋友。这种前后依赖就是循环结构。如果你的记忆力有限（梯度消失问题），可能会忘记很久之前的细节。例如，刚读完的句子影响最大，而几章之前的内容逐渐淡忘。遗忘旧信息，对应于模型中的信息遗忘机制。,CNN就像一位用放大镜扫描图片的侦探，逐步提取局部信息并整合成全局理解，非常适合处理图像数据。RNN就像一个读者，逐步读取和理解时间序列数据（例如文本或语音），通过记忆力捕捉前后文的关联。,RNN在处理时间序列数据时，会遇到的梯度消失和梯度爆炸问题。梯度消失是指，在反向传播过程中，随着时间步的增加，梯度值可能不断减小，最终导致网络难以更新前面时刻的权重。这使得模型无法有效学习长程依赖的信息。相反，某些情况下，梯度可能会迅速增大，导致数值不稳和模型难以训练，这就是梯度爆炸。,另外，传统RNN在处理上下文关联时，较难捕捉到长时间间隔的依赖关系。例如，在分析一段文本时，可能需要理解更早时间位置的信息，而标准RNN的设计无法保证。,为了解决这些问题，Sepp Hochreiter和Jürgen Schmidhuber在1997年提出一种特殊类型的递归神经网络（RNN），也就是长短时记忆网络（LSTM，Long Short-Term Memory）。LSTM通过引入门控机制，有效解决了上述问题。,

,Jürgen Schmidhuber ,想象你在听一场漫长的演讲。速记员需要快速记录演讲中的关键内容，同时避免被冗长的信息淹没。,速记员有一本笔记本，专门用来记录重要的内容（长期记忆），但他必须谨慎选择哪些信息应该保留。笔记本就是细胞状态（Cell State），可以理解为记忆单元，能够存储信息，并在序列处理过程中通过门控机制进行调整。记忆单元的状态可以在长时间内保持，不易受到梯度消失的影响。,速记员会根据当前听到的话，判断哪些信息值得记录。如果是重要内容（例如演讲的核心观点），就写入笔记本；如果是无关信息（例如冗长的细节），就忽略。速记员的耳朵就是输入门（Input Gate），输入门控制信息的流入，即决定哪些新信息需要加入到记忆单元。它通过激活函数的组合来实现，输出值在0到1之间，控制着输入的程度。,为了保持笔记简洁，速记员会定期用橡皮擦擦掉不再重要的信息。例如，早前提到的背景内容可能在后续的演讲中已经无用。速记员的橡皮擦就是遗忘门（Forget Gate），遗忘门用于控制记忆单元中信息的丢弃程度，决定哪些信息是多余的或不需要保持的。它也是通过激活函数来实现，输出值越接近1，表示越应该保留信息。,每当有人问速记员演讲的核心内容时，他会从笔记本中提取关键点，用清晰的语言表达出来。速记员的总结就是输出门（Output Gate），输出门决定从记忆单元中输出哪些信息，它根据当前输入和前一个隐状态来设置输出的权重。,LSTM就像一位精明的速记员，通过门控机制管理信息流动，在长时间的任务中高效记录关键内容，忽略无用的细节。LSTM的关键是能有效地记住长期重要的信息，同时舍弃无用的内容，因此比普通的RNN更聪明，因为它解决了普通RNN记忆力短、容易忘记长距离依赖问题的缺点。其独特的结构和功能使其在捕捉长程依赖和顺序信息上具有显著优势，广泛应用于语音识别、自然语言处理、时间序列分析等多个领域。,随着硬件（GPU）的进步和大规模数据集（如 ImageNet）的兴起，深度学习得到突破。ImageNet是一个由超过1400万标注图像构成的大型图像数据库，涵盖了多种类别的物体。它为深度学习研究提供了丰富的数据支持。2012年，AlexNet利用CNN在ImageNet比赛中取得革命性成果，标志着深度学习的全面复兴。,在AlexNet之前，计算机视觉领域主要依赖传统的特征提取技术，这些技术通常需要手动设计特征提取算法。尽管一些基本的机器学习算法（如支持向量机）被应用于图像分类，但在复杂性的处理上受到了限制。在2010年及之前，虽然已有的深度学习模型在一些任务上取得了成功，但大规模数据集的处理能力以及计算资源的短缺限制了深度学习方法的推广与发展。,在2012年的ILSVRC比赛中，AlexNet以超过15.3%的错误率取得了第一名，而第二名的错误率为25.7%。AlexNet的架构设计中包含了一些重要的创新点，如更深的神经网络、训练过程中的数据增强与图像预处理、充分利用了图形处理单元（GPU）进行并行计算，大幅提高了训练速度。这成功展示了卷积神经网络在图像分类中的强大能力，也为后续深度学习研究与应用创造了广阔的前景。

推荐阅读：
人保服务|人保安康险来守护您的健康
人保车险|细数车险缴费的几种方式
人保车险|关于电子保单的四大误区，你知道吗？
人保车险|异地买车险可行吗？有哪些优缺点？
人保车险|全险是什么，你知道吗？
人保车险|车过户保险怎么办需要注意哪些事项
人保车险|快速了解新能源车险购买注意事项
人保车险|应急车道到底应哪些“急”
人保车险|车险不及时续保会失去哪些福利?
人保车险|汽车多长时间进行一次大保养？

潘禺：理解DeepSeek的中国式创新，要先回顾深度学习的历史

2025年01月27日 admin 74530