深度学习杂谈:残差、MAE与特征维度的本质思考
最近有一些问题,正好记录下来了一些,用AI探讨了一下这些问题。 1. 残差 (Residual) 的本质:仅仅是保留原始信息吗? 问题: 残差的本质是什么?为什么有用?是因为保留了之前的原始信息的特征吗?那么添加动量 (Momentum) 也是保留之前的原始信息,和残差的本质有什么区别吗? 残差连接 (Skip Connection) 残差网络 (ResNet) 的核心公式是 $y = F(x) + x$。 确实,从直观上看,$+x$ 这一项直接将上一层的原始信息“保留”并传递到了下一层。这使得网络在初始化阶段即使 $F(x)$ 接近于 0,整个网络也近似于一个恒等映射 (Identity Mapping),梯度可以无损地反向传播。 本质区别: 残差 (ResNet) 解决的是 模型结构 (Model Architecture) 和 梯度流 (Gradient Flow) 的问题。它是在空间/层级维度上,让深层网络更容易训练,避免梯度消失。它让网络“有机会”去学习恒等映射,如果某一层是多余的,网络可以将 $F(x)$ 权重置为 0,自动“跳过”这一层。 动量...
监督对比学习
Supervised Contrastive Learning 论文地址:https://arxiv.org/pdf/2004.11362 代码地址:https://github.com/HobbitLong/SupContrast 引言 监督对比学习(Supervised Contrastive Learning, SupCon)...
对比学习综述
对比学习综述:从理论到实践全面解析 引言 对比学习(Contrastive Learning) 是近年来自监督学习领域最重要的突破之一,它通过"拉近正样本、推远负样本"的简单思想,在无需大量标注数据的情况下学习到强大的视觉表示。从2020年的SimCLR、MoCo开始,对比学习在ImageNet等基准上取得了与监督学习相当甚至更好的性能,彻底改变了我们对无监督表示学习的认知。 对比学习的核心优势在于: 无需标注数据:可以在海量无标注图像上预训练 学习鲁棒表示:对数据增强、噪声等具有强鲁棒性 迁移能力强:预训练的特征在下游任务上表现优异 可扩展性好:可以轻松扩展到大规模数据和模型 什么是对比学习? 核心思想 对比学习的核心思想可以用一句话概括:通过对比正样本对和负样本对,学习到区分性的表示。 正样本对(Positive Pairs):应该相似的样本对 无监督:同一图像的不同增强视图 有监督:同一类别的不同样本 负样本对(Negative...
LeetCode 两个变量 - 2025.11.13
今日概览 日期:{2025-11-13} 题目数量:{共 2 题} 难度分布:简单 2 主要收获:自己的方法就是屎山,灵神的方法高端又通透 心情/状态:太久没刷了,已经把基本的语法忘记了,以后尝试用python刷题,学习一些比较好用的函数 题目列表与详解 1. Two Sum 题号 / 链接:#1 / 题目链接 难度:简单 题型标签:哈希表,数组 题目描述(简要): 就是查找一下哪两个数相加等于target,返回下标。 思路分析 两个方法,不同的时间复杂度 方法一:暴力写法。 复杂度 时间:O(*n*2) 空间:O(1) 123456class Solution: def twoSum(self, nums: List[int], target: int) -> List[int]: for i, x in enumerate(nums): for j in range(i + 1, len(nums)): if...
实例判别学习 - Non-Parametric Instance Discrimination精读
Unsupervised Feature Learning via Non-Parametric Instance Discrimination 论文地址:https://arxiv.org/pdf/1805.01978 代码地址:https://github.com/zhirongw/lemniscate.pytorch 引言 实例判别(Instance Discrimination)...
Mamba详解 - 选择性状态空间模型精读
Mamba: Linear-Time Sequence Modeling with Selective SSMs 论文地址:https://arxiv.org/pdf/2312.00752 代码地址:https://github.com/state-spaces/mamba 引言 Mamba 是一种基于状态空间模型(State Space Model, SSM)的高效序列建模框架,旨在在保持强表达能力的同时,将计算与内存复杂度降至与序列长度线性相关。与Transformer的二次复杂度相比,Mamba在超长序列、低时延和内存受限场景中具有显著优势。 Mamba的核心在于“选择性扫描(Selective Scan)”与“输入依赖的状态转移”,通过对经典S4(Structured State Space Sequence Model)的工程化与理论改进,实现端到端可训练、GPU友好、且具有SOTA性能的线性时间序列模型。 背景知识:状态空间模型(SSM)与S4 连续与离散SSM 连续时间SSM: $$ \dot x(t) = A x(t) + B u(t), \quad y(t)...
MAE详解 - Masked Autoencoders精读
Masked Autoencoders Are Scalable Vision Learners 引言 MAE (Masked Autoencoders) 由He Kaiming团队在2021年提出,为视觉自监督学习带来了新的范式。论文标题“Masked Autoencoders Are Scalable Vision Learners”凸显了其两大特性:一是基于掩码的自重构任务;二是能在大规模数据和模型上稳定扩展。和SimCLR、MoCo等对比学习方法相比,MAE丢弃了昂贵的负样本构造环节,通过简单的遮挡-重建目标即可学习高质量的视觉特征。 在图像理解任务中,过去的自监督方法往往依赖对比学习或生成式建模。MAE将NLP中成熟的Masked Language Modeling理念迁移到视觉领域,将图片切分为patch token,然后随机遮挡大部分token,让模型仅凭剩余少量可见token推断出被遮挡的像素,从而学到上下文结构。 背景知识 自监督视觉预训练的演进 预文本任务 (Pretext...
BERT详解 - 双向编码器表示模型精读
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 引言 BERT (Bidirectional Encoder Representations from Transformers) 是Google在2018年提出的革命性自然语言处理模型,它通过在无标注文本上进行预训练,学习深层的双向语言表示,在下游任务上取得了突破性的成果。 BERT的核心创新在于双向上下文编码,与之前的ELMo(浅层双向)和GPT(单向)不同,BERT使用Transformer编码器同时利用上下文信息,彻底改变了NLP领域的预训练范式。 背景知识 预训练语言模型的发展 在BERT之前,主流的预训练方法存在以下局限性: 单向语言模型(如GPT):只能从左到右或从右到左进行编码,无法同时利用双向上下文 浅层双向模型(如ELMo):虽然考虑了双向信息,但只是简单拼接左右向表示,而非深度双向,网络架构比较老,使用的RNN 为什么需要双向编码? 语言的理解往往需要同时考虑前后文信息。例如: “银行”...
MambaOut
MambaOut MambaOut: Do We Really Need Mamba for Vision? (CVPR...
图神经网络
图神经网络(GNN)全面指:从基础到高级应用 引言 在数据爆炸的时代,传统深度学习模型如CNN和RNN在处理结构化数据(如图像和序列)上取得了巨大成功,但现实世界中的许多数据都具有图结构(Graph Structure),例如社交网络、分子结构、知识图谱、交通网络等。这些数据是非欧几里德的(Non-Euclidean),节点之间存在复杂的拓扑关系,无法直接用网格或序列表示。这就是图神经网络(Graph Neural Networks, GNN)登场的原因。 GNN 通过模拟节点间的消息传递机制,捕捉图的局部和全局结构,实现对图数据的表示学习。它已在推荐系统、药物发现、蛋白质折叠预测等领域大放异彩。本文将从基础概念入手,逐步深入GNN的核心原理、经典模型、实现技巧和实际应用,帮助你全面掌握这一技术。无论你是初学者还是有经验的从业者,这篇指南都能提供实用价值。 图数据基础 图的定义与表示 图 $ G = (V, E) $ 由节点集 $ V $(Vertices)和边集 $ E...









