注意力机制

如果从源头来讲,注意力机制(Attention)最先是应用在 NLP 领域的机器翻译任务上的。 之前的机器翻译任务通常是 Seq2Seq 模型(Encoder-Decoder 结构)来解决的,Encoder 负责学习句子的表征, 将其总结为一个定长的向量(hidden vector),然后输入给 Decoder 来解码翻译,但注意只有第一个 Decoder 接收 hidden stat ...

网络知识点汇总

谈起计算机网络,不得不祭出这张图。 1. 当浏览器输入一个url请求会经历什么 ...

序列模型

面试前整理的一些自己不熟悉的知识点,好想拥有一个硬盘一样的脑袋,可以不忘掉的那种。 --> 循环神经网络 全称 Recurrent Neural Networks, RNN,它可以应对多对多,多对一,一对一,一对多的任务,其模型可以表示为下图。 <img :src="$withBas ...

卷积神经网络

面试前整理的一些自己不熟悉的知识点,好想拥有一个硬盘一样的脑袋,可以不忘掉的那种。 --> 卷积操作 卷积 卷积核也叫过滤器,根据是否使用 Padding 技术,可以分为 Same 卷积和 Valid 卷积。 Valid 卷积:卷积后图像大小为 $(n - f + 1) \times (n - f + 1)$,其缺点是每次卷积,图像就会变小, ...

深度学习问答

一般有两种方式:GridSearch 和 RandomSearch。 在选点个数一致的情况下,RandomSearch 会测试更多的超参数,比如对两个超参数选择 25 个点,对于第一个超参数 GridSearch 只能测试 5 个值,而 RandomSearch 也许可以测试 25 个值,这显然更高效,因此个人倾向于 RandomSearch。 Q2:如何给超参数选择合适 ...