注意力机制

如果从源头来讲,注意力机制(Attention)最先是应用在 NLP 领域的机器翻译任务上的。 之前的机器翻译任务通常是 Seq2Seq 模型(Encoder-Decoder 结构)来解决的,Encoder 负责学习句子的表征, 将其总结为一个定长的向量(hidden vector),然后输入给 Decoder 来解码翻译,但注意只有第一个 Decoder 接收 hidden stat ...