本文是對B站視頻“transformer從零詳細解讀”的筆記,視頻:https://www.bilibili.com/video/BV1Di4y1c7Zm?p=1 一、概述TRM在做一個什么事情? transformer包含encoder和decoder encoder和decoder分別有六個 原論文中transformer模型結(jié)構(gòu) encoder包含以下三個部分: 二、位置編碼encoder輸入部分: 1. Embedding 2. 位置嵌入 為什么需要? 位置編碼公式 將詞向量和位置編碼相加作為模型的輸入
引申一下為什么位置嵌入會有用 但是這種相對位置信息會在注意力機制那里消失 三、多頭注意力機制1. 注意力機制1.1 基本的注意力機制經(jīng)典的注意力機制的圖,顏色深的表示很受關(guān)注,淺的表示不怎么受關(guān)注。 1.2 在TRM中怎么操作原論文中注意力機制的計算公式: 從公式角度來看:拿上面的圖片舉例子 兩個向量越相似,點乘結(jié)果越大。 再舉個栗子 四、殘差和layerNorm五、前饋神經(jīng)網(wǎng)絡(luò)來源:https://www./content-4-907751.html |
|