为什么我还是无法理解transformer?

2025-06-25 02:30:10

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?
广告位810*200
相关阅读
颈椎生理曲度变直可以通过运动康复吗?

颈椎生理曲度变直可以通过运动康复吗?

来门诊看颈椎不适、活动不利的年轻人特别多, 他们的颈椎X线片...

2025-06-19
独立开发者都使用了哪些技术栈?

独立开发者都使用了哪些技术栈?

*** 只做苹果,用swiftui 后端 *** serve...

2025-06-19
你见过的最棒的个人博客界面是什么样的?

你见过的最棒的个人博客界面是什么样的?

现成的博客框架改起来太费劲了,于是用 Next.js 在 C...

2025-06-19
如何评价华为鸿蒙电脑?

如何评价华为鸿蒙电脑?

6月10号,在北京的华为东方广场店,购买的Matebook ...

2025-06-19
你身边身材最好的女生是什么样?

你身边身材最好的女生是什么样?

去游泳的时候见过一个,165左右,小头宽肩细腰胯宽腿直肤白,...

2025-06-19