Transformer

Transformerは2017年に提案された深層学習アーキテクチャであり、自然言語処理の分野に革命をもたらした技術である^[1]。従来のRNNやLSTMに依存していたシーケンス処理タスクにおいて、Attention機構のみを用いることで並列処理を可能にし、学習の高速化と性能向上を同時に実現した。この革新的なアプローチは「Attention is All You Need」という論文タイトルが示すように、再帰的な構造を完全に排除し、Attentionメカニズムだけでシーケンス間の依存関係を捉えることに成功している。

Attention機構の本質

Transformerの中核をなすAttention機構は、入力シーケンスの各要素が他の全ての要素との関連性を動的に計算する仕組みである。この機構により、文章中の離れた位置にある単語間の長距離依存関係を効率的に捉えることが可能となる。従来のRNNでは、情報が順次的に伝播するため、長いシーケンスでは勾配消失問題や情報の減衰が避けられなかったが、Attentionはこの問題を根本的に解決した。

数学的には、Attention機構は以下の式で表現される：

Attention (Q, K, V) = softmax (\frac{Q K^{T}}{\sqrt{d_{k}}}) V

ここで、 $Q$ （Query）、 $K$ （Key）、 $V$ （Value）はそれぞれ入力の線形変換であり、 $d_{k}$ はKeyの次元数である。この計算において重要なのは、 $\sqrt{d_{k}}$ によるスケーリングである。これは、内積の値が次元数に比例して大きくなることを補正し、softmax関数の勾配消失を防ぐ役割を果たしている。

Self-Attentionの実装詳細

Self-Attentionは、同一シーケンス内の要素間でAttentionを計算する機構である。入力シーケンス $X \in R^{n \times d_{m o d e l}}$ （ $n$ はシーケンス長、 $d_{m o d e l}$ は埋め込み次元）に対して、学習可能な重み行列 $W_{Q}$ 、 $W_{K}$ 、 $W_{V}$ を用いて以下のように変換する：

Q = X W_{Q}, K = X W_{K}, V = X W_{V}

これらの変換により、各位置の表現が他の全ての位置との関連性を計算するための異なる役割（Query、Key、Value）を持つようになる。Queryは「何を探しているか」、Keyは「何を提供できるか」、Valueは「実際に提供する情報」を表現すると解釈できる。

実装上の重要な点として、Attention重みの計算時にマスキングを適用することがある。特にデコーダーにおいては、未来の情報を参照しないようにするため、上三角行列のマスクを適用する：

{mask}_{i j} = {\begin{cases} 0 & if i \geq j \\ - \infty & if i < j \end{cases}

Multi-Head Attentionの並列化戦略

Multi-Head Attentionは、異なる表現部分空間で並列にAttentionを計算することで、モデルの表現力を向上させる機構である。 $h$ 個のヘッドそれぞれが異なる線形変換を学習し、独立してAttentionを計算する：

各ヘッド $i$ は以下のように計算される：

{head}_{i} = Attention (X W_{Q}^{(i)}, X W_{K}^{(i)}, X W_{V}^{(i)})

ここで、 $W_{Q}^{(i)} \in R^{d_{m o d e l} \times d_{k}}$ 、 $W_{K}^{(i)} \in R^{d_{m o d e l} \times d_{k}}$ 、 $W_{V}^{(i)} \in R^{d_{m o d e l} \times d_{v}}$ であり、通常 $d_{k} = d_{v} = d_{m o d e l} / h$ と設定される。これにより、計算量は単一ヘッドのAttentionとほぼ同等に保たれる。

最終的な出力は、全てのヘッドを連結して線形変換を適用することで得られる：

MultiHead (X) = Concat ({head}_{1}, . . ., {head}_{h}) W_{O}

ここで $W_{O} \in R^{h d_{v} \times d_{m o d e l}}$ は出力の射影行列である。

Positional Encodingの必要性と設計

TransformerはRNNと異なり、本質的に順序情報を持たない。そのため、シーケンス内の位置情報を明示的に与える必要がある。元論文では、以下の三角関数を用いたPositional Encodingが提案されている：

P E_{(p o s, 2 i)} = \sin (\frac{p o s}{10000^{2 i / d_{m o d e l}}})

P E_{(p o s, 2 i + 1)} = \cos (\frac{p o s}{10000^{2 i / d_{m o d e l}}})

ここで、 $p o s$ は位置、 $i$ は次元のインデックスである。この設計には以下の利点がある：

相対位置の表現可能性: 任意の固定オフセット $k$ に対して、 $P E_{p o s + k}$ を $P E_{p o s}$ の線形変換で表現できる
外挿可能性: 学習時より長いシーケンスに対しても適用可能
連続性: 隣接する位置のエンコーディングが滑らかに変化する

実装では、これらのPositional Encodingは入力埋め込みに直接加算される：

X^{'} = X + P E

近年では、学習可能なPositional Embeddingや、相対位置を直接Attention計算に組み込むRotary Position Embedding (RoPE)^[2]などの手法も提案されており、タスクやモデルサイズに応じて選択される。

Encoder-Decoderアーキテクチャの詳細

Transformerの全体アーキテクチャは、6層のEncoderと6層のDecoderから構成される。各層は以下の要素を含む：

Encoder層の構成

各Encoder層は2つのサブレイヤーから構成される：

Multi-Head Self-Attention層: 入力シーケンス全体を参照し、各位置の表現を更新
Position-wise Feed-Forward Network: 各位置に独立して適用される2層のニューラルネットワーク

各サブレイヤーの周りには残差接続とLayer Normalizationが適用される：

LayerNorm (x + Sublayer (x))

Decoder層の構成

Decoder層は3つのサブレイヤーを持つ：

Masked Multi-Head Self-Attention層: 自己回帰的な生成のため、未来の位置をマスク
Encoder-Decoder Attention層: EncoderのoutputをKey/Valueとして使用
Position-wise Feed-Forward Network: Encoderと同様の構造

Encoder-Decoder Attention（Cross Attention）では、DecoderのhiddenステートをQueryとし、EncoderのoutputをKey/Valueとして使用する。これにより、生成する各トークンがソースシーケンスの関連部分に注目できる。

Layer NormalizationとResidual Connectionの役割

深層ネットワークの学習安定化のため、TransformerはLayer Normalization^[3]とResidual Connectionを採用している。Layer Normalizationは各サンプルの特徴次元方向で正規化を行う：

LayerNorm (x) = γ \frac{x - μ}{σ + ϵ} + β

ここで、 $μ$ と $σ$ は特徴次元での平均と標準偏差、 $γ$ と $β$ は学習可能なパラメータである。

Residual Connectionは、勾配の流れを改善し、深い層でも効果的な学習を可能にする。TransformerではPost-LN（サブレイヤーの後にLayer Norm）が使用されているが、最近の研究ではPre-LN（サブレイヤーの前にLayer Norm）の方が学習が安定することが報告されている^[4]。

Feed-Forward Networkの設計思想

Position-wise Feed-Forward Network（FFN）は、各位置に独立して適用される2層のニューラルネットワークである：

FFN (x) = max (0, x W_{1} + b_{1}) W_{2} + b_{2}

ここで、 $W_{1} \in R^{d_{m o d e l} \times d_{f f}}$ 、 $W_{2} \in R^{d_{f f} \times d_{m o d e l}}$ であり、通常 $d_{f f} = 4 \times d_{m o d e l}$ と設定される。

FFNの役割について、最近の研究では「key-value memory」として機能していることが示唆されている^[5]。第一層で特定のパターンを検出し、第二層でそのパターンに対応する出力を生成するという解釈である。また、活性化関数としてReLUの代わりにGELU（Gaussian Error Linear Unit）を使用することで、性能が向上することも報告されている。

計算量とメモリ効率の分析

Transformerの計算量は主にAttention機構に起因する。シーケンス長を $n$ 、モデル次元を $d$ とすると：

Self-Attention: $O (n^{2} \cdot d)$
Feed-Forward: $O (n \cdot d^{2})$
メモリ使用量: $O (n^{2} + n \cdot d)$

シーケンス長に対して二次の計算量となるため、長いシーケンスの処理が困難である。この問題に対して、以下のような改良手法が提案されている：

Sparse Attention: 全ての位置ペアではなく、一部のみでAttentionを計算
Linear Attention: カーネルトリックを用いて線形時間でAttentionを近似
Flash Attention: GPUメモリ階層を考慮した効率的な実装^[6]

学習の安定化技術

大規模なTransformerモデルの学習には、いくつかの安定化技術が不可欠である：

Gradient Clipping

勾配爆発を防ぐため、勾配のノルムに上限を設ける：

g^{'} = min (1, \frac{threshold}{| | g | |}) \cdot g

Learning Rate Scheduling

Transformerでは特殊な学習率スケジュールが使用される：

l r = d_{m o d e l}^{- 0.5} \cdot min (s t e p^{- 0.5}, s t e p \cdot w a r m u p_s t e p s^{- 1.5})

このスケジュールは、最初のwarmup期間で線形に増加し、その後ステップ数の平方根に反比例して減少する。

Mixed Precision Training

計算効率とメモリ使用量を改善するため、FP16とFP32を混在させて学習を行う。重要な演算（損失のスケーリングなど）はFP32で行い、それ以外はFP16で計算する。

派生モデルとアーキテクチャの進化

Transformerの成功は、多くの派生モデルを生み出した。主要なものを以下に示す：

BERT (Bidirectional Encoder Representations from Transformers)

Encoderのみを使用し、Masked Language ModelingとNext Sentence Predictionで事前学習を行う^[7]。双方向のコンテキストを活用できるため、文章理解タスクで高い性能を示す。

GPT (Generative Pre-trained Transformer)

Decoderのみを使用し、自己回帰的な言語モデリングで学習する^[8]。生成タスクに適しており、few-shot学習能力を持つ。

T5 (Text-to-Text Transfer Transformer)

全てのNLPタスクをtext-to-textフォーマットに統一し、同一のモデルで扱う^[9]。アーキテクチャの統一により、マルチタスク学習が容易になる。

これらのモデルは、基本的なTransformerアーキテクチャを維持しながら、タスクに応じた最適化を行っている。例えば、BERTではSegment EmbeddingやNSP headの追加、GPTではCausal Maskingの適用などがある。

実装上の考慮事項

実際のTransformer実装では、以下の点に注意が必要である：

数値安定性

Softmax計算時のオーバーフローを防ぐため、最大値を引く：

python

def stable_softmax(x):
    x_max = x.max(dim=-1, keepdim=True)[0]
    exp_x = torch.exp(x - x_max)
    return exp_x / exp_x.sum(dim=-1, keepdim=True)

効率的なマスキング

Causal maskは上三角行列として事前計算し、キャッシュして再利用する。また、パディングマスクと組み合わせる際は、論理和を取る。

メモリ効率的な実装

Attention重みを全て保持するとメモリを大量に消費するため、勾配計算時のみ保持し、推論時は破棄する。また、Gradient Checkpointingを使用して、メモリと計算時間のトレードオフを調整する。

性能特性とボトルネック

Transformerの性能は、以下の要因に大きく依存する：

メモリバンド幅: Attention計算はメモリバンド幅に制約される
並列度: バッチサイズとシーケンス長により並列化効率が変化
精度: FP16使用時は数値安定性に注意が必要

特に推論時は、Key-Valueキャッシュのメモリ使用量が問題となる。シーケンス長 $n$ 、バッチサイズ $b$ 、レイヤー数 $l$ 、ヘッド数 $h$ に対して、 $O (b \cdot n \cdot l \cdot h \cdot d_{k})$ のメモリが必要となる。

Transformer ​

Attention機構の本質 ​

Self-Attentionの実装詳細 ​

Multi-Head Attentionの並列化戦略 ​

Positional Encodingの必要性と設計 ​

Encoder-Decoderアーキテクチャの詳細 ​

Encoder層の構成 ​

Decoder層の構成 ​

Layer NormalizationとResidual Connectionの役割 ​

Feed-Forward Networkの設計思想 ​

計算量とメモリ効率の分析 ​

学習の安定化技術 ​

Gradient Clipping ​

Learning Rate Scheduling ​

Mixed Precision Training ​

派生モデルとアーキテクチャの進化 ​

BERT (Bidirectional Encoder Representations from Transformers) ​

GPT (Generative Pre-trained Transformer) ​

T5 (Text-to-Text Transfer Transformer) ​

実装上の考慮事項 ​

数値安定性 ​

効率的なマスキング ​

メモリ効率的な実装 ​

性能特性とボトルネック ​

最新の研究動向 ​