「Attention is All You Need」をわかりやすく解説

✨ Attention is All You Need とは？

「Attention is All You Need」は2017年に発表された論文で、コンピューターが言語を理解するための速くて賢い新しい方法を提案しました。

ここで紹介されたのがTransformerモデルです。このモデルは現在、ChatGPTやGoogle翻訳など、多くの有名なAIに使われています。

それ以前の方法（RNNやLSTM）は、単語を1つずつ順番に読むスタイルで、遅くて、忘れやすいという問題がありました。

Transformerは単語を一つずつ読むのではなく、すべての単語を一度に見て、重要な単語に注目する仕組みになっています。

次の文を考えてみましょう。

「The dog who chased the cat was very tired.」

ここで “was” が誰にかかっているか（犬か猫か）を判断する必要があります。

Attentionを使えば、コンピューターはすぐに “dog”（犬）に注目でき、無駄に最初から読み直す必要がありません。

「Alice went to the bakery to buy a cake. The bakery was closed, so she went to the supermarket.」

ここで “she” が誰を指しているかを考えるとき、Attentionならすぐに “Alice” を思い出して結びつけることができます。

Attentionとは、「重要なところにだけ注目する」という、人間の勉強方法に似た仕組みです！

補足:

– データを一つずつ順番に読み込みます（例：単語1つずつ）。
– 各ステップでメモリ（隠れ状態）を更新して、次の入力に活かします。
– これにより前の情報を覚えながら処理できるのが特徴です。

例えば、次の文章を考えます：

「I am very …」

RNNは次のように動きます：

これで “I am very” という文脈を覚えているので、次に続く言葉を「happy」や「tired」と予測できるようになります。

強み	意味
過去の情報を覚えられる	文章など順番が重要なデータに強い
柔軟な入力サイズ	長さが違うデータにも対応可能

弱み	意味
学習が遅い	一つずつ処理するので並列化が難しい
長期記憶が苦手	長い文章だと古い情報を忘れてしまう（「勾配消失問題」と呼ばれる）

こうした弱点を補うために、LSTMやGRU、さらにTransformerモデルが開発されました。