最近、生成AIの理論部分を改めて復習したいと思い、話題になっていたこちらの書籍を読むことにしました。
全体的に原論文ベースに詳細に説明されていて、必要な関連知識も一緒に学べてすごく面白い本でした。
一方で、そこで紹介されている論文で気になった記述があったのでその点について書いてみたブログです。
論文
Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers
ちょっと古いですがACL2023に採択された論文で、In-Context Learningについて理論的解説をしたものです。書籍では131ページあたりから解説されています。
※現在ではこの辺の常識は変わっているかもしれません。
論文の内容
文脈内学習(ICL)の理論的解釈を試みた研究です。
簡略化して解説すると、まずファインチューニング(勾配降下法)で最適化する線形層は以下の式で表せます。ΔWが学習によって更新される重みの量です。

ここで、誤差信号 e_i を用いると、ΔW は以下のように表せます。

これを使って式変形していくと、以下のように線形注意(Linear Attention)の出力を足し合わせた形としても表せます。これは、勾配降下法(GD)で学習される線形層が線形注意と双対な関係を持つことを示しています。

次に、ICLの部分を定式化します。ICLはAttentionで活用されるものであり、入力 X をコンテキストの部分 X' と本文 X で分けて考えます。

ここから式変形していきます。簡単化のため、softmaxやスケール因子は削除して線形注意で近似できていることとして説明を続けています。

上記式展開したもののうち、2段目の1項目はコンテキストが含まれない状態、つまりゼロショットの設定であり、それを明確化するために以下の置き換えを行います。

式変形を続けると、以下のようになります。見慣れた形が出てきました。

加えて、ファインチューニングの方も、線形注意における式を変形していくと以下のようになります。

このように、ICLとファインチューニング(GD)は同じ形になっていることが示されています。ここまでの流れは綺麗で面白い解釈を与えてくれる論文です。
数式が同形なことと解釈
が、注意しなければいけない点として、あくまで式変形によって式の形が同じになるというだけです。
論文の最後で「show the reasonability to regard ICL as implicit finetuning」と述べてますが、正直これはかなり乱暴な主張に感じます。 数式が同じでも舞台設定次第で解釈は全く変わるものになるはずです。
今回の場合は、数式が同じでも変数の意味が変わる部分が大きいと思っていて、ファインチューニングの方は変数Xまで含めて変わる点がそもそも重要だと思います。
例えば、ICLではXはそのまま(特徴空間はそのまま)なので、十分学習できていない特定分野を想定したとき、文脈内学習をいくらしても質の悪い埋め込みベクトルが使われることになります。
ファインチューニングの方はX含めて、教師データに基づいて学習が行われます。つまり、教師情報をもとに特徴空間の矯正も働くことになります。ここまで考えると、数式が同じでも実態は全く異なるものだと思えると思います(特に未学習領域を考えると顕著)。
数学は舞台設定が大事だとも言われますが、この例でも数式が同じでも解釈は全く異なるものになると思われます。
補足:
補足として、著者らの実験で使われたデータセット・タスクについても載せておきます。

映画のレビューに対する肯定・否定の分類や、感情分類、ニュース記事のトピック分類などが含まれています。ただし、これらのタスクはすでに事前学習で解くための知識が獲得されていることが想定されます。
ファインチューニング自体は目的が様々あるのですが、純粋にファインチューニングの比較という観点では、未学習の領域、例えば事前学習のデータセットに含まれていない地域の文化に関する問題、事前学習に含まれていない分野に関する問題、などでの比較も見てみたいところです。
また、Human Alignment、Human Preference Optimization観点でのファインチューニングに限れば、もしかしたら同じと見なしても良い結果が出てくるかもしれないと思ったので、そういう実験も見てみたいなとは思いました。
最後に
実際、調べてみるとICL = GDに疑問を呈した論文はその後出ているようで、こちらの論文でも少し違った観点からではあるが、様々な分析を加えつつ否定している模様。
他にも色んな側面で語られているものも色々ありそうでした。
「ICLとGDと見なせる」という部分についてはこのように疑問が呈されてますが、とはいえ、ICLに関して、数式を用いてある側面からの説明を与えている点は面白く、新しい発見を与えてくれる論文ではあります。
ICLがこんなにうまくいく理由については謎を感じていたので、理論的解釈の研究が進んでいくと面白いなと思いました。
