井上顧基

井上顧基

(写真:Poetra.RH / shutterstock

2023年に発展したLLMを振り返る

2023年、LLMは自然言語生成のみでなく、特にマルチモーダル能力の領域で大きく進歩した。ここでは、2023年に飛躍的に能力が向上したLLMを紹介する。

Updated by Koki Inoue on December, 26, 2023, 5:10 am JST

1. Llama2:Llama2は、 Meta AIによって開発され、70億から650億のパラメータを持つLLMファミリーに属する。

2. Mistral 7B:Mistral 7Bは、パリを拠点とする新興企業Mistral AIの製品である。Mistral 7Bは、73億のパラメータを持つ先駆的なLLMである。驚くべきことに、Llama2 13Bのようなモデルと比べてサイズが小さいにもかかわらず、様々なタスクでそれらを凌駕している。

3. Mixtral 8x7B :Mixtral 8x7Bは、AI の能力を大きく進歩させた最先端のLLMである。このモデルは、タスクの異なる側面を処理するために複数の専門化されたサブモデルを利用し、独自のMoE(Mixture of Experts)アーキテクチャによって際立っている。このアプローチの信憑性は確かではないが、2023年の中頃にリークされたGPT-4とアプローチと同様である。

4. PaLM 2:PaLM 2は、Googleが開発したLLMである。前身となるPaLMから改良されたモデルである。PaLMは、高速な応答時間と複雑な推論問題を処理する効率性で知られる大規模な言語モデルだ。PaLM 2は、コーディングタスクや問題解決においても素晴らしい能力を発揮する。

5. LLaVA: LLaVAは、マイクロソフトと米国の2つの大学によって開発されたマルチモーダルモデルである。視覚エンコーダーとLLaMA大規模言語モデルを組み合わせ、画像と音声の処理を可能にしている。このモデルは、これまでに見たことのない画像をテキスト形式で記述し、画像に基づく質問に答えることができる。LLaVAの開発は、視覚とテキストのデータ処理を融合させたマルチモーダル・コミュニケーションの大きな進歩を意味した。

6. Gemini:Google DeepMindによって開発されたGeminiは、テキスト、画像、その他の形式のデータを処理・生成するマルチモーダル生成AIモデルである。この能力により、よりニュアンスに富んだ全体的な理解と相互作用が可能になる。

LLM以外

LLM以外で注目すべき技術はRWKV(Receptance Weighted Key Value)である。これは新しいAIモデルのアーキテクチャで、RNNの効率的な推論とTransformerの並列計算能力を組み合わせている。現在のLLMは、2017年に導入された自己注意機構を特徴とするTransformerアーキテクチャを利用している。これはデータの重要な部分に焦点を当て、長い距離の依存関係を捉える。しかし、RWKVはTransformerと異なり、線形の注意機構を採用し、長い系列でもメモリ効率が良い。RWKVはTransformerの強みとRNNの利点を融合している。

「2023年の生成AIはどのように投資を促したのか」も読む