→AI/機械学習
→ディープラーニング
→自然言語処理
→画像認識/検出/トラッキング<Visiotn Transformer(ViT)についてはこちら
→大規模言語モデル
サブトピック†
- 画像や文章の生成などを行う「ジェネレーティブAI」はなぜ急に発展したのか? - GIGAZINE 2023.2
- プログラミング言語としてのトレーニングから、自然言語処理(NLP)を用いた「コードではなく言語を理解」する学習法に推移していく段階でRNNやLSTMが用いられていましたが、近年まで「言語の処理では単語の順序が重要な違いを生む」点や、「適切なトレーニングデータを取得するのが難しい」という点で、長い文章の処理を行えなかった
- そこで突破口となったのがGoogleの「Transformer」で、RNNよりも言語理解タスクに秀でたニューラルネットワークアーキテクチャとして質の高い翻訳に成功しました。翻訳には言語ごとの語順が重要で、それがTransformerには当然に組み込まれていたため、Transformerが用いた「位置エンコーディング」「マルチヘッドアテンション」という処理法が言語処理のブレイクスルーとして機能した
- 言語モデルにおける大きな転換点は、翻訳のために作られた驚くべきモデルを利用する事で、言語処理タスクが抱えていた問題を翻訳の問題に変換する方法を見つけ出したこと
- Transformerはある言語から別の言語に変換する翻訳モデルとして発明されましたが、画像など他のパラメータを言語と同様の方法で表現する方法を理解できれば、そこにあるルールを見つけ出して別の言語にマッピングするTransformerの能力を訓練して、翻訳を行うことができます。こうして「画像から特徴を抽出し、潜在表現と呼ばれる低次元表現に圧縮し、細かいポイントを軸として座標に表す」といったアプローチが可能になりました。
- 時系列処理が必要なRNNは並列化と相性が悪いのでAttentionに全振りしたのがTransformer
- 自己注意機能により系列データを一括同時処理可能になった。RNNでは逐次計算が必要、また離れた単語の関係づけできず長文理解が難しかった。
- GPUフレンドリで容易に並列化可能→学習の高速化、劇的な学習時間短縮を実現
- 入力シーケンス全体を考慮可能
- CV(Computer Vision)タスクへの応用もあり→画像認識/検出/トラッキング
BERT (Bidirectional Encoder Representations from Transformers)†
BERTの理論的な話†
- 通常のDLでは一気に高精度モデルを作る。そのために大量の教師付きデータが必要。大量の計算資源も必要
- 大量の汎用テキストデータで言語ベースを事前学習(Pre-Training)→タスクに合わせて追加学習(Fine-Tuning)
- Pre-Training済みのモデルを提供してもらえれば、追加学習は少ない計算資源で可能になった。
- 文章のマスクと復元という自己教師学習によりラベルなし文章を学習に適用可能
- 双方向モデル、単語の前後から文脈を把握
- 問題文と選択肢、などのように文章を2つ入力する。
- Segment Vector EA or EBを入力ベクタへ足す
- Pre-Training
- 1.Masked Language Model(Close Test)
- 2.Next Sentence Prediction
LLaMA†