ローカルでRAGを動かしてみよう 01:はじめに – RAGとは何か?

はじめに
こんにちは、リリです。 今回は仕事で使うために調べている RAG について紹介します。 ローカルで構築を始める前に RAG の基本的なしくみや概念について語っていきます。 最初は LLM にどのような改善点があったため RAG が登場したのかを紹介していきます。
LLM(Large Language Model) とは?
大規模言語モデル(LLM) とは、膨大な量のデータを事前に学習させたディープラーニングモデルです。 LLM は、大量のデータを学習することで、人間の言語や複雑な情報を認識・解析できる AI システムです。
LLM が抱える課題
知識の更新ができない
既存の LLM は、学習時点のデータを知識として持っています。そのため、学習後に発生した出来事については対応できません。
ハルシネーション (幻覚; Hallucination)
LLM は、あたかも正しい情報のように見える文章を生成しますが、実際には存在しない情報をでっち上げることがあります。
知識のブラックボックス化
LLM に学習された知識は内部に閉じており、出典や根拠を明示できません。
検索拡張生成 (Retrieval Augmented Generation) とは?
検索拡張生成(RAG)とは、大規模言語モデル(LLM)に外部の資料を組み合わせることで、より正確かつ最新の情報を提供できるようにする手法です。
RAGは以下の3つのステップで構成されます。
1. 検索(Retrieval)
ユーザーの質問を解析し、関連するキーワードを抽出します。 そのキーワードを用いて、外部の知識ベースや文書群から情報を検索します。 このときベクトル類似度などの技術を使い、検索結果の中から特に関連性が高い文書を選別します。
※ベクトル類似度とは、文書を数値ベクトルに変換し、ユーザーの質問と最も意味が似ている文書を見つけ出す手法です。 検索対象となる文書(ナレッジデータ)の準備方法については、次回の記事で詳しく紹介します。
2. 拡張(Augmentation)
選ばれた文書を LLM が処理しやすい形に整形してプロンプトに追加します。 この過程では、文書の要約や再構成、信頼度スコアの付与などが行われます。 目的は、LLMにとって参照可能で意味のある情報として取り込める状態にすることです。
3. 生成(Generation)
拡張されたプロンプトをもとに、LLMが最終的な回答を生成します。 このとき、検索によって得られた情報と、モデルがもともと学習していた知識を組み合わせて応答を構築します。 必要に応じて、生成された回答の品質評価や再生成することも可能となります。
RAG の利点
1. 最新情報の取得が可能
RAG(検索拡張生成)は、外部のデータベースや知識ソースを検索し、リアルタイムで情報を取得できます。この特性を活かすことで、たとえば「最新ニュースを取得して要約するAI」など、常に新しい情報に対応できるシステムを構築できます。
2. ハルシネーションへの対策
RAG は関連情報を直接参照して回答を生成するため、LLM が誤った情報(ハルシネーション)を出力するリスクを大幅に低減できます。ただし、完全ではないため、情報の正確性を担保する手段として、出典などのメタ情報を付与し、ユーザーが参照可能にすることが重要です。
3. 専門知識の活用が容易
RAG では、特定分野の専門知識を事前にデータとしてまとめておくだけで、それを参照させることで知識を反映させられます。モデル自体に学習させる場合と比べて、準備や更新が容易であり、柔軟性にも優れています。
RAG を活用するうえでの留意点
1. 応答までの時間増加
RAGは検索過程が追加され、既存の LLM より多くのリソースを必要とします。これは応答時間の増加とシステム運営の費用が増えることにつながる可能性があります。
2. 検索対象資料品質への依存
RAG の性能は準備した参照資料の品質に大きく左右されます。不正確または偏った情報が含まれている場合、これはそのまま出力される可能性があります。よって信頼できるデータソースの確保とデータ管理は必須となります。
3. プライバシーおよび保安問題
外部データベースを使用するときに起こり得る問題です。外部データベースに保存している重要情報流出の恐れがあります。そのため個人情報や秘匿性がある文書を扱うときには注意する必要があります。
終わりに
RAG 前の LLM 単体ではハルシネーションの問題があり、実用には限界がありましたが、RAG の登場により参照資料を紹介するメタデータのおかげで情報の信頼性が上がりました。
今回は RAG の概念について紹介しました。次回は検索の前に検索対象資料であるナレッジデータの準備について紹介します。