← タグ一覧

#chunking-strategy (1)

RAGアーキテクチャの進化と2025-2026ベストプラクティス 2026/3/15

rag vector-search llm chunking-strategy

アーキテクチャの進化

RAGはNaive → Advanced → Modular → Agenticへ進化中。2025年時点では以下が実装標準：

Naive RAG: 単純な全文検索（過去）
Advanced RAG: 再ランキング・クエリ展開など検索最適化
Modular RAG: 検索・リランク・生成の各モジュール独立化
Agentic RAG: LLMが「検索すべきか」を判断し動的に実行

ハイブリッド検索が実装標準

BM25（統計ベース）+ ベクトル検索の組み合わせが業界標準：

BM25: キーワード完全一致に強く、計算コスト低い
ベクトル: セマンティック類似性を捉える
結合手法: Reciprocal Rank Fusion (RRF) が堅牢で推奨

単一ベクトル検索より精度が安定し、本番環境で採用が加速している。

チャンク戦略の最新知見

項目	値	備考
最適サイズ	256-512トークン	言語モデル依存
オーバーラップ	10-20%	文脈を繋ぐため必須
コンテキスト上限	~2,500トークン	これ超過で品質cliff

Contextual Retrieval（Anthropic提唱）: チャンクにLLMで先行文脈説明を付加 → 検索エラー67%削減。コスト増だが精度向上は顕著。

Late Chunking: 文書全体を先に処理してからチャンク境界でプーリング。セマンティックチャンキングより実装簡単で、意外と精度が高い。

Markdownドキュメント向けベストプラクティス

ヘッダーベース分割が最も自然で実用的
セマンティックチャンキングは断片化リスク大・精度低い（54%）
シンプルな固定サイズ + オーバーラップが堅牢

GraphRAG・Self-RAGの活用

GraphRAG: エンティティ関係グラフでテーマ横断的な質問に対応。コスト50%削減報告あり
Self-RAG: モデル自身が検索必要性を判断。不要な検索を削減