#chunking-strategy (1)
アーキテクチャの進化
RAGはNaive → Advanced → Modular → Agenticへ進化中。2025年時点では以下が実装標準:
- Naive RAG: 単純な全文検索(過去)
- Advanced RAG: 再ランキング・クエリ展開など検索最適化
- Modular RAG: 検索・リランク・生成の各モジュール独立化
- Agentic RAG: LLMが「検索すべきか」を判断し動的に実行
ハイブリッド検索が実装標準
BM25(統計ベース)+ ベクトル検索の組み合わせが業界標準:
- BM25: キーワード完全一致に強く、計算コスト低い
- ベクトル: セマンティック類似性を捉える
- 結合手法: Reciprocal Rank Fusion (RRF) が堅牢で推奨
単一ベクトル検索より精度が安定し、本番環境で採用が加速している。
チャンク戦略の最新知見
| 項目 | 値 | 備考 |
|---|---|---|
| 最適サイズ | 256-512トークン | 言語モデル依存 |
| オーバーラップ | 10-20% | 文脈を繋ぐため必須 |
| コンテキスト上限 | ~2,500トークン | これ超過で品質cliff |
Contextual Retrieval(Anthropic提唱): チャンクにLLMで先行文脈説明を付加 → 検索エラー67%削減。コスト増だが精度向上は顕著。
Late Chunking: 文書全体を先に処理してからチャンク境界でプーリング。セマンティックチャンキングより実装簡単で、意外と精度が高い。
Markdownドキュメント向けベストプラクティス
- ヘッダーベース分割が最も自然で実用的
- セマンティックチャンキングは断片化リスク大・精度低い(54%)
- シンプルな固定サイズ + オーバーラップが堅牢
GraphRAG・Self-RAGの活用
- GraphRAG: エンティティ関係グラフでテーマ横断的な質問に対応。コスト50%削減報告あり
- Self-RAG: モデル自身が検索必要性を判断。不要な検索を削減