この記事の要点(2026年5月時点)
- AIエージェントのRAG用ベクトルDBは「インデックス規模」「クエリ頻度」「埋め込みモデル」「運用人員」で決まる。汎用「最強の1本」は存在しない
- Pinecone Serverlessはストレージ$0.33/GB・月+Read/Writeの従量課金モデルで、運用ゼロを優先する小〜中規模AIエージェントに最適
- Qdrantはセルフホストで100万ベクトル規模/月数百ドル台に抑えやすく、HNSW+量子化(Scalar/Binary)で大規模スケールも狙える
- Weaviateは「モジュール」でハイブリッド検索(BM25+ベクトル)とマルチテナンシーを標準装備。法人B2B向け
- Chromaはローカル開発・PoC・小規模社内エージェント向け。本番大規模には向かない
- pgvectorは既存PostgreSQL運用と統合したい組織のデフォルト。0.7系でHNSW・量子化が入り中規模なら十分戦える
- Anthropic Files API / OpenAI Assistants(File Search)は「ベクトルDBの代替」ではなく「ベクトルDB+RAGパイプラインを丸ごとマネージドにした層」。コストと制御性のトレードオフで選ぶ
なぜ2026年も「ベクトルDBの選定」がAIエージェント構築の最重要意思決定なのか
2024〜2025年にかけてAIエージェント(Agentic AI)の用途は爆発的に広がりました。営業ナレッジ検索、社内ドキュメントQA、コード理解アシスタント、業務SOP自動実行——いずれもLLMが「自社固有の知識」にアクセスする必要があり、そこをつなぐのがRAG(Retrieval-Augmented Generation)です。そしてRAGの中核を担うのがベクトルデータベースです。
ところが多くの現場で起こっているのは次の3つの失敗です。
- 「とりあえずChroma」でPoCを作り、本番の数百万ドキュメントで詰む
- 「とりあえずPinecone」を選び、月額数千ドル超に膨らんでから乗り換え検討
- 「とりあえずpgvector」で起動し、検索品質(Recall)が上がらず手戻り
本記事は2026年5月時点の最新情報をベースに、AIエージェントのRAG実装で実際に第一選択肢になる5つのベクトルDB——Pinecone・Weaviate・Qdrant・Chroma・pgvector——を、性能特性・スケーリング・コスト・運用の4軸で比較し、用途別に「何を選べばいいか」の判断軸を示します。さらに2025年後半に存在感を増したAnthropic Files API / OpenAI Assistants File Searchとの関係性も整理し、「自分でベクトルDBを持つべきか、マネージドに任せるべきか」のトレードオフまで深掘りします。
ベクトルDBが扱う「ベクトル検索」の中身を5分で整理する
選定の前提として、ベクトルDBが何をしているのかを最小限だけ揃えておきます。
1. 埋め込み(Embedding)とは
テキスト・画像・音声・コードを、意味の近さが幾何的距離になる多次元の数値ベクトルに変換したものを埋め込みと呼びます。例えばOpenAIのtext-embedding-3-largeは3,072次元、Cohere embed-multilingual-v3.0は1,024次元、Voyage AIのvoyage-3-largeは1,024次元(短縮表現対応)です。
2. 類似度の計算
主要な距離関数はCosine類似度・内積(Dot Product)・L2距離の3つで、ほぼ全てのベクトルDBが対応します。AIエージェントのRAGでは正規化済みベクトル+Cosine類似度がデファクトです。
3. 近似最近傍探索(ANN)
厳密最近傍をすべて計算すると数百万ベクトルで秒オーダーになるため、近似アルゴリズムを使います。代表的なのは以下です。
- HNSW(Hierarchical Navigable Small World): グラフ型インデックス。Pinecone・Weaviate・Qdrant・pgvector・Chromaすべてが採用。検索速度とRecallのバランスが良い
- IVF系(IVF_FLAT/PQ): クラスタリング型。pgvectorが採用。HNSWより低メモリだが調整が必要
- DiskANN: ディスク常駐型。大規模スケール向け。Pinecone内部実装の一部で採用が示唆
4. 量子化(Quantization)
ベクトルを圧縮してメモリ・ストレージを削減する技術です。2024〜2025年にかけて主要DBが軒並み実装しました。
- Scalar Quantization(SQ): 32bit float → 8bit int。約4倍圧縮、Recall低下小
- Binary Quantization(BQ): 32bit float → 1bit。約32倍圧縮、特定埋め込みモデルで実用
- Product Quantization(PQ): ベクトルを分割して個別圧縮。最も圧縮率が高い
5. メタデータフィルタリング
「2024年以降」「営業部のドキュメントのみ」のような条件でベクトル検索の前後に絞り込むのがメタデータフィルタです。AIエージェントのRAGでは権限分離(Row-Level Security)の代用としても重要で、性能差が大きく出る部分です。
5大ベクトルDB完全比較マトリクス(2026年5月時点)
まず一覧表で全体像を掴みます。詳細は後段で1つずつ深掘りします。
| 項目 | Pinecone | Weaviate | Qdrant | Chroma | pgvector |
|---|---|---|---|---|---|
| 提供形態 | マネージド専用 | マネージド+OSS | マネージド+OSS | OSS+マネージド | PostgreSQL拡張 |
| 主要インデックス | 独自(DiskANN系) | HNSW | HNSW | HNSW | HNSW/IVFFlat |
| 量子化 | 自動(Serverless) | SQ/BQ/PQ | SQ/BQ/PQ | 限定的 | halfvec/bit/SQ(0.7+) |
| ハイブリッド検索 | Sparse+Denseインデックス | 標準(BM25+Vector) | 標準(BM25+Vector) | 基本のみ | tsvector+vector |
| メタデータフィルタ | 強(全フィールド) | 強(GraphQL) | 強(payload index) | 基本 | SQLそのまま |
| マルチテナンシー | Namespace | Tenant(標準) | Collection+Shard | Collection | Schema/RLS |
| スケール上限目安 | 数十億ベクトル | 数十億ベクトル | 数十億ベクトル | 〜数百万ベクトル | 〜数千万ベクトル |
| レイテンシp95 | 50〜100ms | 20〜80ms(自前) | 10〜50ms(自前) | 条件依存 | 20〜100ms(自前) |
| 運用負荷 | 極小 | 小〜中 | 小〜中 | 小 | 既存DB運用に同居 |
| 主要ユースケース | 本番AIエージェント | B2B SaaS RAG | 性能/コスト重視 | PoC・社内ツール | 既存PG運用と統合 |
※レイテンシは1Mベクトル・dim=1536の単一ノード参考値で、ネットワーク区間を含めると変動します。Pineconeはマネージド前提でリージョン間遅延も含む数字、自前ホストは同一AZ計測想定です。
Pinecone:「運用ゼロ」を最優先するAIエージェントの第一候補
1. 何が強いか
Pineconeは2023年にServerlessアーキテクチャを発表し、2024年にGA(一般提供)に達しました。これまでのPodベース(常時起動のVMを契約する課金)から、ストレージ・Read Unit(RU)・Write Unit(WU)の従量課金に切り替わったのが最大の変化です。
公式ドキュメント記載のServerless課金体系(US-East基準・2026年5月時点)は次のとおりです。
- Storage: $0.33/GB/月
- Read Units: $16/100万 RU
- Write Units: $4/100万 WU
- 初期費・最低利用料金: なし(従量のみ)
これによりPoC〜小規模本番の月額が事実上「数十ドル〜数百ドル」に収まりやすくなり、Pineconeを敬遠していた中小チームでも採用しやすくなりました。
2. AIエージェントRAGでの実装例
from pinecone import Pinecone, ServerlessSpec
from openai import OpenAI
pc = Pinecone(api_key="...")
oa = OpenAI()
# Index作成(初回のみ)
pc.create_index(
name="agent-knowledge",
dimension=1536,
metric="cosine",
spec=ServerlessSpec(cloud="aws", region="us-east-1"),
)
index = pc.Index("agent-knowledge")
def embed(text: str) -> list[float]:
return oa.embeddings.create(
model="text-embedding-3-small", input=text
).data[0].embedding
# Upsert(社内ドキュメント取り込み)
index.upsert(vectors=[
{"id": "doc-1", "values": embed("..."), "metadata": {"source": "handbook", "dept": "sales"}},
])
# Agent側からの検索
def retrieve(query: str, dept: str | None = None, top_k=5):
res = index.query(
vector=embed(query),
top_k=top_k,
include_metadata=True,
filter={"dept": {"$eq": dept}} if dept else None,
)
return [m["metadata"] for m in res["matches"]]
ポイントはServerless環境ではインデックスサイズに応じて内部のシャードが自動拡張されることです。コードを書き換えずに数百ベクトル→数千万ベクトルまでスケールできます。
3. 弱点・落とし穴
- クエリレイテンシp95がやや高い: マネージド前提のため、自前HNSW実装(Qdrant等)に比べてリージョン間/コールドスタートの影響を受けやすい。チャットUIのストリーミング応答では十分だが、リアルタイム検索系には向かないことがある
- セルフホスト不可: 完全SaaS。社内データを外部に出せない要件では選択肢に入らない
- 大量書き込み時のWUコスト: 数千万ドキュメントの初期投入では一時的にWU課金が数百ドル規模に跳ねるケースあり。Bulk Import API推奨
Weaviate: B2B SaaSのRAGに効く「機能てんこ盛り」型
1. 何が強いか
Weaviateはオープンソースで開発され、Weaviate Cloud Services(WCS)というマネージド版も提供されています。最大の特徴は「モジュール」「ハイブリッド検索」「マルチテナンシー」の3つです。
- モジュール: text2vec-openai, multi2vec-clip, generative-cohere, reranker-cohere など埋め込み生成や生成AI連携をDBレイヤーで吸収できる
- ハイブリッド検索: BM25(キーワード)とベクトル検索の重み付き融合をクエリ1本で実行できる。AIエージェントのRAGで「型番」「製品名」のような固有名詞検索の精度が必要なケースで強い
- マルチテナンシー: 1コレクションの中にテナント単位の独立インデックスを作れる。SaaSで「顧客企業ごとにナレッジを分離する」要件をDBレイヤーで吸収できる
2. AIエージェントRAGでの実装例(ハイブリッド検索)
import weaviate
from weaviate.classes.query import HybridFusion
client = weaviate.connect_to_wcs(
cluster_url="https://...weaviate.network",
auth_credentials=weaviate.auth.AuthApiKey("..."),
)
collection = client.collections.get("AgentKnowledge")
# BM25 50% + Vector 50% 融合
res = collection.query.hybrid(
query="新製品の保守規程",
alpha=0.5,
fusion_type=HybridFusion.RELATIVE_SCORE,
limit=5,
filters=weaviate.classes.query.Filter.by_property("dept").equal("sales"),
)
for obj in res.objects:
print(obj.properties["text"][:200])
3. 弱点・落とし穴
- クライアントSDKの破壊的変更が多い: v3→v4で大幅にAPIが変わった。本番運用ではバージョン固定が必須
- マネージド(WCS)のコストが安くはない: Serverlessクラスタは月$25〜だが、本格的なProduction Tierは月数百〜千ドル規模になる
- クエリの自由度の代償としてチューニング難易度がやや高い: ハイブリッド・rerank・フィルタを組み合わせるとパラメータ空間が広く、最適化に経験が必要
Qdrant: 性能・コスト・セルフホストの三拍子で評価が伸びている
1. 何が強いか
Qdrantは2021年にRustで実装された比較的後発のベクトルDBですが、2023〜2025年で大手AI企業の採用が急増しました。強みは次の3点です。
- レイテンシが速い: Rust実装+HNSW最適化で、同一AZ内p95が二桁ミリ秒に収まることが多い
- 量子化が充実: SQ/BQ/PQに対応。Binary Quantizationは1536次元ベクトルを大幅に圧縮しつつ、Cohereやvoyage-3など特定モデルでRecall低下を5%以内に抑えられるとされる
- セルフホストが軽い: Docker 1コンテナで起動でき、運用がシンプル
2. AIエージェントRAGでの実装例(Binary Quantization)
from qdrant_client import QdrantClient
from qdrant_client.models import (
Distance, VectorParams, BinaryQuantization, BinaryQuantizationConfig
)
client = QdrantClient(url="http://localhost:6333")
client.create_collection(
collection_name="agent_kb",
vectors_config=VectorParams(size=1536, distance=Distance.COSINE),
quantization_config=BinaryQuantization(
binary=BinaryQuantizationConfig(always_ram=True),
),
)
# 検索: 量子化版で高速近似→未圧縮で再ランクの2段
from qdrant_client.models import SearchParams, QuantizationSearchParams
results = client.search(
collection_name="agent_kb",
query_vector=query_emb,
limit=10,
search_params=SearchParams(
quantization=QuantizationSearchParams(
ignore=False, rescore=True, oversampling=2.0
)
),
)
「rescore=True」が肝で、量子化版で大まかな上位候補を高速に取り、未圧縮ベクトルで再評価することで速度と精度の両立を狙えます。
3. 弱点・落とし穴
- マネージドQdrant Cloudは比較的新しい: 信頼性・サポート体制でPinecone・Weaviateの長年実績にやや劣る面はある(2026年時点で改善中)
- エコシステムのSI/コンサル層がまだ薄い: 日本市場では特に。社内に運用エンジニアがいる前提
- マルチテナンシーは「Collection per tenant」or「payload + filter」の2通り: 件数が多すぎるとCollection分割の運用が辛い。Weaviateほどのテナンシー機構ではない
Chroma: PoCと社内ツール用エージェントの「最速立ち上げ」枠
1. 何が強いか
Chromaは「pip install chromadb」だけで動く軽量さが圧倒的な強みです。LangChain・LlamaIndexの公式チュートリアルでもデフォルトに採用されることが多く、エコシステムの入口に居続けています。
import chromadb
client = chromadb.PersistentClient(path="./chroma_db")
collection = client.get_or_create_collection("agent_kb")
collection.add(
ids=["doc1", "doc2"],
embeddings=[[...], [...]],
metadatas=[{"src": "handbook"}, {"src": "wiki"}],
documents=["...", "..."],
)
results = collection.query(query_embeddings=[query_emb], n_results=5)
2. 適用範囲
- PoC・社内ハッカソン・個人プロジェクト
- 「数万〜数十万ドキュメント、月数百クエリ」レベルの社内ツール
- LangChain・LlamaIndexと組み合わせたチュートリアル/教材
3. 弱点・落とし穴
- 大規模本番には向かない: 単一プロセスで動くため、数百万ベクトル規模ではメモリ・スループットがすぐに壁になる
- マネージドChroma Cloudは2024〜2025年で立ち上がり中。本番採用実績はPinecone・Weaviate・Qdrantほど分厚くない
- ハイブリッド検索・高度な量子化・マルチテナンシーが弱い: 機能要件が増えると詰まる
PoCはChromaで作り、本番に上げるタイミングでPinecone/Qdrant/Weaviate/pgvectorに移行するパターンが現場では最も多く見られます。
pgvector: 既存PostgreSQLとAIエージェントの最短統合ルート
1. 何が強いか
pgvectorはPostgreSQLの拡張として動く実装で、最大の利点は「既存DBにベクトル検索が同居できる」点です。0.5でHNSWが入り、0.6でハーフプレシジョン、0.7系でさらに量子化・短縮表現の対応が進みました。2026年時点のメリットは次のとおりです。
- RDSやCloud SQL、Supabaseで拡張を有効にするだけで使える
- SQLの WHERE 句でメタデータ条件を素直に書ける(RLSも使える)
- 既存のバックアップ・レプリケーション・監視がそのまま使える
2. AIエージェントRAGでの実装例(HNSW + halfvec)
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE agent_kb (
id BIGSERIAL PRIMARY KEY,
source TEXT NOT NULL,
dept TEXT NOT NULL,
content TEXT NOT NULL,
embedding halfvec(1536) NOT NULL,
created_at TIMESTAMPTZ DEFAULT now()
);
-- HNSW + half precision でメモリ削減
CREATE INDEX ON agent_kb
USING hnsw (embedding halfvec_cosine_ops)
WITH (m = 16, ef_construction = 64);
-- 検索: 部門フィルタ込み
SELECT id, source, content,
1 - (embedding <=> $1) AS similarity
FROM agent_kb
WHERE dept = $2
ORDER BY embedding <=> $1
LIMIT 5;
halfvec化により、float32(1536次元=6.1KB/row)が約半分の3KB/rowまで圧縮されます。1,000万件規模なら数十GB差になります。
3. 弱点・落とし穴
- 超大規模(数億〜)では専用DBに敵わない: 数千万件までは現実的だが、それ以上はPinecone/Qdrantが優位
- HNSW構築が重い: 数百万件のインデックス構築でCPU時間が長くなる。pg_hint_plan・並列構築のチューニングが必要
- ハイブリッド検索は「自前で組む」前提: tsvector(BM25代替)とvectorをUNIONで合成するなど工夫が必要。Weaviate/Qdrantの「標準機能」レベルではない
コスト試算: 1,000万ベクトル/月100万クエリのAIエージェントを想定
ここで仮想ケースとして「dim=1536・1,000万ベクトル(社内ドキュメント約30万件×平均30チャンク)・月100万クエリ・月10万件更新」のAIエージェントRAGを想定し、月額コストの目安を比較します。
| 選択肢 | 月額目安 | 内訳の考え方 |
|---|---|---|
| Pinecone Serverless | 約$200〜$600 | Storage(約60GB×$0.33)+Read Units(クエリ量依存)+Write Units(更新量依存)。クエリ1回あたり数RU〜十数RU換算 |
| Weaviate Cloud Standard | 約$300〜$1,200 | クラスタリソース+ベクトル量+モジュール利用に応じた段階課金 |
| Qdrant Cloud(自前ノード相当) | 約$150〜$500 | 1〜2ノード(16〜32GB RAM)+ストレージ。BQ量子化前提なら下限側 |
| Qdrant セルフホスト(EC2) | 約$120〜$300 | r6i.xlarge〜2xlarge相当+EBS。運用工数を別途見込む必要 |
| Chroma セルフホスト | 非推奨 | 1,000万件規模は単一プロセスでは厳しい。本番では選ばない |
| pgvector(RDS r6g.large + halfvec) | 約$200〜$400 | 既存DBに同居する場合は実質増分のみ。新規ならインスタンス代+ストレージ |
| OpenAI Assistants File Search | 約$500〜$1,500 | Vector store storage($0.10/GB/日、最初1GBは無料)+ファイル参照のtoken課金 |
| Anthropic Files API | 埋め込み課金とは別体系 | ファイル保管自体は2026年時点ではベータ含めて段階的に有償化中。token課金が主 |
※ いずれも公開料金からの試算で、Egress(下り通信)・モニタリング・バックアップ・サポート契約は除外しています。実運用では+20〜40%を見込むのが安全です。
Anthropic Files API / OpenAI Assistants File Search との関係性
1. これらは「ベクトルDBの代替」なのか
結論から書くと、Anthropic Files APIやOpenAI Assistants File Searchは、ベクトルDB + RAGパイプラインを丸ごとマネージド化した一段上のレイヤーです。中身ではベクトル化・インデックス・検索が動いていますが、ユーザーから見ると「ファイルを置いて、Assistant/Claudeに紐づければ参照してくれる」という抽象になります。
| レイヤー | 例 | 制御性 | 運用負荷 | コスト構造 |
|---|---|---|---|---|
| 自前RAG(ベクトルDB+Embedding+Retriever) | Pinecone+OpenAI Embeddings+独自Retriever | 高い | 中 | 分離可能 |
| マネージドRAG | OpenAI Assistants File Search、Anthropic Files API+context管理 | 中 | 低 | token・storageに統合 |
| 長文context直接投入 | Claude 3.5/3.7 Sonnet/Opusの200k window | 高 | 極小 | tokenだけ |
2. OpenAI Assistants File Search
OpenAI Assistants APIには「File Search」ツールがあり、Vector Storeにファイルをアップロードするだけでチャンク化・埋め込み生成・検索が裏側で実行されます。料金体系の代表的な要素は次のとおりです(2026年5月時点・公式ドキュメント記載値ベース)。
- Vector Store Storage: $0.10/GB/日(最初の1GBは無料)
- 埋め込み生成・検索のtoken課金: Assistant runの一部として扱われる
- Beta機能のため、料金・仕様が変更される可能性がある
「自分でPineconeを契約してEmbeddings APIを叩いてretrieverを書く」のと比べて、OpsとSDK実装が大幅に減ります。一方で次の点が制約になります。
- チャンク化戦略・埋め込みモデルの選定をほぼ任せる必要がある
- 細かいメタデータフィルタやハイブリッド検索のチューニング自由度は限定的
- OpenAIに依存するため、Claude等への切り替えコストが上がる
3. Anthropic Files API
Anthropic Files APIは2024年以降に整備が進み、Claudeに対してファイルを参照させる仕組みが提供されています。2026年5月時点ではbeta機能を含む形で運用されており、PDF・テキスト・コードベースをClaudeに渡す前段のファイル管理レイヤーとして使えます。
- ファイルアップロード→IDをmessages APIに渡して参照させる
- 長文contextと組み合わせて、200k tokenを超える資料群でも段階的に参照可能
- Claudeの200k context+Files APIを組み合わせると、「明示的なベクトル検索なし」でもRAG的なふるまいに近づく
4. では、どう使い分けるべきか
| シナリオ | 推奨レイヤー |
|---|---|
| 10万件未満・社内検索アシスタント | OpenAI Assistants File SearchやAnthropic Files API中心。自前ベクトルDB不要 |
| 百万件規模・モデル中立・SLA要件あり | Pinecone/Qdrant/Weaviate/pgvectorで自前RAG構築 |
| マルチテナントB2B SaaS | Weaviate(マルチテナンシー)+独自RAG |
| 機微データ・完全自社ホスト | Qdrant/pgvectorをセルフホスト |
| 1案件あたり数十〜数百ドキュメント | 長文context直接投入(Claude 200k)+Files APIで十分なケース多数 |
2026年現在、AIエージェントの設計者がまず問うべきは「本当にベクトルDBが必要か?」です。長文context+Files APIで足りるなら、ベクトルDBを抱えない方が運用が軽くなります。
用途別・選び方フローチャート
ここまでを実務の選定フローに落とし込みます。
STEP 1: ドキュメント規模・更新頻度を見積もる
- 〜10万件、更新少: 長文context直接投入 or Files API/Assistantsで完結を検討
- 10万〜数百万件: 専用ベクトルDB導入を本格検討
- 数百万〜数億件: 専用ベクトルDB必須。Pinecone/Qdrant/Weaviateが現実解
STEP 2: 運用人員・ホスティング要件を確認する
- 運用ゼロ最優先: Pinecone Serverless
- 運用1〜2人いる: Qdrant Cloud / Weaviate Cloud
- セルフホスト必須(機微情報・社内ポリシー): Qdrant / pgvector / Weaviate(OSS)
STEP 3: 検索要件を確認する
- 固有名詞・型番に強くしたい: ハイブリッド検索が標準のWeaviate/Qdrant
- SQLメタデータと自然に統合したい: pgvector
- 低レイテンシ最優先: Qdrant(セルフホスト)
STEP 4: コスト感をシミュレートする
上の「コスト試算」セクションをベースに、想定クエリ数・ベクトル量で2〜3パターン試算して経営/PMと合意します。
AIエージェントRAG構築の典型シナリオ3つ
シナリオA: 営業ナレッジエージェント(中堅SaaS、社員200名)
- 規模: 商談議事録・提案書・FAQで約20万チャンク
- 要件: SlackからのQA、リアルタイム性は中程度
- 推奨: Pinecone Serverless + OpenAI text-embedding-3-small + Claude/GPTどちらでも動かせる構成
- 理由: 運用人員1名以下、月数百ドルで安定運用可能
シナリオB: 法人向けマルチテナントRAG SaaS
- 規模: 顧客企業数百社、各社平均10万チャンク、合計数千万チャンク
- 要件: テナント分離(法的にも厳密)、ハイブリッド検索、reranker利用
- 推奨: Weaviate(マルチテナンシー)+ Cohere/voyage埋め込み+ Cohere Rerank3
- 理由: マルチテナンシーが標準機能、ハイブリッド検索・reranker連携が組み込みで楽
シナリオC: 既存業務システム連動の社内エージェント
- 規模: 既存PostgreSQL上のレコード+ナレッジ約50万チャンク
- 要件: 既存DB運用に同居、権限分離はRLSで実現したい
- 推奨: pgvector(halfvec+HNSW)+ 既存DBチームが運用
- 理由: ベクトルDBを別途立てるより、既存PG運用に乗せた方が運用工数が圧倒的に低い
よくある失敗パターンと回避策
1. 「Recall低い」のままチャンキングをいじり倒す
埋め込みモデル・チャンクサイズ・オーバーラップを変えるのも大事ですが、まずやるべきは「クエリ拡張」と「Rerank」です。LLMで「同義表現に展開」+「上位50件を取って2段目rerankで上位5件に絞る」の2点で、ほとんどのRAGはRecall@5が15〜30%改善します。
2. メタデータフィルタを後付けで足す
「あとから部門・年度で絞りたい」を後付けすると、再インデックスが必要になりベクトル数百万件で苦しみます。最初の設計時にメタデータスキーマを決め切ることが重要です。
3. PoCのChromaのまま本番に上げる
Chromaは「ローカルファイル」前提の単一プロセス設計が強いツールです。100万ベクトル超えるあたりからスループットとメモリで詰まります。本番要件が立ち上がった段階でPinecone/Qdrant/Weaviate/pgvectorに移行する判断を早めに行うべきです。
4. 埋め込みモデルを途中で変えて全件再生成コストに驚く
text-embedding-ada-002からtext-embedding-3-largeに切り替えるだけで、全文書の再埋め込みが必要になり、数百〜数千ドルかかります。埋め込みモデルは最初に「短縮表現対応(Matryoshka)」「多言語性能」「コスト」の3軸で慎重に選定すべきです。
5. ベクトルDBにすべてのナレッジを突っ込もうとする
業務エージェントでは「ベクトル検索が向くデータ」と「キーワード検索が向くデータ」が混在します。製品マスタや料金表はSQL/BM25の方が精度が出るケースも多く、ハイブリッド検索+リランクで使い分ける設計が現実的です。
関連記事・さらに深掘りしたい人へ
本記事と組み合わせて読むと理解が立体的になる記事を3本ご紹介します。
- Agentic RAGの4パターン徹底比較ガイド — ベクトルDBの上で動く検索戦略(Naive RAG/Agentic RAG/GraphRAG/Hybrid RAG)の比較
- 社内FAQ向けAIエージェントRAG×MCP実装ガイド — 本記事のベクトルDBを社内ナレッジ(SharePoint/Confluence/Slack)とMCP経由でつなぐ実装例
- AIエージェントのコスト最適化7原則 — 埋め込み生成・検索・LLM呼び出しのコストを切り分けて最適化する手法
外部一次ソース
- Pinecone公式 — Serverless課金・アーキテクチャ
- Weaviate公式 — ハイブリッド検索・マルチテナンシー
- Qdrant公式 — HNSW・量子化(SQ/BQ/PQ)
- Chroma公式 — クライアント・パーシステンス
- pgvector GitHub — HNSW・halfvec・量子化
- PostgreSQL公式 — 拡張機構・チューニング
- OpenAI Assistants File Search — Vector Storeの料金・仕様
- Anthropic公式ドキュメント — Files API・長文context
まとめ: 2026年のベクトルDB選定は「DBの優劣」より「自社のRAG設計」で決まる
5つのベクトルDBを比較してきましたが、本質的な結論は「正解は1つではない」です。むしろ次の3つの自社条件で答えが変わります。
- ベクトル規模(数万〜数億)とアクセス頻度
- 運用人員と「セルフホスト必須かどうか」
- 検索の自由度(ハイブリッド・rerank・テナント分離)に対する要求
とりあえずの推奨は次のとおりです。
- PoC〜小規模本番でとにかく素早く: Pinecone Serverless
- B2B SaaSでマルチテナント・ハイブリッド検索が要件: Weaviate
- 性能・コスト・セルフホストの三拍子で選ぶ: Qdrant
- 既存PostgreSQLを使い倒す: pgvector
- PoC・社内ハッカソン専用: Chroma
そして、忘れてはならないのが「ベクトルDBを抱えない選択肢」です。Anthropic Files APIやOpenAI Assistants File Searchで足りるなら、ベクトルDBを自前で運用しない方が圧倒的に楽です。AIエージェントの設計者がまず問うべきは「自社固有の知識をどの程度の頻度で・どの程度の規模で参照させるか」であり、その答え次第で必要なレイヤーが変わります。
本記事を踏まえて、もし自社のRAG設計をゼロから整理したい場合は、ぜひ下記からご相談ください。
この記事を読んで導入イメージが固まってきた方へ
UravationではAIエージェント導入の研修・コンサルを行っています。ベクトルDB選定・RAGアーキテクチャ設計・本番運用の伴走まで対応可能です。
