「うちでも導入できそう」——その判断材料を
前回(第6回)でローカルAIをご紹介したところ多くの反響がありましたので、今回は、実際に社内に導入するとしたら何を揃えればいいのか、もう一歩具体的なところまで踏み込みます。
少し前まで、実用に足るローカルAIは高性能GPUを積んだ専用機が前提で、まさに「高嶺の花」でした。ところが昨今は、効率の良いモデルやミドルクラスGPUでも十分使える選択肢が増え、状況が変わってきています。
カギはVRAM——「AIに使えるメモリ量」で性能が決まる
ローカルAIの性能を左右する大きな要素が、GPUのVRAM(ビデオメモリ)です。
AIモデルは処理中にデータをVRAMに展開します。VRAMに収まりきらない部分を通常のメモリ(RAM)に退避させて動かすこともできますが、その場合は処理速度が大きく低下します。実用的な速度を出すには、使用するモデルに応じて、できるだけVRAM内に収めることが理想です。
メモリ消費の少ない量子化モデルを使う前提の大まかな目安は以下のとおりです。
| モデルサイズ | 必要なVRAM・メモリの目安 | 日本語での実用性 |
|---|---|---|
| 4B〜7B | 8GB前後 | 文書要約・簡単なQ&Aに対応 |
| 14B | 16GB前後 | 業務文書の整理・検索に使いやすい |
| 32B | 24GB以上 | 精度高め、複雑な質問にも対応しやすい |
| 120B | 80GB前後以上 | 高精度・複雑な推論向け。大容量メモリ環境が前提 |
予算別・構成の目安
GPUがなくても、CPU処理でローカルAIは動きます。応答は遅く、1文の生成に数十秒かかることもあります。そのため業務利用には向きませんが、「どんなものか体感する」目的には使えます。
まず雰囲気をつかんでから投資を判断する、という進め方ができます。
現実的に業務で使い始めるなら、この帯域が最初の選択肢です。
- VRAM 16GBのミドルクラスGPU(例:RTX 5060 Ti 16GBなど)を追加
- 実売価格は時期や在庫状況によって変動。目安は数万円台後半〜十数万円程度
- 電源容量と空きスロットがあればGPU追加のみで実用構成に近づく
- 14Bクラスや量子化した中規模モデルを扱いやすい
- 実売19〜25万円程度(メモリ構成によって変動)
- CPUとGPUがメモリを共有するユニファイドメモリ構成
- 一般的なWindows PCとはメモリの考え方が異なる
- 静音・省スペース。専用サーバーを置く場所がない場合に向く
複数人が同時に使う、より精度の高いモデルを動かしたい場合はこの帯域です。
- VRAM 16GB上位クラスGPU(例:RTX 5080など)搭載PC:40万円台後半〜
- VRAM 32GBクラスGPU(例:RTX 5090など)搭載PC:70万円台〜。構成や在庫状況によっては100万円近くになる場合もある
- 32Bクラスのモデルを扱いやすい
- 複数人で共有する場合は、GPU性能だけでなく冷却・電源容量・メモリ・ストレージ・ネットワークも重要
さらに上を目指すなら:NVIDIA DGX Spark
120Bクラスの大規模モデルを本格的にローカルで検証したい場合、NVIDIAのDGX Sparkが選択肢に入ります。Grace Blackwellチップを搭載したコンパクトな据え置き型のAIコンピュータで、128GBのユニファイドメモリを持ちます。
120Bクラスのモデルは、80GB前後以上のメモリが必要になる場合があります。DGX Sparkは128GBのユニファイドメモリを搭載しているため、このクラスのモデルにも対応できる構成です。
モデルは何を選ぶか
ハードウェアが決まったら、次はモデルの選択です。
日本語業務に向いているのは、日本語や多言語データへの対応が強いモデルです。2026年現在、実績のある選択肢として、GoogleのGemma系、AlibabaのQwen系、OpenAIのgpt-oss系などがあります。いずれもローカル環境で利用できるモデルが公開されています。
まず試すなら、16GB VRAMでも扱いやすい小〜中規模モデルから始めるのが現実的です。Gemma系の小型モデルやQwen系の7B〜14Bクラス、またはgpt-oss-20bのようなモデルは、ローカル環境での検証に向いています。
Gemma 4 26B A4BのようなMoE(Mixture of Experts)構造のモデルは、推論時に一部の専門家モデルだけを使うことで、計算量を抑えやすいモデルです。そのため、大きなモデルでも比較的効率よく推論できる点がメリットです。
より高い精度や複雑な推論が必要な場合は、gpt-oss-120bのような大規模なオープンウェイトモデルも候補になります。gpt-oss-120bは120Bクラスの大規模モデルで、推論やコーディング用途でも一定の性能が期待できるモデルです。ただし、動作には80GB級のメモリ環境が目安となるため、DGX Sparkや大容量GPUを備えたワークステーションでの運用が前提になります。
量子化とは
モデルの精度を一部落として軽くしたバージョンです。Q4は4bitに圧縮したもので、元のモデルより少し精度が落ちる場合がありますが、VRAMの消費を大幅に抑えられます。
まとめ:段階的に始めればいい
| フェーズ | 構成 | 費用感 | 動かせるモデルの目安 |
|---|---|---|---|
| お試し | 既存PC(CPU処理) | 追加費用なし | 小型モデル(遅い) |
| 実用開始 | GPU追加 or Mac mini M4 Pro | 10〜25万円 | 7B〜14Bクラス、量子化した中規模モデル |
| 本格運用 | ハイエンドGPU搭載PC | 40〜80万円〜 | 32Bクラス |
| 大規模検証 | DGX Sparkなど | 100万円前後〜 | 120Bクラスも候補 |
まず既存PCで体験し、「これは使える」と判断してから投資する——この順番が現実的です。
ローカルAIはクラウドAIと異なり、自社内でモデルを動かせるため、APIの従量課金を抑えやすく、データ管理の面でもメリットがあります。一方で、機器購入費、電気代、保守管理などのコストは発生します。そのため、単純な利用料金だけで比較するのではなく、運用体制や利用頻度、扱うデータの性質を含めて、自社に合った形を選ぶことが重要です。