AIが動かない！？そんなときのトラブルシューティング

2025年4月18日

自分の環境で動いていたAIが動かない、
コンピュータで計算をしていて結果が異なる、そんなことは起こり得ないと思っていませんか？

Reproducibility（再現性）、Determinism（決定論）というキーワードで開発者向け資料を調べると
公式ドキュメントにおいて「再現性が担保されないパターンがある」という説明が見つかります。

いくつかのパターンをご紹介します。

自分の環境で動いていたAIモデルが本番で動かない

環境依存のフレームワークを利用していたり、
別のフォーマットにモデルをエクスポートしていた場合に動かないことがあります。

例えば TensorRTは環境に非常に厳しいです。
自分の環境と、本番環境が大きく異なっていませんか？

実行する環境と同じ環境でエクスポートしましょう。

比較的、環境依存性が低いもの

PyTorch
ONNX、CoreML、TFLite、TF.js

あくまで比較的、です。
PytorchはPython環境とPyTorchライブラリ（およびCUDA/cuDNN）に依存するため、
そこを注意すればいいはずではあります。
特にGPUアーキテクチャの違いを、ライブラリが間に入って吸収してくれることが期待できます。

比較的、環境依存性が高いもの

TensorRT、Edge TPU、IMX500

環境というかGoogle、ソニーなど特定のメーカーのAIハードウェアに依存しているものを挙げていますが、TensorRTは意外に思われるかも知れません。

TensorRTはGPUアーキテクチャ、CUDA、cuDNN、TensorRTバージョン、ドライバーに強く依存しています。ビルド時のGPUアーキテクチャと実行時が異なる場合、動作しないはず。
異なる環境では再ビルド必須と考えた方がよいでしょう。

特定の要件を持つプロジェクトでTensorRTを選択・使わねばならない、ということもあると思います。
可能であれば、ロットすら同じGPUを2枚買ってしまって1枚を予備に持っておくぐらいの方が慌てなくて良いかも知れません。

GPUを変えたら動かなくなった

同じデスクトップで、GPUを変えただけで動かなくなる、そういうケースもあります。
上記の通り環境依存の強いものは注意が必要です。

それ以外の要因として、世代を超えた交換をしていませんか？

同じアーキテクチャのGPUを使うようにしましょう。

上記の通り、異なるアーキテクチャのGPUにおいては例えばTensorRTであればまず動かないはずです。

アーキテクチャを確認

現行のコンシューマー向けのGPUとして4つのアーキテクチャがあると理解すればよいと思います。

Turingアーキテクチャ（2018年）
Ampereアーキテクチャ（2020年）
Ada Lovelaceアーキテクチャ（2022年ごろ）
Blackwell アーキテクチャ（最新、GeForce RTX 5090などで採用）

さらに同じアーキテクチャで同じダイ（物理的なシリコンチップ）であるにも関わらず、
製造時の品質により異なるGPUとして販売がされています。
ダイ違いが問題になるということは考え辛いですが例を挙げます。

TuringアーキテクチャGPUの例

ダイ: TU106
- GeForce RTX 2070
- GeForce RTX 2060
- RTX 2070はフルスペックに近いコアを使用、RTX 2060は一部コアを無効化。
ダイ: TU104
- GeForce RTX 2080
- GeForce RTX 2070 Super
- フルスペックがRTX 2080、一部コアを無効化したものがRTX 2070 Super。

Ada LovelaceアーキテクチャGPUの例

ダイ: AD102
- GeForce RTX 4090
- GeForce RTX 4080（16GB版）
- AD102ダイの最高性能がRTX 4090、一部コアを無効化したものがRTX 4080。

わざと潰して無効化しているわけではなく、製造後のチェックで「一部コア」に問題があると判定された場合に無効化して販売しているものです。
もちろんメモリー量の違いなど、単にコア数だけで判断出来るものではありませんが、動かないコアがごく一部あるために少しスペックが劣るラインナップとして販売することは、
ユーザーからしても求めやすい金額で最新のGPUが手に入るのでアリですよね。