「ビッグデータがないとAIは作れない」は誤解である。製造現場の「スモールデータ」と戦う技術戦略。

はじめに:「データがないからAIは無理」という誤解
株式会社羽石産業知能研究所(HIII)の佐藤です。
前回の記事では、私たちが大切にしている「人間とAIの共存」という哲学についてお話ししました。今回は少し視点を変えて、より実践的かつ技術的なテーマに切り込みたいと思います。
私たちが製造業の現場でクライアント様とお話しする際、最も頻繁に相談される「壁」があります。
「AIをやりたいが、学習させるための『不良品データ』がありません」
世の中では「AI=ビッグデータ」という図式が定着しています。GoogleやAmazonのように、億単位のデータを食わせなければ賢いAIは作れない。そう信じている担当者様が非常に多いのです。
しかし、断言します。製造業において「ビッグデータ」を前提とすることは、プロジェクトの失敗を意味します。
今回は、データが少ない(Small Data)環境下で、HIIIがいかにして実用的なAIを構築しているか。その技術戦略の一端をご紹介します。
そもそも、優秀な工場に「データ」は存在しない
まず前提として、日本の製造現場は優秀すぎます。
シックスシグマやカイゼン活動が徹底されたラインでは、不良品の発生率はppm(百万分の一)オーダーです。AI学習に必要な「数千枚の不良画像」を集めようとすれば、それだけで数年かかってしまいます。
つまり、「データが集まるのを待つ」というアプローチ自体が、製造業の構造と矛盾しているのです。
私たちHIIIは、「データがない」ことを嘆きません。むしろ、「データがないこと」を前提とした技術アーキテクチャを標準としています。具体的には、主に3つの技術的アプローチを組み合わせて戦います。
戦略①:「良品」だけを知ればいい(教師なし異常検知)
「不良品データがないなら、良品データだけで学習すればいい」
これが、「教師なし異常検知(Unsupervised Anomaly Detection: UAD)」のアプローチです。
従来のAIは「これが猫、これが犬」と教え込む必要がありました。しかしUADは、「これが正常な製品です」という画像だけを大量に学習し、正常な分布から外れたものをすべて「異常」として検知します。
これには2つの強烈なメリットがあります。
- データ収集が初日から終わる: 手元にある良品を撮影するだけで学習が完了します。
- 「未知の欠陥」に対応できる: 過去に起きたことのない、想定外の欠陥(オープンセット問題)も、「正常ではない」として検知可能です。
技術的な話を少しすると、推論速度と精度のバランスに応じて、「PatchCore」や「EfficientAD」といった最新のアルゴリズム(SOTA)を実装します。
特にEfficientADは、エッジデバイスでも高速(100FPS以上)に動作するため、タクトタイムの厳しい高速ラインでも「全数検査」を実現できる強力な武器です。
戦略②:データがないなら、生成AIで作る(Synthetic Data)
「良品学習だけで全て解決か?」というと、そう簡単ではありません。「どの程度の傷をNGとするか」という境界線の調整には、やはり少数の不良品データが必要です。
そこで私たちが注目しているのが、「生成AIによる合成データ(Synthetic Data)」の活用です。
Stable Diffusionなどの画像生成AI技術を産業用に応用し、良品画像に対して「リアルな欠陥」を人工的に合成します。
単なる合成ではありません。物理シミュレーションやDepth(深度)情報を組み合わせることで、「金属特有の光の反射」や「打痕の立体感」まで再現した、本物と見分けがつかない欠陥データを生成します。
「不良品が出るのを3ヶ月待つ」のではなく、「3時間で1,000パターンの不良品を生成して学習させる」。
このパラダイムシフトにより、AIの立ち上げスピードは劇的に向上しています。
戦略③:AIとルールの「ハイブリッド実装」
最後に、最も泥臭いですが、実用化において一番重要な話をします。
私たちは「すべてをディープラーニングで解決しよう」とは考えません。
寸法計測のような「1mmのズレも許さない」タスクには、従来のルールベース画像処理の方が圧倒的に正確で高速です。一方で、官能検査のような「なんとなく違和感がある」タスクにはAIが適しています。
HIIIは、柔軟にこの「ルールベース」と「AI」を直列、あるいは並列につなぎ合わせたハイブリッドなシステム設計に取り組みます。
- Step 1: ルールベースで明らかに不要な背景をカットし、位置補正を行う。
- Step 2: AIが微細な違和感を検知する。
- Step 3: 最終判定ロジックで、過検出(False Positive)をフィルタリングする。
この泥臭い組み合わせこそが、研究所(Lab)の技術を現場(Factory)で動かし続けるための現実解なのです。
あなたの現場のデータは「宝の山」です
「うちはデータが少ないから、まだAIは早い」
もしそう考えてPoCを躊躇されているのであれば、それは非常にもったいないことです。
データが少ないことは、恥ずべきことではなく、品質管理がうまくいっている証拠です。
そして現代の技術は、その「スモールデータ」から価値を引き出せる段階まで進化しています。
私たちに必要なのは、大量のデータではありません。
「ここの工程を自動化したい」という熱意と、数枚の良品サンプルだけです。
HIIIは、少ないデータから最大の知能を引き出すプロフェッショナル集団です。
ぜひ、あなたの工場の「スモールデータ」という宝の山を、私たちに見せていただけませんか?
