統計数理研究所と三菱ケミカルは6月5日、両社の共同研究部門「ISMーMCCフロンティア材料設計拠点」の研究グループが、物質・材料研究機構の研究グループと協力し、材料研究における大規模計算物性データベースと実験データの統合解析において、「Sim2Real転移学習のスケーリング則」と呼ばれる現象を発見したことを発表した。また本成果をまとめた論文が国際学術誌「npj Computational Materials」に掲載された。
データ駆動型材料研究では、実験データの不足が原因でAIの予測性能を十分に発揮できないことが大きな課題となっている。この課題を克服するために、物理シミュレーションによって生成された大規模な計算物性データベースの開発が進められている。例えば、計算物性データベースで事前学習されたモデルを、限られた実験データを用いて追加学習することで、直接学習では到達不可能な予測性能を実現できることが知られている。このような統合解析をSim2Real転移学習という。
本研究では、データ駆動型材料研究のSim2Real転移学習において、計算物性データベースの規模が拡大するにつれて、転移モデルの実験物性に対する性能がべき乗則に従い単調に改善していくことを実証した。材料系のSim2Real転移学習において、スケーリング則が存在することを系統的に示したのは、これが初めて。
スケーリング強度は、データベースの将来価値を評価する定量的な指標となる。また、スケーリング挙動を解析することでAIのモデルが目標性能に到達するために必要なデータ数や到達可能な限界性能を見積もることができる。さらに、スケーリング則の解析は、材料開発プロジェクトにおけるデータプラットフォーム開発の戦略立案やデータ生産プロトコルの効率化につながることが期待される。