自動車を商品として企画する際には、
設計計算として定式化はされているのですが、変数と評価値の組み合わせが多く、80-100程度の変数に対して、10以上の目標特性を設定しなければなりません。設計変数の選択によっては、量産が困難になるほどの難易度を伴ったり、計画外の投資が発生したりするようなRiskを抱えることがあります。また、個別性能それぞれで少しづつ妥協すると競争力が不足してしまう場合も珍しいことではありません。個別性能の制約に目を配りながら競争力を確保することだけに疲労困憊になり、肝心の魅力について考える余力が小さくなってしまうこともありがちです。総当たり計算で解を得ようとすると10年以上の計算時間が必要になり現実的ではありません。少数精鋭の専門家で企画業務を進めるのですが、いくつかの定量的な案別を出して後工程(個別への振り分け、詳細設計)に進んでも、自分たちが導いた解よりも最適解があるかもしれないとの疑いが払拭できないこともあります。 お客さまへの魅力分析に集中したいのに製品としての競争力構築に手間がかかってしまうことは自動車に限らず、工業製品の設計を行う上で結構あるのではないかと考えられます。製品のLife cycle managementが重要視され、MBDが整備されるほど最適解の対象となる変数は増え、ますますこの傾向は強くなるだろうと予想しています。この特徴を整理すると強化学習で適応できることに気がつきます。
80-100程度の設計変数それぞれの選択肢から10以上の評価特性に設定された閾値を達成する組み合わせがあるかを自動探索できればいい訳です。
強化学習の検証に利用した車両設計計算です。
Energy効率、電費、航続距離の3評価値、17変数からなります。
詳細の数理式は文末を参照下さい。
車両Packageに関する12評価値、37設計変数、35定数を空間を定義する三角関数などで定義しています。特に特徴はないので数理式は省略します。
設計変数と評価値の間にNeural Networkを設定し、強化学習modelを構築します。
AlgorithmはMarkov Decision Process(以下MDP)を基に構築されています。状態Sにおける行動aが新たな状態St+1を作り、逐次進める中で、報酬rが生じるような行動aとなるように学習を進めます。行動aの根拠は、現段階の報酬と次段階の最大価値の和からなる価値関数や、現段階の最大報酬と次段階の政策の和から構成される政策関数で規定されます。
評価値に設定した閾値(競争力目標となる値)目掛けて価値関数と政策関数によって反復計算しながら、Network重みparameterの学習をしていくことになります。閾値をクリアする設計変数を求めることができればNetwork重みparameterを学習できたと言えます。
このような理論を実用に供することができれば、設計計算のような数理式最適解の探索に関する意志決定を計算から求めることが出来ます。この理論の演算法を実装できるProgramを開発しました。
特に、最新AlgorithmであるA3Cの持つ潜在力は凄まじく、MBDの持つ構造的な弱点(整備すればするほど意志決定が難しくなること)を解決していく可能性が高いと感じています。
幾つかの代表的な解析をご紹介します。いずれもありがちなCaseです。EVにとって最も重要な競争力は航続距離になります。Batteryは安価にはなってきましたが、内燃機関に比べるとまだ高価です。競合よりも航続距離を伸ばすことが求められますが、Battery容量が増えたら価格競争力で劣ることになります。
Battery容量が少なくても航続距離を伸ばすためにはどのような設計変数にしなければいけないか、どこまで妥協すれば競合に劣ってしまうのか、というような探索も強化学習によって求めることができます。
ここでは17設計変数を対象にしています。それぞれの領域技術者が難易度の低い簡単な変数を選んでしまうと航続距離で競合に負けてしまいます。 航続距離を伸ばすためには、空力性能が効果的です。空力性能は前面投影面積と空気抵抗係数によって決まります。空気抵抗係数を下げるには、Roof下がり角を付けなければいけないことがわかっています。前面投影面積を下げるには車高を下げなければなりません。
車高とRoof下がり角は、Battery packの高さ、Driving positionと後席乗員姿勢、Tandemという複数の設計変数から決まります。同時に、車室空間、全長にも影響を与えます。これら全ての相関関係において何を優先させるかによって車両Packageは決まります。このような相関関係は、A3Cであれば比較的容易に学習させることができます。得られる最適解も優先度違いで熟練者よりもはるかに多く得ることが可能です。
統計数学の利点を生かして変数が少々揺らいでも評価値が安定する範囲を求めることも可能です。それぞれの領域設計者に絶対に設定してはいけない変数幅を示すことができます。図はA3Cの演算により閾値に到達した61,101data setに統計分析を掛けた結果です。
強化学習出現以前に比べて安定性の高い設計を志すことができます。
強化学習が、設計計算の変数探索に対して非常に有効であることが検証できました。統計数学の優位性を反映した質の高い企画業務が遂行できるようになります。
変数に対する適値探索が必要になる研究開発は他にもあります。MBDの意志決定、車両/Powertrain制御が考えられます。いずれも変数が増えています。 今回は、強化学習を検証するために定量的な論理式を題材にしました。期待以上の性能であることが実感できました。潜在力が非常に高く、現代のComputer性能の高さともよく合致しています。今後は、定量化が難しい認知について開発を進めていくつもりです。
Energyは設計変数による性能限界が判別できる。効率は最大、損失は最小になる。DQN, MCTとも同様な結果が得られている。一部、結果が別れているがこの変数は評価値への寄与が極小である。
DQN,A3Cともに同様の結果が得られる。
学習済みのNetwork Parameterを使えば、学習過程を追跡することも可能。
問合せフォームより、必要事項を入力の上お問合せください。サキヨミAIラボのエージェントが回答いたします