深層強化学習による
EV企画 自動設計

AI Design by Reinforcement/Deep Learning

HuiSen AI 酒井竜英

Vehicle Concept AI Design

Introduction

自動車を商品として企画する際には、

  • どのお客さまに、どのような魅力を提供するのか、深く考える。
  • 競合に勝つ競争力実現の根拠を構築する。
ことを同時に行わなければなりません。競争力を設計するためにはModel Based Design(以下MBD)の手法を用いることが一般的です。第1階層はお客さまが直接感じることのできる競争力、第2階層は複数の組み合せで決まる特性、第3階層はSytem特性で構築されています。競争力は、Energy性能や動的運転品質、車室内容量、対衝突性能など複数あり、第2階層、第3階層を通じてTradeoff相関になっている特性も多数あります。

Fig.1 Model Based Design

設計計算として定式化はされているのですが、変数と評価値の組み合わせが多く、80-100程度の変数に対して、10以上の目標特性を設定しなければなりません。設計変数の選択によっては、量産が困難になるほどの難易度を伴ったり、計画外の投資が発生したりするようなRiskを抱えることがあります。また、個別性能それぞれで少しづつ妥協すると競争力が不足してしまう場合も珍しいことではありません。個別性能の制約に目を配りながら競争力を確保することだけに疲労困憊になり、肝心の魅力について考える余力が小さくなってしまうこともありがちです。総当たり計算で解を得ようとすると10年以上の計算時間が必要になり現実的ではありません。少数精鋭の専門家で企画業務を進めるのですが、いくつかの定量的な案別を出して後工程(個別への振り分け、詳細設計)に進んでも、自分たちが導いた解よりも最適解があるかもしれないとの疑いが払拭できないこともあります。 お客さまへの魅力分析に集中したいのに製品としての競争力構築に手間がかかってしまうことは自動車に限らず、工業製品の設計を行う上で結構あるのではないかと考えられます。製品のLife cycle managementが重要視され、MBDが整備されるほど最適解の対象となる変数は増え、ますますこの傾向は強くなるだろうと予想しています。この特徴を整理すると強化学習で適応できることに気がつきます。

Fig.2 Createive & Routing Work
  1. ここ30年のCAE進化のおかげで設計変数と評価特性を定式化する設計計算式は豊富にある。
  2. 設計変数の選択肢は領域毎の制約条件による。領域専門家はRiskを見極めて選択肢を設定できる。
  3. 評価特性、目標値は競合への対他競争力から決まってしまう。

80-100程度の設計変数それぞれの選択肢から10以上の評価特性に設定された閾値を達成する組み合わせがあるかを自動探索できればいい訳です。


Design calculations

強化学習の検証に利用した車両設計計算です。

1. Vehicle Energy

Energy効率、電費、航続距離の3評価値、17変数からなります。

Fig.3 Design variables for Vehicle energy

Evaluations for Vehicle Energy

詳細の数理式は文末を参照下さい。

2. Vehicle package

車両Packageに関する12評価値、37設計変数、35定数を空間を定義する三角関数などで定義しています。特に特徴はないので数理式は省略します。

Fig.4 Design variables for Vehicle Package Fig.5 Evaluations for Vehicle Package

Algorithm

設計変数と評価値の間にNeural Networkを設定し、強化学習modelを構築します。

Fig.6 Neural Network

AlgorithmはMarkov Decision Process(以下MDP)を基に構築されています。状態Sにおける行動aが新たな状態St+1を作り、逐次進める中で、報酬rが生じるような行動aとなるように学習を進めます。行動aの根拠は、現段階の報酬と次段階の最大価値の和からなる価値関数や、現段階の最大報酬と次段階の政策の和から構成される政策関数で規定されます。

Markov Decision Process

評価値に設定した閾値(競争力目標となる値)目掛けて価値関数と政策関数によって反復計算しながら、Network重みparameterの学習をしていくことになります。閾値をクリアする設計変数を求めることができればNetwork重みparameterを学習できたと言えます。

Fig.7 Purpose of Learning

このような理論を実用に供することができれば、設計計算のような数理式最適解の探索に関する意志決定を計算から求めることが出来ます。この理論の演算法を実装できるProgramを開発しました。

  1. Deep Q Network(以下DQN):最も伝統的な価値関数による方法。重みparameterを得るために深層学習の手法を取り込むことができる。
  2. Monte Carlo tree(以下MCT):Gameでよく使われている。最終的な価値に基づいて学習される。
  3. A3C:非同期並列計算が可能、価値/政策の両関数に対して複数手先を計算できる。

特に、最新AlgorithmであるA3Cの持つ潜在力は凄まじく、MBDの持つ構造的な弱点(整備すればするほど意志決定が難しくなること)を解決していく可能性が高いと感じています。


Validation

幾つかの代表的な解析をご紹介します。いずれもありがちなCaseです。EVにとって最も重要な競争力は航続距離になります。Batteryは安価にはなってきましたが、内燃機関に比べるとまだ高価です。競合よりも航続距離を伸ばすことが求められますが、Battery容量が増えたら価格競争力で劣ることになります。

Fig.8 Mileage with Battery capacity

Battery容量が少なくても航続距離を伸ばすためにはどのような設計変数にしなければいけないか、どこまで妥協すれば競合に劣ってしまうのか、というような探索も強化学習によって求めることができます。

Fig.9 Energy Performance by DQN

ここでは17設計変数を対象にしています。それぞれの領域技術者が難易度の低い簡単な変数を選んでしまうと航続距離で競合に負けてしまいます。 航続距離を伸ばすためには、空力性能が効果的です。空力性能は前面投影面積と空気抵抗係数によって決まります。空気抵抗係数を下げるには、Roof下がり角を付けなければいけないことがわかっています。前面投影面積を下げるには車高を下げなければなりません。

Fig.10 Tradeoff to Package evaluation

車高とRoof下がり角は、Battery packの高さ、Driving positionと後席乗員姿勢、Tandemという複数の設計変数から決まります。同時に、車室空間、全長にも影響を与えます。これら全ての相関関係において何を優先させるかによって車両Packageは決まります。このような相関関係は、A3Cであれば比較的容易に学習させることができます。得られる最適解も優先度違いで熟練者よりもはるかに多く得ることが可能です。

Fig.11 Package results with priorities

統計数学の利点を生かして変数が少々揺らいでも評価値が安定する範囲を求めることも可能です。それぞれの領域設計者に絶対に設定してはいけない変数幅を示すことができます。図はA3Cの演算により閾値に到達した61,101data setに統計分析を掛けた結果です。

Fig.12 Deviation of A3C calculation

強化学習出現以前に比べて安定性の高い設計を志すことができます。


Conclusion

強化学習が、設計計算の変数探索に対して非常に有効であることが検証できました。統計数学の優位性を反映した質の高い企画業務が遂行できるようになります。

  • 評価値と設計変数の選択肢が決まれば、適値探索は学習Programによって自動計算されます。
  • 経験の深浅は関係ありません。論理式を充実させることが重要です。
  • 優先度が異なる解が得られ、熟練者よりもはるかに多くの候補が算出されます。
  • 少々値が揺らいでも安定した設計が可能になります。

変数に対する適値探索が必要になる研究開発は他にもあります。MBDの意志決定、車両/Powertrain制御が考えられます。いずれも変数が増えています。 今回は、強化学習を検証するために定量的な論理式を題材にしました。期待以上の性能であることが実感できました。潜在力が非常に高く、現代のComputer性能の高さともよく合致しています。今後は、定量化が難しい認知について開発を進めていくつもりです。

Tatsuhide

Data

A. Design calculation for vehicle energy

B. Vehicle Energy by DQN & MCT

Energyは設計変数による性能限界が判別できる。効率は最大、損失は最小になる。DQN, MCTとも同様な結果が得られている。一部、結果が別れているがこの変数は評価値への寄与が極小である。

Fig13. Energy results by DQN,MCT

C. Vehicle package by DQN,A3C

DQN,A3Cともに同様の結果が得られる。

Fig14. Package results by DQN,A3C

D. Estimation by Network Parameter, A3C

学習済みのNetwork Parameterを使えば、学習過程を追跡することも可能。

Fig15. ReplayA3C by Network Parameter

Reference

  1. V. Mnih: Asynchronous Methods for Deep Reinforcement Learning, ICML arXiv:1602.01783 (2016)
  2. V. Mnih: Human-level control through deep reinforcement learning, nature142236, NATURE VOL518 (2015)
  3. V. Mnih: Playing Atari with Deep Reinforcement Learning, NIPS arXiv:1312.5602v1 (2013)
  4. H. van Hasselt: Deep Reinforcement Learning with Double Q-learning, AAAI arXiv:1509.06461 (2016)
  5. David Silver: Mastering the game of Go without human knowledge, nature24270 NATURE VOL550 (2017)
  6. David Silver: Mastering the game of Go with deep neural networks and tree search, nature16961 NATURE VOL529 (2016)
  7. James Bergstra: Random Search for Hyper-Parameter Optimization, Journal of Machine Learning Research 13 (2012)
  8. Csaba Szepesvari: Algorithm of Reinforcement Learning, Kyoritsu Publishing, (2017)
  9. T. Makino: Korekarano Reinforcement Learning, Morikita publishing, (2016)
  10. Richard S.Sutton: Reinforcement Learning, Morikita publishing, (2000)
  11. K. Fujita, A.Takahara: Jissen Deep Learning, Chapter 6: Reinforcement Learning, Ohmsha, p.185-210 (2016)
  12. Josh Patterson: Deep Learning A Practitioner’s Approach, Chapter1-Chapter3, O’Reilly Media, p.1-403(2017)
  13. Y. Sugumori: Shokai Deep Learning, Chapter2 to 4, MyNavi publishing, p.023-208(2017)
  14. Y. Sugumori: Deep Learning Java programming, Chapter 1 to 7, Packt publishing, p.1-229 (2016)
  15. Y. Saito: Deep Learning – Python, O’Reilly Japan, p.1-320 (2016)
  16. Henrik B.: Machine Learning, Part I: Base of Work flow, Impress corporation, p.415-2820 (2017)
  17. K. Otsuki: Alpha GO kaitai shinsho, Chapter 1 to 3, Shoeisha, p.276-1955 (2017)
  18. H. Hachiya: Tsuyokunaru Robotic player no Tsukurikata, Chapter 1 to 7, Mainichi communications, p.1-138 (2008)
  19. N. Shimada: Chainer with Deep Learning, Gijyutsu Hyoron, (2017)
  20. T. RASHID: Make Your Own Neural Network Part 1 to 3, Amazon Service International, p.1-222 (2016)
  21. Md. Rezaul Karim: Scala Machine Learning Projects, Part7: Q-Learning, Part8: Deep Neural Networks, Packt Publishing, p.3942-5273, (2018)
  22. Paul Chiusano: Scala Functional type design & programming, Part1-13,Impress corporation, p.1-314(2015)
  23. Y. Yamamoto: IntelliJ IDEA Hands on, Chapter 1 to 8, Gijyutsu Hyoron, p.299-2697 (2017)

本件に関するお問合せ

問合せフォームより、必要事項を入力の上お問合せください。サキヨミAIラボのエージェントが回答いたします