電気通信大学とグリッドの研究グループは、電力需要や天候といった、不確実な要素がある環境で、電力の消費と売電を適正に制御する強化学習手法を開発した。従来の手法よりも、制約を守りながら経済的な売買電計画を作成できるという。 今回の研究では、並行訓練した複数の強化学習ネットワークの出力から総合的に判断する「アンサンブル強化学習」を採用した。事前に典型的な需要と天候のパターンをいくつか用意し、それぞれに対応する AI モデルを独立に学習させることで、異なる判断基準を備えた複数の AI モデルを作成。アルゴリズム全体の行動は複数の AI モデルの出力を平均化して1つに決定する。 研究チームは、太陽光発電パネルが発電した余剰電力を売却するか、電力系統から電力を購入するかを24時間にわたって決め続ける状況で、考案したアルゴルズムを検証した。夜間には蓄電池を満タンに充電するとの制約も設け、制約を守りながら