量子機器學習 (九) - 基於量子訓練的強化學習

# 量子機器學習 (九) - 基於量子訓練的強化學習在前面的單元中，我們提到了 Quantum-Train 如何應用在影像辨識任務中。不過，由於影像識別任務一般可能對於模型的反饋時間沒有太高的要求，例如一個圖片出來，並不一定需要“馬上”知道這個圖片的分類，所以對於 Quantum-Train 在這方面的優勢並沒有太大的展現。不過，例如考慮一個自駕車模型的使用情境，在經過一個路口時，當下就需要知道接下來要左轉或是右轉，如果在這時候使用一般的 QML 模型，需要把任務送到雲端的量子電腦上，可能在收到回覆時就已經太遲了...。但是，如果使用的是 Quantum-Train，由於只需要在訓練階段需要量子電腦，推論階段完全仰賴古典電腦硬體，所以就也沒有這樣的問題。因此，像在實務上比較需要即時響應的機器學習任務，例如**強化學習**任務，就也很適合用 Quantum-Train 來探索一下使用的可能性。在強化學習（Reinforcement Learning, RL）任務中，Agent 透過與環境（Environment）互動來學習最佳策略，agent 在每個時間步驟 $t$ 觀察環境狀態 $s_t$，執行動作 $a_t$，並根據環境回饋獲得獎勵（Reward）$r_t$。學習的目標是找到一個最佳策略 $\pi(a|s)$ ，使得累積獎勵 $R = \sum_t \gamma^t r_t$ 最大化，其中 $\gamma$ 是折扣因子，用於平衡短期與長期回報。在 Quantum-Train 框架下，透過量子輔助參數壓縮，可以建構以下Quantum-Train RL (QTRL) 框架：

在這樣的框架下，相比於一般的 RL 而言，QTRL 的 policy network 中的參數是被 QNN 以及一個映射模型產生，就像在前面影像辨識 CNN 模型中的參數也是被 QNN＋映射模型產生一樣。在 QTRL 的論文中，作者用了在 RL 中最基礎的幾個環境中的 CartPole-v1 以及 MiniGrid 作為測試環境，展示 QTRL 框架的有效性：

可以看到在 CartPole-v1 環境中，QTRL 可以用更少的訓練參數，達到差不多的 reward（甚至在 5 層 QNN 的情況下有更好的 reward）。

在MiniGrid環境下也可以得到差不多的結果。這些結果突顯了 QTRL 的三大關鍵特性： 1. 參數壓縮能力：透過 QNN 生成古典策略網路的參數，QTRL 能夠用較少的訓練參數來取代傳統的訓練方法。 2. 無需在推論階段使用量子電腦：QTRL 訓練出的模型完全是古典的，這意味著其推論階段可以直接在 CPU 或 GPU 上執行，無需量子計算資源，避免了量子強化學習需要量子電腦來進行推論的問題，使其更具應用價值。 3. 高度適用於即時決策任務：由於強化學習通常應用於低延遲決策環境（例如自動駕駛、機器人控制、即時交易系統等），而 QTRL 所產生的純古典模型能夠在邊緣設備上運行，因此大幅提高了量子強化學習在真實應用中的可行性。換句話說，我們可能可以先用 QTRL 在量子計算環境中進行參數壓縮訓練，然後再使用古典計算資源來進一步訓練模型，這種混合方式進一步提升了 QTRL 的實用性。此外，由於 QTRL 完全脫離了推論階段的量子硬體依賴，它的成本效益遠優於量子強化學習和量子經典混合強化學習（QCRL），這使得 QTRL 更具商業化的潛力。 ## 參考文獻 [1] [Quantum-Train: Rethinking Hybrid Quantum-Classical Machine Learning in the Model Compression Perspective](https://arxiv.org/abs/2405.11304) [2] [QTRL: Toward Practical Quantum Reinforcement Learning via Quantum-Train ](https://ieeexplore.ieee.org/document/10821103)