量子機器學習 (九) - 基於量子訓練的強化學習

作者:
劉宸銉
閱讀時間:
5
分鐘
# 量子機器學習 (九) - 基於量子訓練的強化學習 在前面的單元中,我們提到了 Quantum-Train 如何應用在影像辨識任務中。不過,由於影像識別任務一般可能對於模型的反饋時間沒有太高的要求,例如一個圖片出來,並不一定需要“馬上”知道這個圖片的分類,所以對於 Quantum-Train 在這方面的優勢並沒有太大的展現。不過,例如考慮一個自駕車模型的使用情境,在經過一個路口時,當下就需要知道接下來要左轉或是右轉,如果在這時候使用一般的 QML 模型,需要把任務送到雲端的量子電腦上,可能在收到回覆時就已經太遲了...。 但是,如果使用的是 Quantum-Train,由於只需要在訓練階段需要量子電腦,推論階段完全仰賴古典電腦硬體,所以就也沒有這樣的問題。 因此,像在實務上比較需要即時響應的機器學習任務,例如**強化學習**任務,就也很適合用 Quantum-Train 來探索一下使用的可能性。在強化學習(Reinforcement Learning, RL)任務中,Agent 透過與環境(Environment)互動來學習最佳策略,agent 在每個時間步驟 $t$ 觀察環境狀態 $s_t$,執行動作 $a_t$,並根據環境回饋獲得獎勵(Reward)$r_t$。學習的目標是找到一個最佳策略 $\pi(a|s)$ ,使得累積獎勵 $R = \sum_t \gamma^t r_t$ 最大化,其中 $\gamma$ 是折扣因子,用於平衡短期與長期回報。 在 Quantum-Train 框架下,透過量子輔助參數壓縮,可以建構以下Quantum-Train RL (QTRL) 框架:
QTRL

在這樣的框架下,相比於一般的 RL 而言,QTRL 的 policy network 中的參數是被 QNN 以及一個映射模型產生,就像在前面影像辨識 CNN 模型中的參數也是被 QNN+映射模型產生一樣。在 QTRL 的論文中,作者用了在 RL 中最基礎的幾個環境中的 CartPole-v1 以及 MiniGrid 作為測試環境,展示 QTRL 框架的有效性:
圖片內容

圖片內容

可以看到在 CartPole-v1 環境中,QTRL 可以用更少的訓練參數,達到差不多的 reward(甚至在 5 層 QNN 的情況下有更好的 reward)。
圖片內容

圖片內容

在MiniGrid環境下也可以得到差不多的結果。這些結果突顯了 QTRL 的三大關鍵特性: 1. 參數壓縮能力:透過 QNN 生成古典策略網路的參數,QTRL 能夠用較少的訓練參數來取代傳統的訓練方法。 2. 無需在推論階段使用量子電腦:QTRL 訓練出的模型完全是古典的,這意味著其推論階段可以直接在 CPU 或 GPU 上執行,無需量子計算資源,避免了量子強化學習需要量子電腦來進行推論的問題,使其更具應用價值。 3. 高度適用於即時決策任務:由於強化學習通常應用於 低延遲決策環境(例如自動駕駛、機器人控制、即時交易系統等),而 QTRL 所產生的純古典模型能夠在邊緣設備上運行,因此大幅提高了量子強化學習在真實應用中的可行性。 換句話說,我們可能可以先用 QTRL 在量子計算環境中進行參數壓縮訓練,然後再使用古典計算資源來進一步訓練模型,這種混合方式進一步提升了 QTRL 的實用性。此外,由於 QTRL 完全脫離了推論階段的量子硬體依賴,它的成本效益遠優於量子強化學習和量子經典混合強化學習(QCRL),這使得 QTRL 更具商業化的潛力。 ## 參考文獻 [1] [Quantum-Train: Rethinking Hybrid Quantum-Classical Machine Learning in the Model Compression Perspective](https://arxiv.org/abs/2405.11304) [2] [QTRL: Toward Practical Quantum Reinforcement Learning via Quantum-Train ](https://ieeexplore.ieee.org/document/10821103)
課程目錄