Last
First
個人首頁
帳號設定
登出
關於我們
最新消息
課程學習
興趣探索(測試版)
登入
立即開始
Last
First
個人首頁
帳號設定
登出
會員登入
歡迎進入量子學習的新紀元!
忘記密碼?
或
以 Google 帳號登入
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
新用戶?
立即註冊
,開啟您的量子學習之旅。
量子機器學習
・第
9
課
量子機器學習 (九) - 基於量子訓練的強化學習
作者:
劉宸銉
閱讀時間:
5
分鐘
# 量子機器學習 (九) - 基於量子訓練的強化學習 在前面的單元中,我們提到了 Quantum-Train 如何應用在影像辨識任務中。不過,由於影像識別任務一般可能對於模型的反饋時間沒有太高的要求,例如一個圖片出來,並不一定需要“馬上”知道這個圖片的分類,所以對於 Quantum-Train 在這方面的優勢並沒有太大的展現。不過,例如考慮一個自駕車模型的使用情境,在經過一個路口時,當下就需要知道接下來要左轉或是右轉,如果在這時候使用一般的 QML 模型,需要把任務送到雲端的量子電腦上,可能在收到回覆時就已經太遲了...。 但是,如果使用的是 Quantum-Train,由於只需要在訓練階段需要量子電腦,推論階段完全仰賴古典電腦硬體,所以就也沒有這樣的問題。 因此,像在實務上比較需要即時響應的機器學習任務,例如**強化學習**任務,就也很適合用 Quantum-Train 來探索一下使用的可能性。在強化學習(Reinforcement Learning, RL)任務中,Agent 透過與環境(Environment)互動來學習最佳策略,agent 在每個時間步驟 $t$ 觀察環境狀態 $s_t$,執行動作 $a_t$,並根據環境回饋獲得獎勵(Reward)$r_t$。學習的目標是找到一個最佳策略 $\pi(a|s)$ ,使得累積獎勵 $R = \sum_t \gamma^t r_t$ 最大化,其中 $\gamma$ 是折扣因子,用於平衡短期與長期回報。 在 Quantum-Train 框架下,透過量子輔助參數壓縮,可以建構以下Quantum-Train RL (QTRL) 框架:
在這樣的框架下,相比於一般的 RL 而言,QTRL 的 policy network 中的參數是被 QNN 以及一個映射模型產生,就像在前面影像辨識 CNN 模型中的參數也是被 QNN+映射模型產生一樣。在 QTRL 的論文中,作者用了在 RL 中最基礎的幾個環境中的 CartPole-v1 以及 MiniGrid 作為測試環境,展示 QTRL 框架的有效性:
可以看到在 CartPole-v1 環境中,QTRL 可以用更少的訓練參數,達到差不多的 reward(甚至在 5 層 QNN 的情況下有更好的 reward)。
在MiniGrid環境下也可以得到差不多的結果。這些結果突顯了 QTRL 的三大關鍵特性: 1. 參數壓縮能力:透過 QNN 生成古典策略網路的參數,QTRL 能夠用較少的訓練參數來取代傳統的訓練方法。 2. 無需在推論階段使用量子電腦:QTRL 訓練出的模型完全是古典的,這意味著其推論階段可以直接在 CPU 或 GPU 上執行,無需量子計算資源,避免了量子強化學習需要量子電腦來進行推論的問題,使其更具應用價值。 3. 高度適用於即時決策任務:由於強化學習通常應用於 低延遲決策環境(例如自動駕駛、機器人控制、即時交易系統等),而 QTRL 所產生的純古典模型能夠在邊緣設備上運行,因此大幅提高了量子強化學習在真實應用中的可行性。 換句話說,我們可能可以先用 QTRL 在量子計算環境中進行參數壓縮訓練,然後再使用古典計算資源來進一步訓練模型,這種混合方式進一步提升了 QTRL 的實用性。此外,由於 QTRL 完全脫離了推論階段的量子硬體依賴,它的成本效益遠優於量子強化學習和量子經典混合強化學習(QCRL),這使得 QTRL 更具商業化的潛力。 ## 參考文獻 [1] [Quantum-Train: Rethinking Hybrid Quantum-Classical Machine Learning in the Model Compression Perspective](https://arxiv.org/abs/2405.11304) [2] [QTRL: Toward Practical Quantum Reinforcement Learning via Quantum-Train ](https://ieeexplore.ieee.org/document/10821103)
量子機器學習 (十) - 量子機器學習的未來
qml
10
量子機器學習 (九) - 基於量子訓練的強化學習
qml
9
量子機器學習 (八) - 基於量子訓練的影像辨識
qml
8
量子機器學習 (七) - 更新量子訓練參數
qml
7
量子機器學習 (六) - 量子訓練概觀
qml
6
量子機器學習 (五) - 參數更新方法
qml
5
量子機器學習 (四) - 古典前處理/後處理
qml
4
量子機器學習 (三) - 關於量子電路架構
qml
3
量子機器學習 (二) - 資料編碼
qml
2
量子機器學習 (一) - 概述
qml
1
後量子密碼學 10:簡介編碼密碼學(Code-based Cryptography)
pqc
10
後量子密碼學 09:簡介哈希函數(Hash Function)簽章
pqc
9
後量子密碼學 08:簡介多元二次密碼學
pqc
8
後量子密碼學 07:NTRU II
pqc
7
後量子密碼學 06:NTRU I
pqc
6
後量子密碼學 05:多項式環 II
pqc
5
後量子密碼學 04:多項式環 I
pqc
4
後量子密碼學 03:二維晶格密碼學的正確性
pqc
3
後量子密碼學 02:一個簡易的二維晶格密碼學
pqc
2
後量子密碼學 01:密碼學導論
pqc
1
補充:密度矩陣(Density Matrix)
basic-algorithm
18
量子傅立葉轉換(下)
algorithm
8
量子傅立葉轉換(中)
algorithm
7
量子傅立葉轉換(上)
algorithm
6
以 Pennylane 做測量
pennylane
6
用 Pennylane 建立量子邏輯閘
pennylane
5
用 Pennylane 建立量子電路
pennylane
4
Colab 與 Jupyter 介面介紹
pennylane
3
安裝 Pennylane
pennylane
2
Deutsch-Jozsa 演算法(下)
algorithm
5
Deutsch-Jozsa 演算法(上)
algorithm
4
量子演算法總覽
algorithm
1
Deutsch 演算法(下)
algorithm
3
Deutsch 演算法(上)
algorithm
2
量子計算概覽:當電腦遇上量子世界
basic-algorithm
1
自學資源與路線:入門量子計算的第一步
basic-algorithm
2
量子電路:量子邏輯閘的實踐
basic-algorithm
17
測量:讀取計算結果
basic-algorithm
16
量子邏輯閘(下):量子邏輯閘的特性
basic-algorithm
15
量子邏輯閘(中):多個量子位元的操作
basic-algorithm
14
量子位元 (下):量子糾纏
basic-algorithm
13
量子位元(中):多個量子位元
basic-algorithm
12
布洛赫球面 (下):解讀量子邏輯閘的運作
basic-algorithm
11
布洛赫球面(上):量子位元可視化
basic-algorithm
10
量子邏輯閘(上):單一量子位元操作
basic-algorithm
9
量子位元(上):量子計算的基本單位
basic-algorithm
8
重視經典電腦:過渡到量子電腦
basic-algorithm
7
Pennylane 簡介
pennylane
1
演算法複雜度
basic-algorithm
6
經典邏輯閘(下):邏輯閘的特性
basic-algorithm
5
經典邏輯閘(上):電腦運算的基礎
basic-algorithm
4
電腦的世界只有 0 與 1:二進位表示法
basic-algorithm
3
量子硬體總覽
hardware-general
1
第三題:Many-Body Quantum Dynamics
ibm-2023-spring
3
第二題:Quantum Random Walks and Localization
ibm-2023-spring
2
第一題:Trotterization
ibm-2023-spring
1
如何綜合評估量子電腦的表現
hardware-general
10
Qubit 狀態的壽命(相干時間):T2
hardware-general
9
Qubit 狀態的壽命(相干時間):T1
hardware-general
8
保真度(Fidelity):衡量量子邏輯閘的指標
hardware-general
7
附錄 C:絕熱通道
hardware-general
13
如何操作 Qubit:絕熱通道(Adiabetic passage)
hardware-general
6
附錄 B:拉比震盪
hardware-general
12
如何操作 Qubit:拉比震盪(Rabi Oscillation)
hardware-general
5
附錄 A:雙態系統
hardware-general
11
Deutsch 演算法
basic-algorithm
18
雙態系統(Two Level System):Qubit 的基礎
hardware-general
4
DiVincenzo Criteria:量子電腦的五大標準
hardware-general
3
自學資源與路線:入門量子電腦硬體的第一步
hardware-general
2
課程撰寫中
s
1
特徵向量和特徵值(eigenvector and eigenvalue)
linear-algebra
9
量子計算中的特殊矩陣
linear-algebra
8
張量積(Tensor product)
linear-algebra
7
Orthonormal Bases
linear-algebra
6
正交(Orthogonality)
linear-algebra
5
基(Basis)
linear-algebra
4
數學基礎:量子計算的起點
linear-algebra
2
量子計算的數學之鑰:線性代數入門
linear-algebra
1
什麼是量子電腦?
quantum-computer-basics
1
量子電腦如何改變世界
quantum-computer-basics
2
如何實現量子電腦
quantum-computer-basics
7
電腦怎麼做計算
quantum-computer-basics
3
疊加態
quantum-computer-basics
5
量子糾纏
quantum-computer-basics
6
進入量子世界
quantum-computer-basics
4
自學資源與路線
quantum-computer-basics
8
狄拉克(Dirac)表示法
linear-algebra
3
量子電腦現況與未來
quantum-computer-basics
9
上ㄧ課
#上一課課程名稱
下ㄧ課
#下一課課程名稱
課程目錄