OpenEdu | 中華開放教育平台

強化學習實作
註冊課程
開課機構
國立中興大學
課程分類
自然科學 資訊工程
課程子類
數學 電腦
開課日期
2024-11-18
結束日期
2026-01-19
學習時數
每週2小時
上課語言
中文
字幕語言
繁體中文
修課費用
免費
證書費用
NTD 500
林長鋆
林長鋆
國立中興大學
教授

林長鋆老師畢業於清華大學統計所,曾任職於高科技電子製造業,具有七年的科技廠實務經驗,擁有品質技術師(CQT)、品質工程師(CQE)、可靠度工程師(CRE)等專業證照。並授過六標準差之專業訓練,擁有六標準差黑帶證書。曾擔任研發工程師、品保工程師、品保部副課長、生產部課長、品保部副理、總經理室經理。其中有三年半的時間於美國Albert Einstein College of Medicine of Yeshiva University及UT Southwestern Medical Center進行基因及遺傳統計之研究。目前於中興大學統計所任教,主要研究興趣為工業統計、實驗設計、遺傳統計及AI人工智慧。

課程簡介

本課程旨在提供強化學習(RL)的全面實作教學,帶領學員從基礎概念逐步深入至應用技術。強化學習是機器學習中具有高度潛力的領域,透過讓代理在不同情境下進行學習與行動,最終達到目標優化。本課程首先會介紹強化學習的理論基礎,如馬可夫決策過程(MDP)、價值函數與政策選擇的基本原則,然後進入實作階段,包括使用 Gymnasium 等平台來建構與訓練代理,並實現各種 RL 演算法的編碼應用。無論是對 RL 感興趣的初學者,或是希望進一步強化應用能力的進階學習者,都能在本課程中掌握到重要的知識與技能,為未來的實際應用打下基礎。

課程目標

1. 理解強化學習的核心概念與架構 

   本課程將介紹強化學習的基礎理論,如馬可夫決策過程(MDP)、狀態、行動、獎勵和策略等概念,幫助學員理解強化學習代理如何在環境中學習並進行決策,進一步建立理論知識框架。

 

2. 學習價值函數、政策基礎方法與其應用 

   讓學員理解並實作強化學習中的價值函數、政策梯度等關鍵方法,以便能夠在不同決策情境中選擇與運用最適合的技術進行模型優化,幫助代理更有效地學習和應對挑戰。

 

3. 掌握強化學習演算法的實作技術

   課程包含豐富的實作環節,學員將透過編程練習,學習如何應用強化學習演算法,並在 Gymnasium 與 Python 等平台上模擬實際環境,使學員獲得實務經驗,將理論知識轉化為具體操作能力。

 

4. 培養分析與解決決策問題的能力 

   讓學員在不同的模擬情境中應用強化學習技術,提升其分析問題、選擇演算法、優化策略的綜合能力。學員將學會根據不同目標調整強化學習模型,以達成多元化的應用,例如自動駕駛、遊戲智能體、資源管理等場景中的複雜決策問題。

 

5. 開發適應未來應用的強化學習技能 

   通過本課程的學習,學員將為未來進一步的強化學習研究與應用做好準備,並具備獨立開發強化學習應用的能力,在職場或研究領域中發揮所學的知識技能。

適用對象

適用於在學的大學生或研究生,或是已畢業之社會人士。只要對強化學習、AI人工智慧、及資料分析有興趣之學生,或工作上需要之社會人士,皆為本課程之學習對象。

課程特色

為了使學生能有更充份的學習,且能更完整的吸收,必須跳脫出傳統的課堂教學,而採用多元的教學方式,使學生能循序漸進學習。並且理論與實作並重,才有辦法將所學應用到實際案例中。除此之外,若有興趣的社會大眾,也可透過網路自行學習。

課程進度

第1週:強化學習基本概念

第2週:價值函數與Q函數

第3週:DP動態規劃

第4週:MC蒙地卡羅方法

第5週:TD時序差分法

第6週:DQN深度Q網路

第7週:PG策略梯度法

第8週:AC演員評論家法

第9週:DDPG深度確定性策略梯度法

學習成效評量

採用線上測驗。共分9大單元。配分分別為每一單元佔1/9。

先備知識

機器學習基礎,Python語言基礎。

完成課程即可獲得證書