このコースについて

264,389 最近の表示
共有できる証明書
修了時に証明書を取得
100%オンライン
自分のスケジュールですぐに学習を始めてください。
次における4の1コース
柔軟性のある期限
スケジュールに従って期限をリセットします。
中級レベル

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

約15時間で修了
英語

習得するスキル

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
共有できる証明書
修了時に証明書を取得
100%オンライン
自分のスケジュールですぐに学習を始めてください。
次における4の1コース
柔軟性のある期限
スケジュールに従って期限をリセットします。
中級レベル

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

約15時間で修了
英語

提供:

Placeholder

アルバータ大学(University of Alberta)

Placeholder

Alberta Machine Intelligence Institute

シラバス - 本コースの学習内容

コンテンツの評価Thumbs Up93%(8,978 件の評価)Info
1

1

1時間で修了

Welcome to the Course!

1時間で修了
4件のビデオ (合計20分), 2 readings
4件のビデオ
Course Introduction5 分
Meet your instructors!8 分
Your Specialization Roadmap3 分
2件の学習用教材
Reinforcement Learning Textbook10 分
Read Me: Pre-requisites and Learning Objectives10 分
4時間で修了

An Introduction to Sequential Decision-Making

4時間で修了
8件のビデオ (合計46分), 3 readings, 2 quizzes
8件のビデオ
Learning Action Values4 分
Estimating Action Values Incrementally5 分
What is the trade-off?7 分
Optimistic Initial Values6 分
Upper-Confidence Bound (UCB) Action Selection5 分
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8 分
Week 1 Summary3 分
3件の学習用教材
Module 1 Learning Objectives10 分
Weekly Reading30 分
Chapter Summary30 分
1の練習問題
Sequential Decision-Making45 分
2

2

3時間で修了

Markov Decision Processes

3時間で修了
7件のビデオ (合計36分), 2 readings, 2 quizzes
7件のビデオ
Examples of MDPs4 分
The Goal of Reinforcement Learning3 分
Michael Littman: The Reward Hypothesis12 分
Continuing Tasks5 分
Examples of Episodic and Continuing Tasks3 分
Week 2 Summary1 分
2件の学習用教材
Module 2 Learning Objectives10 分
Weekly Reading30 分
1の練習問題
MDPs45 分
3

3

3時間で修了

Value Functions & Bellman Equations

3時間で修了
9件のビデオ (合計56分), 3 readings, 2 quizzes
9件のビデオ
Value Functions6 分
Rich Sutton and Andy Barto: A brief History of RL7 分
Bellman Equation Derivation6 分
Why Bellman Equations?5 分
Optimal Policies7 分
Optimal Value Functions5 分
Using Optimal Value Functions to Get Optimal Policies8 分
Week 3 Summary4 分
3件の学習用教材
Module 3 Learning Objectives10 分
Weekly Reading30 分
Chapter Summary13 分
2の練習問題
[Practice] Value Functions and Bellman Equations45 分
Value Functions and Bellman Equations45 分
4

4

4時間で修了

Dynamic Programming

4時間で修了
10件のビデオ (合計72分), 3 readings, 2 quizzes
10件のビデオ
Iterative Policy Evaluation8 分
Policy Improvement4 分
Policy Iteration8 分
Flexibility of the Policy Iteration Framework4 分
Efficiency of Dynamic Programming5 分
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7 分
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21 分
Week 4 Summary2 分
Congratulations!3 分
3件の学習用教材
Module 4 Learning Objectives10 分
Weekly Reading30 分
Chapter Summary30 分
1の練習問題
Dynamic Programming45 分

レビュー

FUNDAMENTALS OF REINFORCEMENT LEARNING からの人気レビュー

すべてのレビューを見る

強化学習専門講座について

強化学習

よくある質問

さらに質問がある場合は、受講者向けヘルプセンターにアクセスしてください。