このコースについて
138,174 最近の表示

100%オンライン

自分のスケジュールですぐに学習を始めてください。

次における4の1コース

柔軟性のある期限

スケジュールに従って期限をリセットします。

中級レベル

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

約19時間で修了

推奨:4-6 hours/week...

英語

字幕:英語

学習内容

  • Check

    Formalize problems as Markov Decision Processes

  • Check

    Understand basic exploration methods and the exploration / exploitation tradeoff

  • Check

    Understand value functions, as a general-purpose tool for optimal decision-making

  • Check

    Know how to implement dynamic programming as an efficient solution approach to an industrial control problem

習得するスキル

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems

100%オンライン

自分のスケジュールですぐに学習を始めてください。

次における4の1コース

柔軟性のある期限

スケジュールに従って期限をリセットします。

中級レベル

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

約19時間で修了

推奨:4-6 hours/week...

英語

字幕:英語

シラバス - 本コースの学習内容

1
1時間で修了

Welcome to the Course!

4件のビデオ (合計20分), 2 readings
4件のビデオ
Course Introduction5 分
Meet your instructors!8 分
Your Specialization Roadmap3 分
2件の学習用教材
Reinforcement Learning Textbook10 分
Read Me: Pre-requisites and Learning Objectives10 分
7時間で修了

The K-Armed Bandit Problem

8件のビデオ (合計46分), 3 readings, 2 quizzes
8件のビデオ
Learning Action Values4 分
Estimating Action Values Incrementally5 分
What is the trade-off?7 分
Optimistic Initial Values6 分
Upper-Confidence Bound (UCB) Action Selection5 分
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8 分
Week 1 Summary3 分
3件の学習用教材
Module 2 Learning Objectives10 分
Weekly Reading30 分
Chapter Summary30 分
1の練習問題
Exploration/Exploitation45 分
2
3時間で修了

Markov Decision Processes

7件のビデオ (合計36分), 2 readings, 2 quizzes
7件のビデオ
Examples of MDPs4 分
The Goal of Reinforcement Learning3 分
Michael Littman: The Reward Hypothesis12 分
Continuing Tasks5 分
Examples of Episodic and Continuing Tasks3 分
Week 2 Summary1 分
2件の学習用教材
Module 3 Learning Objectives10 分
Weekly Reading30 分
1の練習問題
MDPs45 分
3
3時間で修了

Value Functions & Bellman Equations

9件のビデオ (合計56分), 3 readings, 2 quizzes
9件のビデオ
Value Functions6 分
Rich Sutton and Andy Barto: A brief History of RL7 分
Bellman Equation Derivation6 分
Why Bellman Equations?5 分
Optimal Policies7 分
Optimal Value Functions5 分
Using Optimal Value Functions to Get Optimal Policies8 分
Week 3 Summary4 分
3件の学習用教材
Module 4 Learning Objectives10 分
Weekly Reading30 分
Chapter Summary13 分
2の練習問題
Value Functions and Bellman Equations45 分
Value Functions and Bellman Equations45 分
4
7時間で修了

Dynamic Programming

10件のビデオ (合計72分), 3 readings, 2 quizzes
10件のビデオ
Iterative Policy Evaluation8 分
Policy Improvement4 分
Policy Iteration8 分
Flexibility of the Policy Iteration Framework4 分
Efficiency of Dynamic Programming5 分
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7 分
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21 分
Week 4 Summary2 分
Congratulations!3 分
3件の学習用教材
Module 5 Learning Objectives10 分
Weekly Reading30 分
Chapter Summary30 分
1の練習問題
Dynamic Programming45 分
4.8
127件のレビューChevron Right

Fundamentals of Reinforcement Learning からの人気レビュー

by PVNov 10th 2019

I understood all the necessary concepts of RL. I've been working on RL for some time now, but thanks to this course, now I have more basic knowledge about RL and can't wait to watch other courses

by ABSep 7th 2019

Concepts are bit hard, but it is nice if you undersand it well, espically the bellman and dynamic programming.\n\nSometimes, visualizing the problem is hard, so need to thoroghly get prepared.

講師

Avatar

Martha White

Assistant Professor
Computing Science
Avatar

Adam White

Assistant Professor
Computing Science

アルバータ大学(University of Alberta)について

UAlberta is considered among the world’s leading public research- and teaching-intensive universities. As one of Canada’s top universities, we’re known for excellence across the humanities, sciences, creative arts, business, engineering and health sciences....

Alberta Machine Intelligence Instituteについて

The Alberta Machine Intelligence Institute (Amii) is home to some of the world’s top talent in machine intelligence. We’re an Alberta-based research institute that pushes the bounds of academic knowledge and guides business understanding of artificial intelligence and machine learning....

強化学習専門講座について

The Reinforcement Learning Specialization consists of 4 courses exploring the power of adaptive learning systems and artificial intelligence (AI). Harnessing the full potential of artificial intelligence requires adaptive learning systems. Learn how Reinforcement Learning (RL) solutions help solve real-world problems through trial-and-error interaction by implementing a complete RL solution from beginning to end. By the end of this Specialization, learners will understand the foundations of much of modern probabilistic artificial intelligence (AI) and be prepared to take more advanced courses or to apply AI tools and ideas to real-world problems. This content will focus on “small-scale” problems in order to understand the foundations of Reinforcement Learning, as taught by world-renowned experts at the University of Alberta, Faculty of Science. The tools learned in this Specialization can be applied to game development (AI), customer interaction (how a website interacts with customers), smart assistants, recommender systems, supply chain, industrial control, finance, oil & gas pipelines, industrial control systems, and more....
強化学習

よくある質問

  • 修了証に登録すると、すべてのビデオ、テスト、およびプログラミング課題(該当する場合)にアクセスできます。ピアレビュー課題は、セッションが開始してからのみ、提出およびレビューできます。購入せずにコースを検討することを選択する場合、特定の課題にアクセスすることはできません。

  • コースに登録する際、専門講座のすべてのコースにアクセスできます。コースの完了時には修了証を取得できます。電子修了証が成果のページに追加され、そこから修了証を印刷したり、LinkedInのプロフィールに追加したりできます。コースの内容の閲覧のみを希望する場合は、無料でコースを聴講できます。

さらに質問がある場合は、受講者向けヘルプセンターにアクセスしてください。