このコースについて

239,044 最近の表示

共有できる証明書

修了時に証明書を取得

100%オンライン

自分のスケジュールですぐに学習を始めてください。

次における4の1コース

柔軟性のある期限

スケジュールに従って期限をリセットします。

中級レベル

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

約21時間で修了

英語

字幕:英語

学習内容

  • Formalize problems as Markov Decision Processes

  • Understand basic exploration methods and the exploration / exploitation tradeoff

  • Understand value functions, as a general-purpose tool for optimal decision-making

  • Know how to implement dynamic programming as an efficient solution approach to an industrial control problem

習得するスキル

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems

共有できる証明書

修了時に証明書を取得

100%オンライン

自分のスケジュールですぐに学習を始めてください。

次における4の1コース

柔軟性のある期限

スケジュールに従って期限をリセットします。

中級レベル

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

約21時間で修了

英語

字幕:英語

提供:

アルバータ大学(University of Alberta) ロゴ

アルバータ大学(University of Alberta)

Alberta Machine Intelligence Institute ロゴ

Alberta Machine Intelligence Institute

シラバス - 本コースの学習内容

コンテンツの評価Thumbs Up93%(6,090 件の評価)Info
1

1

1時間で修了

Welcome to the Course!

1時間で修了
4件のビデオ (合計20分), 2 readings
4件のビデオ
Course Introduction5 分
Meet your instructors!8 分
Your Specialization Roadmap3 分
2件の学習用教材
Reinforcement Learning Textbook10 分
Read Me: Pre-requisites and Learning Objectives10 分
7時間で修了

The K-Armed Bandit Problem

7時間で修了
8件のビデオ (合計46分), 3 readings, 2 quizzes
8件のビデオ
Learning Action Values4 分
Estimating Action Values Incrementally5 分
What is the trade-off?7 分
Optimistic Initial Values6 分
Upper-Confidence Bound (UCB) Action Selection5 分
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8 分
Week 1 Summary3 分
3件の学習用教材
Module 2 Learning Objectives10 分
Weekly Reading30 分
Chapter Summary30 分
1の練習問題
Exploration/Exploitation45 分
2

2

3時間で修了

Markov Decision Processes

3時間で修了
7件のビデオ (合計36分), 2 readings, 2 quizzes
7件のビデオ
Examples of MDPs4 分
The Goal of Reinforcement Learning3 分
Michael Littman: The Reward Hypothesis12 分
Continuing Tasks5 分
Examples of Episodic and Continuing Tasks3 分
Week 2 Summary1 分
2件の学習用教材
Module 3 Learning Objectives10 分
Weekly Reading30 分
1の練習問題
MDPs45 分
3

3

3時間で修了

Value Functions & Bellman Equations

3時間で修了
9件のビデオ (合計56分), 3 readings, 2 quizzes
9件のビデオ
Value Functions6 分
Rich Sutton and Andy Barto: A brief History of RL7 分
Bellman Equation Derivation6 分
Why Bellman Equations?5 分
Optimal Policies7 分
Optimal Value Functions5 分
Using Optimal Value Functions to Get Optimal Policies8 分
Week 3 Summary4 分
3件の学習用教材
Module 4 Learning Objectives10 分
Weekly Reading30 分
Chapter Summary13 分
2の練習問題
Value Functions and Bellman Equations45 分
Value Functions and Bellman Equations45 分
4

4

7時間で修了

Dynamic Programming

7時間で修了
10件のビデオ (合計72分), 3 readings, 2 quizzes
10件のビデオ
Iterative Policy Evaluation8 分
Policy Improvement4 分
Policy Iteration8 分
Flexibility of the Policy Iteration Framework4 分
Efficiency of Dynamic Programming5 分
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7 分
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21 分
Week 4 Summary2 分
Congratulations!3 分
3件の学習用教材
Module 5 Learning Objectives10 分
Weekly Reading30 分
Chapter Summary30 分
1の練習問題
Dynamic Programming45 分

強化学習専門講座について

The Reinforcement Learning Specialization consists of 4 courses exploring the power of adaptive learning systems and artificial intelligence (AI). Harnessing the full potential of artificial intelligence requires adaptive learning systems. Learn how Reinforcement Learning (RL) solutions help solve real-world problems through trial-and-error interaction by implementing a complete RL solution from beginning to end. By the end of this Specialization, learners will understand the foundations of much of modern probabilistic artificial intelligence (AI) and be prepared to take more advanced courses or to apply AI tools and ideas to real-world problems. This content will focus on “small-scale” problems in order to understand the foundations of Reinforcement Learning, as taught by world-renowned experts at the University of Alberta, Faculty of Science. The tools learned in this Specialization can be applied to game development (AI), customer interaction (how a website interacts with customers), smart assistants, recommender systems, supply chain, industrial control, finance, oil & gas pipelines, industrial control systems, and more....
強化学習

よくある質問

  • 修了証に登録すると、すべてのビデオ、テスト、およびプログラミング課題(該当する場合)にアクセスできます。ピアレビュー課題は、セッションが開始してからのみ、提出およびレビューできます。購入せずにコースを検討することを選択する場合、特定の課題にアクセスすることはできません。

  • コースに登録する際、専門講座のすべてのコースにアクセスできます。コースの完了時には修了証を取得できます。電子修了証が成果のページに追加され、そこから修了証を印刷したり、LinkedInのプロフィールに追加したりできます。コースの内容の閲覧のみを希望する場合は、無料でコースを聴講できます。

  • サブスクライブすると、7日間の無料トライアルを体験できます。この期間中は解約金なしでキャンセルできます。それ以降、払い戻しはありませんが、サブスクリプションをいつでもキャンセルできます。返金ポリシーをすべて表示します

  • はい。受講料の支払いが難しい受講生に、Coursera(コーセラ)は学資援助を提供しています。左側の[登録]ボタンの下にある[学資援助]のリンクをクリックして申請してください。申請書の入力を促すメッセージが表示され、承認されると通知が届きます。キャップストーンプロジェクトを含む専門講座の各コースでこのステップを完了する必要があります。詳細

  • このコースでは大学の単位は付与されませんが、一部の大学ではコース修了証を単位として承認する場合があります。詳細については、大学にお問い合わせください。Coursera(コーセラ)のオンライン学位および Mastertrack™証明書は、大学の単位を取得する機会を提供します。

さらに質問がある場合は、受講者向けヘルプセンターにアクセスしてください。