このコースについて

47,666 最近の表示

受講生の就業成果

33%

コース終了後に新しいキャリアをスタートした

56%

コースが具体的なキャリアアップにつながった

33%

昇給や昇進につながった
共有できる証明書
修了時に証明書を取得
100%オンライン
自分のスケジュールですぐに学習を始めてください。
次における7の4コース
柔軟性のある期限
スケジュールに従って期限をリセットします。
上級レベル
約26時間で修了
英語

受講生の就業成果

33%

コース終了後に新しいキャリアをスタートした

56%

コースが具体的なキャリアアップにつながった

33%

昇給や昇進につながった
共有できる証明書
修了時に証明書を取得
100%オンライン
自分のスケジュールですぐに学習を始めてください。
次における7の4コース
柔軟性のある期限
スケジュールに従って期限をリセットします。
上級レベル
約26時間で修了
英語

提供:

Placeholder

ロシア国立研究大学経済高等学院(National Research University Higher School of Economics)

シラバス - 本コースの学習内容

コンテンツの評価Thumbs Up82%(2,354 件の評価)Info
1

1

5時間で修了

Intro: why should I care?

5時間で修了
14件のビデオ (合計85分), 6 学習用教材, 3 個のテスト
14件のビデオ
Why should you care9 分
Reinforcement learning vs all3 分
Multi-armed bandit4 分
Decision process & applications6 分
Markov Decision Process5 分
Crossentropy method9 分
Approximate crossentropy method5 分
More on approximate crossentropy method6 分
Evolution strategies: core idea6 分
Evolution strategies: math problems5 分
Evolution strategies: log-derivative trick8 分
Evolution strategies: duct tape6 分
Blackbox optimization: drawbacks4 分
6件の学習用教材
About the University10 分
Rules on the academic integrity in the course10 分
FAQ10 分
Primers1 時間
About honors track1 分
Extras10 分
2

2

3時間で修了

At the heart of RL: Dynamic Programming

3時間で修了
5件のビデオ (合計54分), 3 学習用教材, 4 個のテスト
5件のビデオ
State and Action Value Functions13 分
Measuring Policy Optimality6 分
Policy: evaluation & improvement10 分
Policy and value iteration8 分
3件の学習用教材
Optional: Reward discounting from a mathematical perspective10 分
External links: Reward Design10 分
Discrete Stochastic Dynamic Programming10 分
3の練習問題
Reward design8 分
Optimality in RL30 分
Policy Iteration30 分
3

3

3時間で修了

Model-free methods

3時間で修了
6件のビデオ (合計47分), 1 学習用教材, 4 個のテスト
6件のビデオ
Monte-Carlo & Temporal Difference; Q-learning8 分
Exploration vs Exploitation8 分
Footnote: Monte-Carlo vs Temporal Difference2 分
Accounting for exploration. Expected Value SARSA11 分
On-policy vs off-policy; Experience replay7 分
1件の学習用教材
Extras10 分
1の練習問題
Model-free reinforcement learning30 分
4

4

3時間で修了

Approximate Value Based Methods

3時間で修了
9件のビデオ (合計104分), 3 学習用教材, 5 個のテスト
9件のビデオ
Loss functions in value based RL11 分
Difficulties with Approximate Methods15 分
DQN – bird's eye view9 分
DQN – the internals9 分
DQN: statistical issues6 分
Double Q-learning6 分
More DQN tricks10 分
Partial observability17 分
3件の学習用教材
TD vs MC10 分
Extras10 分
DQN follow-ups10 分
3の練習問題
MC & TD10 分
SARSA and Q-learning10 分
DQN30 分

レビュー

PRACTICAL REINFORCEMENT LEARNING からの人気レビュー

すべてのレビューを見る

上級機械学習専門講座について

上級機械学習

よくある質問

さらに質問がある場合は、受講者向けヘルプセンターにアクセスしてください。