import numpy as np
import collections1. imports
2. 강화학습 Intro
- 강화학습(대충설명): 어떠한 “(게임)환경”이 있을때 거기서 “뭘 할지”를 학습하는 과업
- 딥마인드: breakout \(\to\) 알파고
- 강화학습에서 “강화”는 뭘 강화한다는것일까?
- 강화학습 미래? (이거 잘하면 먹고 살 수 있을까?)
3. Bandit 게임 설명
- 문제설명: 두 개의 버튼이 있다. 버튼0을 누르면 1의 보상을, 버튼1을 누르면 10의 보상을 준다고 가정
- Agent: 버튼0을 누르거나,버튼1을 누르는 존재
- Env: Agent의 Action을 바탕으로 Reward를 주는 존재
주의: 이 문제 상황에서 state는 없음
- 생성형AI로 위의 상황을 설명한것
|
|
|