import numpy as np
import collections
1. imports
2. 강화학습 Intro
-
강화학습(대충설명): 어떠한 “(게임)환경”이 있을때 거기서 “뭘 할지”를 학습하는 과업

-
딥마인드: breakout \(\to\) 알파고

-
강화학습에서 “강화”는 뭘 강화한다는것일까?
-
강화학습 미래? (이거 잘하면 먹고 살 수 있을까?)
3. Bandit 게임 설명
-
문제설명: 두 개의 버튼이 있다. 버튼0
을 누르면 1의 보상을, 버튼1
을 누르면 10의 보상을 준다고 가정
- Agent: 버튼0을 누르거나,버튼1을 누르는 존재
- Env: Agent의 Action을 바탕으로 Reward를 주는 존재
주의: 이 문제 상황에서 state는 없음
-
생성형AI로 위의 상황을 설명한것
![]() |
![]() |
![]() |