강화학습은 행동을 하고, 그에 대한 보상(또는 벌점)을 받으며 점점 더 나은 행동을 배우는 머신러닝 방법이야.
쉽게 말하면,
컴퓨터가 **"어떤 행동을 하면 좋은 결과가 나오는지"**를
스스로 경험하면서 배우는 방식이야.
📌 핵심 요소 4가지
용어설명비유
환경 (Environment) | 에이전트가 행동하는 공간 | 게임 화면, 교실, 바둑판 |
에이전트 (Agent) | 학습하는 주체 (컴퓨터) | 캐릭터, 로봇, 자율주행차 |
행동 (Action) | 에이전트가 취할 수 있는 선택 | 왼쪽으로 걷기, 점프하기 |
보상 (Reward) | 행동에 따른 결과값 | +10점, -5점, 실패, 성공 |
🎮 쉬운 예시: 미로 탈출 게임
에이전트(캐릭터)가 미로에서 출구를 찾으려고 해.
- 처음엔 아무것도 모르는 상태로 시작해서 아무 방향으로나 움직여 봐.
- 출구에 가까워지면 +10 보상, 벽에 부딪히면 -5 벌점!
- 이런 식으로 수백 번 시도하면서 "아하! 이렇게 가면 출구에 빨리 도착하네!"라는 전략을 스스로 학습해.
결과적으로, 가장 보상을 많이 받는 행동 순서를 찾아내게 되는 거지.
🚗 실생활 예시: 자율주행 자동차
- 환경: 도로
- 에이전트: 자율주행 자동차
- 행동: 속도 조절, 차선 변경, 정지, 출발
- 보상: 안전하게 운전하면 +보상, 사고 나면 -보상
자율주행차는 수천 번의 시뮬레이션을 통해
"언제 멈추고, 언제 가야 안전한지"를 스스로 배운다!
🧠 정리하자면
강화학습은 "행동-보상-학습"의 반복을 통해, 최적의 전략을 배우는 머신러닝 방식이다.
- 지도학습은 정답을 알려주는 방식이고,
- 강화학습은 정답을 알려주지 않고, 직접 경험하게 하는 방식이야.

'인공지능' 카테고리의 다른 글
Deep Learning - 자율주행자동차 (0) | 2025.04.10 |
---|---|
딥러닝이란? (0) | 2025.04.08 |
머신러닝이란? (2) | 2025.04.08 |
머신러닝이 뭐야? (0) | 2025.04.08 |
인공지능 역사는??? (0) | 2025.04.03 |