본문 바로가기

인공지능

강화학습이란?

강화학습은 행동을 하고, 그에 대한 보상(또는 벌점)을 받으며 점점 더 나은 행동을 배우는 머신러닝 방법이야.

쉽게 말하면,
컴퓨터가 **"어떤 행동을 하면 좋은 결과가 나오는지"**를
스스로 경험하면서 배우는 방식이야.


📌 핵심 요소 4가지

용어설명비유
환경 (Environment) 에이전트가 행동하는 공간 게임 화면, 교실, 바둑판
에이전트 (Agent) 학습하는 주체 (컴퓨터) 캐릭터, 로봇, 자율주행차
행동 (Action) 에이전트가 취할 수 있는 선택 왼쪽으로 걷기, 점프하기
보상 (Reward) 행동에 따른 결과값 +10점, -5점, 실패, 성공

🎮 쉬운 예시: 미로 탈출 게임

에이전트(캐릭터)가 미로에서 출구를 찾으려고 해.

  • 처음엔 아무것도 모르는 상태로 시작해서 아무 방향으로나 움직여 봐.
  • 출구에 가까워지면 +10 보상, 벽에 부딪히면 -5 벌점!
  • 이런 식으로 수백 번 시도하면서 "아하! 이렇게 가면 출구에 빨리 도착하네!"라는 전략을 스스로 학습해.

결과적으로, 가장 보상을 많이 받는 행동 순서를 찾아내게 되는 거지.


🚗 실생활 예시: 자율주행 자동차

  • 환경: 도로
  • 에이전트: 자율주행 자동차
  • 행동: 속도 조절, 차선 변경, 정지, 출발
  • 보상: 안전하게 운전하면 +보상, 사고 나면 -보상

자율주행차는 수천 번의 시뮬레이션을 통해
"언제 멈추고, 언제 가야 안전한지"를 스스로 배운다!


🧠 정리하자면

강화학습은 "행동-보상-학습"의 반복을 통해, 최적의 전략을 배우는 머신러닝 방식이다.

  • 지도학습은 정답을 알려주는 방식이고,
  • 강화학습정답을 알려주지 않고, 직접 경험하게 하는 방식이야.

'인공지능' 카테고리의 다른 글

Deep Learning - 자율주행자동차  (0) 2025.04.10
딥러닝이란?  (0) 2025.04.08
머신러닝이란?  (2) 2025.04.08
머신러닝이 뭐야?  (0) 2025.04.08
인공지능 역사는???  (0) 2025.04.03