AI가 어떻게 게임을 플레이하고 로봇을 제어하거나 현명한 결정을 내리는 방법을 배울 수 있는지 궁금한 적이 있나요? 에이전트가 시행착오를 통해 최적의 행동을 학습할 수 있도록 하는 인공 지능 및 머신 러닝의 강력한 패러다임인 강화 학습(RL)을 소개합니다. 이 글에서는 강화 학습의 주요 개념, 기술 및 적용 사례에 대해 논의하면서 강화 학습의 세계에 대해 자세히 알아볼 것입니다.
강화 학습의 기본 개념
강화 학습의 핵심에는 에이전트와 환경이라는 두 가지 주요 플레이어가 있습니다. 에이전트는 행동을 취함으로써 환경과 상호 작용하고, 환경은 새로운 상태와 보상으로 응답합니다. 이러한 동적 환경에서 에이전트의 목표는 시간 경과에 따른 누적 보상을 극대화하는 정책(상태와 행동 간의 매핑)을 학습하는 것입니다.
에이전트 및 환경
미로를 탐색하는 로봇을 상상해 보세요. 로봇(에이전트)은 장애물과 함정을 피하면서 목적지(목표 상태)에 도달하는 방법을 학습해야 합니다. 미로 자체는 로봇이 동작(예: 앞으로 이동, 좌회전, 우회전)을 수행할 때 로봇에게 피드백을 제공하는 환경을 나타냅니다.
상태, 행동 및 보상
강화 학습에서 에이전트는 상태를 통해 환경을 인식합니다. 상태는 의사 결정에 필요한 모든 관련 정보를 캡처하는 환경의 스냅샷입니다. 에이전트는 일련의 작업 중에서 선택하여 환경과 상호 작용할 수 있습니다. 행동을 취하면 에이전트는 환경으로부터 보상을 받게 되며, 이는 행동이 얼마나 좋은지 또는 나쁜지를 나타냅니다.
강화 학습의 유형
강화 학습 알고리즘은 여러 가지 방식으로 분류할 수 있습니다. 여기서는 모델 기반 대 모델 프리, 가치 기반 대 정책 기반, 탐색 대 익스플로잇의 세 가지 주요 차이점에 대해 설명합니다.
모델 기반 대 모델 프리 ( Model-based vs. Model-free )
모델 기반 강화 학습 알고리즘은 상태 전환과 보상의 역학을 포착하는 환경의 명시적 모델에 의존합니다. 이 모델을 통해 에이전트는 누적 보상을 극대화하기 위해 미래의 행동을 시뮬레이션하고 계획할 수 있습니다. 모델 기반 방법은 샘플 효율성이 더 높을 수 있지만 더 많은 계산 리소스가 필요할 수 있습니다.
반면에 모델 없는 모델프리 강화 학습 알고리즘은 환경에 대한 명시적인 모델이 필요하지 않습니다. 대신 환경과의 상호작용을 통해 직접 학습합니다. 이 접근 방식은 계산적으로 더 효율적이지만 최적의 정책을 학습하기 위해 더 많은 상호 작용이 필요할 수 있습니다. 모델 없는 방법의 예로는 Q-러닝과 SARSA가 있습니다.
가치 기반과 정책 기반 ( Value-based vs. Policy-based )
가치 기반 강화 학습 방법은 에이전트가 주어진 상태 또는 상태-행동 쌍에서 얻을 수 있는 예상 누적 보상을 나타내는 가치 함수를 추정하는 데 중점을 둡니다. 가치 함수가 학습되면 에이전트는 이 값을 최대화하는 작업을 선택할 수 있습니다. 가치 기반 방법의 예로는 Q-러닝과 심층 Q-네트워크(DQN)가 있습니다.
정책 기반 강화 학습 방법은 명시적으로 가치 함수를 추정하지 않고 상태를 작업에 매핑하는 정책을 직접 학습합니다. 정책 기반 방법은 연속적인 작업 공간을 처리할 수 있으며 종종 더 안정적인 정책으로 수렴합니다. 정책 기반 방법의 예로는 강화 및 근사 정책 최적화(PPO)가 있습니다.
Exploration vs Exploitation
탐색 대 활용 ( Exploration vs Exploitation )
강화 학습의 중요한 측면은 탐색과 익스플로잇의 균형을 맞추는 것입니다. 이 절충안은 에이전트가 둘 중 하나를 결정할 때 직면하는 딜레마를 의미합니다:
탐색: 잠재적으로 더 나은 보상을 얻기 위해 새로운 행동을 시도하는 것.
활용: 현재 지식을 바탕으로 가장 높은 보상을 얻을 수 있다고 생각되는 행동을 선택하는 것.
다중 무장 도적 문제 ( The Multi-Armed Bandit Problem )
탐험과 활용의 트레이드오프는 다무장 도적 문제로 잘 설명됩니다. 이 시나리오에서 에이전트는 각각 다른 미지의 확률로 보상을 제공하는 여러 슬롯 머신(산적 무기)을 마주하게 됩니다. 에이전트는 실제 보상 확률을 학습하면서 누적 보상을 최대화하기 위해 어떤 무기를 뽑을지 결정해야 합니다.
탐험과 활용의 균형 맞추기
탐험과 활용의 균형을 맞추기 위한 전략에는 다음이 포함됩니다:
- 엡실론 탐욕: 에이전트는 1-ε의 확률로 가장 잘 알려진 행동을 선택하고 ε의 확률로 무작위 행동을 탐색합니다. ε의 값은 시간이 지남에 따라 점차적으로 감소할 수 있습니다.
- 상위 신뢰 구간(UCB): 에이전트는 현재 값 추정치와 불확실성에 비례하는 탐색 보너스를 모두 고려하여 추정 값의 상한을 기준으로 작업을 선택합니다.
- 톰슨 샘플링: 에이전트는 각 작업의 예상 보상에 대한 확률 분포를 유지하고 이 분포에서 샘플을 추출하여 작업을 선택합니다. 불확실성이 높은 작업은 탐색될 확률이 높습니다.
Markov Decision Processes (MDPs)
마르코프 의사 결정 프로세스(MDP)는 에이전트가 목표를 달성하기 위해 환경과 상호작용하는 강화 학습에서 의사 결정 문제를 모델링하기 위한 공식적인 프레임워크를 제공합니다. MDP는 특히 미래 상태가 이전 상태와 행동의 기록이 아닌 현재 상태와 행동에만 의존하는 마르코프 속성을 나타내는 문제에 적합합니다.
MDP의 구성 요소
상태(S): 환경의 가능한 상황 또는 구성을 나타내는 유한한 상태 집합입니다.
작업(A): 각 상태에서 에이전트가 수행할 수 있는 유한한 작업 집합입니다.
전환 모델(P): 특정 액션이 주어졌을 때 한 상태에서 다른 상태로 전환될 가능성을 정의하는 확률 분포입니다.
P(s'|s,a)는 액션 a를 수행한 후 상태 s에서 상태 s'로 전환될 확률을 나타냅니다.
보상 함수(R): 에이전트가 어떤 상태에서 행동을 취한 후 받는 즉각적인 보상을 정의하는 함수입니다.
R(s,a,s')는 액션 a를 수행한 후 상태 s에서 상태 s'로 전환할 때의 보상을 나타냅니다.
할인 계수(γ): 미래 보상보다 즉각적인 보상에 대한 선호도를 나타내는 0에서 1 사이의 스칼라 값입니다.
할인 계수가 낮을수록 단기 보상에 대한 선호도가 더 높다는 것을 의미합니다.
MDP 풀기
MDP를 풀려면 예상되는 누적 보상을 최대화하는 상태와 행동 간의 매핑인 최적의 정책(π*)을 찾아야 합니다. 정책 반복 및 값 반복과 같은 동적 프로그래밍 방법과 몬테카를로 방법, 시간차 학습 등 여러 가지 알고리즘을 사용하여 MDP를 풀 수 있습니다.
Value Functions
가치 함수는 에이전트가 주어진 상태 또는 상태-행동 쌍에서 얻을 수 있는 예상 누적 보상을 추정하기 때문에 강화 학습 알고리즘의 필수 구성 요소입니다.
상태 가치 함수
V(s)로 표시되는 상태 가치 함수는 에이전트가 상태 s에서 시작하여 특정 정책 π에 따라 달성할 수 있는 예상 누적 보상을 나타냅니다. 수학적으로 다음과 같이 정의할 수 있습니다
Vπ(s) = Eπ[∑(t=0 ~ ∞) γ^t * R(st, at, st+1) | s0 = s],
여기서 Eπ는 정책 π에 따른 기대치를 나타내고, R(st, at, st+1)은 상태 st에서 조치를 취하고 상태 st+1로 전환한 후의 즉각적인 보상입니다.
행동 가치 함수
Q(s,a)로 표시되는 행동 가치 함수는 에이전트가 상태 s에서 시작하여 행동 a를 취한 다음 정책 π를 따를 때 얻을 수 있는 예상 누적 보상을 나타내며 수학적으로 다음과 같이 정의할 수 있습니다
Qπ(s, a) = Eπ[∑(t=0 to ∞) γ^t * R(st, at, st+1) | s0 = s, a0 = a],
여기서 상태값 함수와 마찬가지로 Eπ는 정책 π 하에서의 기대치를 나타냅니다.
상태-가치 함수와 행동-가치 함수는 에이전트가 장기 보상을 극대화하기 위해 다양한 상태에서 어떤 행동을 취해야 하는지 학습하는 데 도움이 되므로 강화 학습에서 매우 중요합니다.
벨만 방정식
벨만 방정식은 상태 또는 상태-행동 쌍의 값과 가능한 후속 상태 또는 상태-행동 쌍의 값 사이의 관계를 설명하는 강화 학습의 기본 방정식입니다. 이 방정식은 동적 프로그래밍, 몬테카를로 방법, 시간차 학습과 같은 많은 강화 학습 알고리즘의 기초를 제공합니다.
벨만 기대 방정식
벨만 기대 방정식은 특정 정책 π 하에서 상태의 가치 함수와 후속 상태의 가치 함수 간의 관계를 설명합니다. 상태-가치 함수의 경우 방정식은 다음과 같습니다
Vπ(s) = ∑a π(a|s) * ∑s' P(s'|s,a) * [R(s,a,s') + γ * Vπ(s')],
여기서 π(a|s)는 정책 π 하에서 상태 s에서 액션 a를 수행할 확률을 나타냅니다.
행동 가치 함수의 경우 벨만 기대 방정식은 다음과 같습니다
Qπ(s, a) = ∑s' P(s'|s,a) * [R(s,a,s') + γ * ∑a' π(a'|s') * Qπ(s', a')],
여기서 π(a'|s')는 정책 π에 따라 상태 s'에서 액션 a'를 수행할 확률을 나타냅니다.
벨만 최적성 방정식
벨만 최적성 방정식은 한 상태 또는 상태-행동 쌍의 최적 가치 함수와 후속 상태 또는 상태-행동 쌍의 최적 가치 함수 사이의 관계를 설명합니다. 상태-값 함수의 경우 방정식은 다음과 같습니다
V*(s) = max_a ∑s' P(s'|s,a) * [R(s,a,s') + γ * V*(s')],
여기서 V*는 최적의 상태값 함수를 나타냅니다.
행동값 함수의 경우 벨만 최적 방정식은 다음과 같습니다
Q*(s, a) = ∑s' P(s'|s,a) * [R(s,a,s') + γ * max_a' Q*(s', a')],
여기서 Q*는 최적의 액션 값 함수를 나타냅니다.
벨만 최적 방정식은 강화 학습 문제에서 최적의 정책을 찾기 위한 기초가 됩니다. 이 방정식을 풀면 에이전트는 각 상태에서 취할 수 있는 최선의 행동을 학습하여 예상되는 누적 보상을 최대화할 수 있습니다.
Dynamic Programming
동적 프로그래밍은 강화 학습에서 흔히 사용되는 하위 문제와 최적의 하위 구조가 겹치는 문제를 해결하는 데 사용되는 알고리즘 제품군입니다. 강화 학습의 맥락에서 동적 프로그래밍 방법은 반복적으로 가치 함수를 추정하고 최적의 정책을 찾아 마르코프 의사 결정 프로세스(MDP)를 해결하는 데 사용됩니다.
정책 평가
정책 평가는 주어진 정책 π에 대한 상태-가치 함수 Vπ(s)를 추정하는 과정으로, 벨만 기대 방정식을 사용하여 수렴할 때까지 반복적으로 가치 함수를 업데이트함으로써 이루어집니다:
Vπ(s) = ∑a π(a|s) * ∑s' P(s'|s,a) * [R(s,a,s') + γ * Vπ(s')],
이 과정은 가치 함수가 소량만 변경될 때까지 계속되며, 이는 주어진 정책 하에서 상태 값의 안정적인 추정치에 수렴했음을 나타냅니다.
정책 개선
정책 개선은 현재 추정된 액션-가치 함수 Qπ(s,a)에 따라 각 상태에서 가장 적합한 액션을 선택하여 주어진 정책을 개선하는 프로세스입니다. 에이전트는 기대 가치를 극대화하는 행동을 선택함으로써 정책을 개선하고 잠재적으로 장기적인 보상을 늘릴 수 있습니다:
π'(s) = argmax_a Qπ(s,a),
여기서 π' 는 개선된 정책입니다.
정책 반복
정책 반복은 정책 평가와 정책 개선을 번갈아 가며 최적의 정책을 찾는 동적 프로그래밍 방법입니다. 이 알고리즘은 임의의 정책으로 시작한 다음 정책을 반복적으로 평가하고 개선하며 정책이 최적의 정책에 수렴할 때까지 이 과정을 반복합니다. 정책 반복은 특정 조건에서 최적의 정책으로 수렴하도록 보장됩니다.
값 반복
값 반복은 정책 평가와 정책 개선을 단일 단계로 결합하는 또 다른 동적 프로그래밍 방법입니다. 수렴할 때까지 정책을 평가하는 대신 값 반복은 벨만 최적 방정식을 사용하여 상태 값 함수를 한 번만 업데이트합니다:
V(s) = max_a ∑s' P(s'|s,a) * [R(s,a,s') + γ * V(s')],
이 과정은 값 함수가 수렴할 때까지 반복됩니다. 가치 함수가 최적의 상태-가치 함수로 수렴하면 각 상태의 액션-가치 함수를 최대화하는 액션을 선택하면 최적의 정책을 추출할 수 있습니다.
정책 반복과 값 반복은 모두 강화 학습에서 MDP를 풀기 위한 강력한 동적 프로그래밍 방법입니다. 하지만 환경의 역학에 대한 지식이 필요하므로 실제로는 항상 사용할 수 있는 것은 아닙니다. 또한 계산 복잡성으로 인해 대규모 문제에서는 제한적인 요소가 될 수 있습니다.
Monte Carlo Methods
Carlo Methods 샘플링에 의존하여 가치 함수를 추정하고 최적의 정책을 학습하는 강화 학습 알고리즘의 한 종류입니다. 이 방법은 환경의 역학을 알 수 없거나 상태 및 동작 공간이 너무 커서 동적 프로그래밍 접근법을 사용하기에 적합하지 않은 경우에 특히 유용합니다. Carlo Methods 는 충분한 샘플이 주어지면 샘플링된 수익률의 평균이 예상 수익률에 수렴한다는 아이디어에 기반합니다.
On-policy Monte Carlo control : SARSA라고도 하는 이 접근 방식은 정책 자체를 개선하면서 현재 정책에 대한 행동 값 함수를 학습합니다. 일반적으로 탐사와 착취의 균형을 맞추기 위해 ε-탐욕 탐사를 사용합니다.
Off-policy Monte Carlo control : Q-러닝이라고도 하는 이 접근 방식은 별도의 행동 정책에서 생성된 샘플을 사용하여 최적의 정책에 대한 행동 가치 함수를 학습합니다. 행동 정책은 일반적으로 더 탐색적이어서 에이전트가 환경에 대해 학습할 수 있으며, 목표 정책은 최적의 정책으로 수렴합니다.
몬테카를로 방법은 환경의 역학을 알 수 없거나 상태 및 동작 공간이 큰 경우 강화 학습 문제에 대한 동적 프로그래밍의 대안을 제공합니다. 그러나 샘플링에 의존하기 때문에 높은 분산과 느린 수렴으로 인해 어려움을 겪을 수 있습니다.
강화 학습의 응용분야
강화 학습은 환경과의 상호작용을 통해 최적의 정책을 학습하는 능력 덕분에 다양한 영역에 성공적으로 적용되었습니다. 다음은 강화 학습의 몇 가지 주목할 만한 응용 사례입니다.
로봇 공학
강화 학습은 로봇이 다양한 작업을 자율적으로 학습할 수 있는 알고리즘을 개발하기 위해 로봇 공학에서 광범위하게 사용되어 왔습니다. 몇 가지 예는 다음과 같습니다:
- 로봇 이동: 로봇이 다양한 지형을 걷고, 달리고, 탐색하는 방법을 가르치는 데 RL 알고리즘이 사용되었습니다.
- 조작: 로봇이 물체 잡기, 구성 요소 조립, 도구 사용과 같은 복잡한 조작 작업을 수행하도록 훈련하는 데 RL 기술이 사용되었습니다.
- 인간과 로봇의 상호작용: 강화 학습은 공동 작업 및 사회적 인식 탐색을 포함하여 안전하고 효율적인 방식으로 인간과 상호 작용하는 방법을 배울 수 있는 로봇을 개발하는 데 적용되었습니다.
게임 플레이
강화 학습은 게임 플레이 영역에서 괄목할 만한 성공을 거두며 컴퓨터가 다양한 게임을 마스터할 수 있게 해줍니다:
- 보드 게임: 딥러닝과 결합된 RL 알고리즘은 컴퓨터가 바둑, 체스, 장기와 같은 보드 게임을 초인적인 수준으로 플레이하도록 훈련하는 데 사용되었습니다(예: 구글 딥마인드의 알파고 및 알파제로).
- 비디오 게임: 강화 학습은 고전적인 아타리 게임부터 도타 2, 스타크래프트 II와 같은 현대적이고 복잡한 환경에 이르기까지 비디오 게임에서 최적의 전략을 학습하는 데 적용되었습니다.
- 포커: RL 기술은 불완전한 정보가 있는 게임에서도 프로 인간 플레이어를 이길 수 있는 포커 플레이 AI 에이전트를 개발하는 데 사용되었습니다.
금융
강화 학습은 다음과 같은 다양한 금융 분야에서 활용되고 있습니다:
- 알고리즘 트레이딩: RL 알고리즘은 주식 선택, 포트폴리오 관리, 주문 실행 등 트레이딩 전략을 최적화하는 데 사용할 수 있습니다.
- 신용 평가: 강화 학습을 적용하여 신용 리스크의 동적 특성을 고려한 보다 정확하고 적응력 있는 신용 점수 모델을 개발할 수 있습니다.
- 최적의 호가: 전자 시장이나 온라인 광고와 같이 동적인 환경에서 최적의 가격 책정 전략을 찾는 데 RL 기법을 사용할 수 있습니다.
이는 강화 학습의 수많은 적용 사례 중 일부에 불과합니다. 강화 학습 기법은 다재다능하기 때문에 의료, 교육, 교통, 에너지 관리 등 다양한 문제에 적용될 수 있습니다. 이 분야가 계속 발전함에 따라 강화 학습은 복잡한 현실 세계의 문제를 해결하는 데 점점 더 중요한 역할을 할 것으로 예상됩니다.
강화학습의 미래
강화 학습(RL)의 미래는 흥미진진하며 수많은 산업과 애플리케이션에 혁신을 일으킬 것으로 기대됩니다.
다음은 RL의 몇 가지 잠재적 방향과 트렌드입니다.
향상된 알고리즘: 연구가 진행됨에 따라 더욱 효율적이고 효과적인 RL 알고리즘을 기대할 수 있습니다. 이러한 개선은 더 나은 탐색 기법, 향상된 샘플 효율성, 더 광범위한 환경을 처리할 수 있는 더 강력한 알고리즘, 더 빠르게 학습할 수 있는 알고리즘의 형태로 나타날 수 있습니다.
전이 학습 및 멀티태스크 학습: 한 작업에서 얻은 지식을 다른 관련 작업에 적용하는 능력인 전이 학습과 여러 작업을 동시에 수행하는 학습인 멀티태스크 학습은 RL을 실제 애플리케이션으로 확장하는 데 매우 중요합니다. 앞으로 이러한 영역에서 상당한 발전을 기대할 수 있습니다.
안전하고 신뢰할 수 있는 RL: RL이 실제 애플리케이션에 점점 더 많이 배포됨에 따라 안전하고 신뢰할 수 있는 RL 알고리즘에 대한 필요성이 커지고 있습니다. 여기에는 위험에 민감한 학습 방법, 페일 세이프 메커니즘, 치명적인 오류를 피하기 위한 알고리즘의 한계 이해 등이 포함됩니다.
설명 가능성 및 해석 가능성: RL 모델이 점점 더 복잡해짐에 따라 그 동작을 이해하고 설명할 수 있는 더 나은 도구에 대한 필요성이 커지고 있습니다. RL에 대한 해석 가능성 기법을 개발하는 것은 이러한 시스템에 대한 신뢰를 얻고 가치 있는 인사이트를 발견하는 데 도움이 될 수 있는 중요한 연구 방향입니다.
실제 적용: RL은 실제 세계에서 더 많은 응용 분야를 찾을 수 있을 것으로 기대됩니다. 여기에는 개인 맞춤형 치료 계획에 RL을 사용할 수 있는 의료 분야, 물류 및 경로를 최적화할 수 있는 운송 분야, 전력망을 보다 효율적으로 관리할 수 있는 에너지 분야 등이 포함됩니다.
휴먼 인더 루프 RL: 인간으로부터, 그리고 인간과 함께 학습할 수 있는 RL 알고리즘에 대한 관심이 높아지고 있습니다. 여기에는 인간의 시연을 통한 학습, 인간의 피드백을 통한 학습, 협력 작업에서 인간을 지원하는 학습 등이 포함됩니다. 이러한 알고리즘은 보다 자연스럽고 효율적인 인간-AI 협업을 가능하게 할 수 있습니다.
모델 기반과 모델 없는 RL의 결합: 모델 기반 방식과 모델 없는 방식 모두 장단점이 있습니다. 이 두 가지 접근법을 효과적으로 결합하는 것이 향후 RL 연구의 유망한 방향입니다.
RL의 윤리: 모든 AI 기술과 마찬가지로 RL의 윤리적 함의는 중요합니다. 여기에는 RL 시스템이 인간의 가치에 부합하도록 보장하는 방법과 RL의 유해한 적용을 방지하고 완화하는 방법에 대한 질문이 포함됩니다.
강화 학습 분야는 괄목할 만한 발전을 이루었지만, 그 잠재력은 이제 겨우 표면을 긁어내기 시작했습니다. 강화 학습의 미래는 훨씬 더 놀라운 발전과 응용을 가져올 것입니다.
마치며
학습은 복잡한 작업을 수행하고 지능적인 의사 결정을 내릴 수 있도록 AI 시스템을 훈련시키는 강력한 접근 방식으로 부상했습니다. 다양한 RL 기술을 이해하고 숙달함으로써 더욱 유능하고 적응력이 뛰어난 인공 에이전트를 개발할 수 있습니다. 하지만 실제 애플리케이션에서 RL의 잠재력을 최대한 발휘하기 위해서는 해결해야 할 과제와 한계가 여전히 남아 있습니다.
FAQ
강화 학습과 지도 학습의 차이점은 무엇인가요?
지도 학습에서는 각 입력에 대해 올바른 출력이 제공되는 레이블이 지정된 데이터에 대해 모델이 학습됩니다. 강화 학습에서는 에이전트가 명시적인 감독 없이 환경과 상호 작용하고 보상 형태의 피드백을 받으면서 학습합니다.
강화 학습의 실제 적용 사례에는 어떤 것이 있나요?
강화 학습은 로봇 공학, 게임 플레이(예: 알파고), 금융(예: 트레이딩 알고리즘), 추천 시스템, 자율 주행 자동차 등에 성공적으로 적용되었습니다.
심층 강화 학습은 기존 강화 학습과 어떻게 다른가요?
심층 강화 학습은 강화 학습과 심층 신경망을 결합하여 실제 문제에서 흔히 볼 수 있는 복잡하고 고차원적인 상태 공간을 학습할 수 있도록 합니다.
강화 학습의 탐색-활용 트레이드오프는 무엇인가요?
탐색-활용 트레이드오프는 잠재적으로 더 나은 보상을 발견하기 위해 새로운 행동을 탐색할지, 아니면 현재 지식을 바탕으로 가장 높은 보상을 얻을 수 있다고 생각되는 행동을 활용할지 결정할 때 에이전트가 직면하는 딜레마를 말합니다.
강화 학습의 과제와 한계는 무엇인가요?
강화 학습의 몇 가지 과제로는 샘플 비효율성(학습을 위해 환경과 많은 상호작용이 필요함), 탐색-활용 딜레마, 비고정 환경, 대규모 상태 및 작업 공간으로의 확장성 등이 있습니다.