Policy Training
Pathmind는 시뮬레이션 모델에 Action Space 구현부터 클라우드상의 강화학습 정책 트레이닝까지 강화학습에 필요한 모든 프로세스를 제공합니다.
The Pathmind Workflow
고객은 시뮬레이션에만 집중하고 그 외 모든 것은 Pathmind가 처리하는 환경을 제공합니다.

Easily Apply Reinforcement Learning to Your Simulation

Pathmind는 고객의 시뮬레이션에 강화학습 도구를 설치하는 사용하기 편리한 플러그인을 제공합니다.
Pathmind는 시뮬레이션 데이터를 강화학습 알고리즘이 이해할 수 있는 포맷으로 변환하는 간편한 인터페이스를 제공합니다. AI에 관한 전문 지식이나 전문 인력 없이도 사용 가능합니다.
- AI가 올바른 결정을 내리는 데 필요한 관측(observation) 을 정의합니다.
- Setting up 행동(action) 을 설정하고 그 행동이 작동되는 시기를 결정하여 AI가 시뮬레이션과 상호작용할 수 있도록 합니다.
- 수익 및 비용과 같은 중요한 KPI를 나타내는 메트릭스(metrics) 를 지정합니다.
또한 Pathmind를 사용하면 고객의 시뮬레이션에서 훈련된 정책에 query하여 시뮬레이션 내에서 직접 결과를 사용하고 검증할 수 있습니다.
Automated Hyperparameter Tuning and Cloud Infrastructure Orchestration
Pathmind는 최첨단 automated hyperparameter tuning 및 distributed cloud infrastructure를 활용하여 신속하게 최적의 결과를 얻을 수 있습니다.
- 트레이닝이 실행되면 Pathmind가 클라우드 컴퓨팅 리소스를 자동으로 프로비저닝 하여 정책을 훈련시킵니다.
- 트레이닝 중에 Pathmind는 최상의 결과를 찾기 위해 신경망의 hyperparameters를 동적 으로 조정합니다.
- Pathmind는 PPO와 같은 최신 강화 학습 알고리즘을 사용하여 정책을 훈련시킵니다. 또한 항상 최신 기술을 이용할 수 있도록 알고리즘을 지속적으로 테스트 및 업데이트합니다.
강화학습이나 클라우드 전문 지식이 필요하지 않습니다. Pathmind는 사용자가 시뮬레이션을 개선하는 데 집중할 수 있도록 이를 처리합니다.

Pathmind 트레이닝 인터페이스를 통해 프로젝트와 실험을 손 쉽게 관리
Execute Experiments in Parallel

Pathmind는 클라우드상에서 여러개의 실험을 동시에 수행할 수 있습니다.
Pathmind를 사용하면 수십 개의 보상 함수(reward function)를 병렬로 신속하게 테스트할 수 있습니다. 동시에 실행할 수 있는 실험 횟수에 대한 제한은 없습니다.
- 지금껏 데이터 과학자들은 주어진 시간 안에 처리할 수 있는 실험의 수가 제한되므로 반복(iteration) 과정이 느리고 지루했습니다.
- Pathmind를 사용하면 다수의 실험을 동시에 수행하고 결과를 자동으로 추적하여 더욱 짧은 시간 안에 제대로 훈련된 정책을 얻을 수 있습니다.