Examples of Simulation and AI

강화학습에 회의적이신가요? 아래의 예제를 통해 직접 확인해보세요. 모든 시뮬레이션은 AnyLogic을 사용하여 구현되었습니다.

 

SIGN UP

Predictive Maintenance

본 예제는 20개의 터빈과 3명의 직원이 있는 풍력 발전소를 모델링 한 것 입니다. 이 시뮬레이션의 목적은 수익(즉, 총수익에서 작업 비용을 뺀 것)을 최대화하는 것입니다. 이를 달성하기 위해 휴리스틱 방법과 강화학습 정책 모두 장비가 고장 나기 전에 사전에 수리해야하는 동시에 작업 및 출장 비용을 증가시키는 수리의 빈도를 최소화해야 합니다.

Result

일상적인 유지보수 및 예측에 실패하는 휴리스틱 방법에 비해, Pathmind의 강화학습은 58% 더 높은 총수익을 달성합니다.

Warehouse Putaway & Picking

본 예제는 물류센터에서 강화학습을 활용해 제품 상자를 이동하고, 작업자의 최대 성과를 얻을 수 있도록 시뮬레이션한 모델입니다. Pathmind의 강화학습을 사용하여 동적이고 복잡한 환경에서 더 나은 결과를 도출할 수 있었습니다.

Result

강화학습은 예상되는 최종 목표에 가장 가까운 팔레트를 전략적으로 처리하는 방법을 학습합니다.

Factory Flow

이 시뮬레이션은 6개의 제품이 동일한 제조 라인에 있는 특정 작업 스테이션에 도달해야 하는 공장을 모델링합니다. 롤링 컨베이어와 셔틀은 제품을 이동시키게 되고 제품의 초기 위치(최대 21개의 서로 다른 위치)와 목적지(최대 3개의 다른 스테이션)는 각 시뮬레이션을 시작할 때 무작위로 할당됩니다. 강화학습 정책은 불필요한 이동을 피하고, 흐름을 원활하게 하며, 최소의 이동으로 제조 공정을 성공적으로 완료하기 위한 최적의 경로를 선택할 수 있습니다.

Result

강화학습은 휴리스틱 방법보다 더 적은 이동으로 제조 공정을 완료할 수 있었습니다.

Clustering of Physical Stores

본 예제는 개별 매장의 매출을 극대화하기 위해 고객과 경쟁 업체를 고려하여 최적의 매장 위치를 선정합니다. 그러나 경쟁 업체의 매장에서도 강화학습을 통하여 최상의 위치를 찾는 동일한 전략을 사용하고 있습니다.

이러한 경쟁 구도로 인해 강화학습 정책이 만약 모든 경쟁 업체들이 도심 주변에서 서로 근접하게 위치할 경우 각 업체의 매출이 최대화 되는 것을 학습하게 됩니다.

Result

강화학습은 여러 매장들에 대한 내쉬 균형(Nash Equilibrium) 을 찾아냅니다.

Product Delivery

본 예제는 유럽에서의 제품 배송에 대해 시뮬레이션한 모델로 제품의 대기 시간을 최소화하고 수익을 극대화하는 것이 목적입니다. 공급망으로 3개의 제조 센터와 1-2일에 한 번씩 제품을 랜덤 하게 주문하는 15개의 유통업체가 포함됩니다. 각 제조 시설에 서비스를 제공하는 트럭이 배정되고 제조시설은 유통업체로부터 주문을 받으면 보관 중인 제품 수를 확인합니다. 재고가 있으면 트럭에 실어 유통 업체에 보내고 재고가 없을 경우 공장에서 충분한 재고를 생산할 때까지 대기합니다.

Result

강화학습은 가장 가까운 제조센터로 상품을 보내는 기존의 휴리스틱 방법보다 80% 이상 우수하며 수익을 극대화하고 대기 시간을 최소화합니다.

Autonomous Moon Landing

이 시뮬레이션에서 달 모듈은 달에 안전하게 착륙하려고 시도합니다. 모듈이 지정된 착륙 구역에 접근할 때 속도와 같은 몇 가지 요인을 모니터링하며, 각 요인은 충돌 또는 우주로의 표류를 방지하기 위해 안전구역 내의 값을 가져야 합니다.

Result

인공지능은 사람의 개입 없이 달에 안전하게 착륙하는 법을 배우는데, 이는 random action 으로는 불가능합니다.

Automated Guided Vehicles (AGVs)

AGV(Automated Guided Vehicle)는 제조 센터에서 제품 처리량을 극대화하기 위해 배송경로를 최적화합니다. 부품이 도착하면 AGV는 특정 가공 순서에 따라 부품을 해당 기계로 운반합니다.

Result

강화학습은 휴리스틱 방법에 비해 공장의 처리량을 50% 증가시킵니다.

AI Crane Warehouse

이 모델은 제품 패키지가 랙에 쌓여 보관되어 있는 창고로 구성됩니다. 이때 창고와 상호 작용하는 세 가지 프로세스가 있습니다. 1. 프로세스 시작 (SP) – 패키지 생성 2. 중간 프로세스 (IP) – 패키지 변환 3. 최종 프로세스 (FP) – 패키지 소비. AI가 제어하는 오버 헤드 크레인은 프로세스와 창고 사이의 모든 이동(movements)을 통제합니다.

Interconnected Call Centers

상호 연결되어 있는 5개의 콜 센터 각각에 동시에 전화가 수신됩니다. 통화가 수신되면 각 콜 센터는 전화를 수락하거나 다른 콜 센터로 이관하기로 결정합니다. 특정 발신자에 대한 대기 시간이 임의로 초기화된 임계값(20-25분 사이)을 초과하면 통화가 차단됩니다. 강화학습 정책을 세 가지 통화 라우팅 휴리스틱(통화 전송 없음, 최단 대기열, 가장 효율적인 콜 센터)과 비교합니다. 목표는 대기 시간을 최소화하고 차단된 발신자를 최소화하는 것입니다.

Result

 Pathmind의 강화학습 정책은 휴리스틱 방법을 9.6% 이상 능가합니다.

ko_KRKorean