몬테카를로 트리 탐색 예제

Posted by abitou on Αυγ 02, 2019

몬테 카를로 트리 검색 게임 트리 검색에 몬테 카를로 메서드를 적용 합니다. 게임 상태의 무작위 샘플링을 기반으로 하므로 각 가능성에서 무차별 적인 힘을 발휘할 필요가 없습니다. 또한 평가 또는 좋은 휴리스틱 함수를 작성할 필요가 있는 것은 아닙니다. 몬테 카를로 나무 검색의 초점은 검색 공간의 무작위 샘플링을 기반으로 검색 트리를 확장, 가장 유망한 움직임의 분석에 있습니다. 게임에서 몬테 카를로 나무 검색의 응용 프로그램은 많은 플레이 아웃을 기반으로합니다. 각 플레이 아웃에서, 게임은 무작위로 이동을 선택하여 맨 끝까지 재생됩니다. 각 플레이아웃의 최종 게임 결과는 게임 트리의 노드에 가중치를 두는 데 사용되므로 향후 플레이아웃에서 더 나은 노드를 선택할 가능성이 높습니다. 즉, 모든 사람들이 될 것입니다, 난 당신이 읽기를 즐길 여기에 콘텐츠는 당신이 몬테 카를로 나무 검색을 이해하는 데 도움이 희망 – 그것을 작성하는 것은 확실히 내 머리를 감싸 도움이. 흥미롭게도 – Deepmind의 몬테 카를로 트리 검색 변형에서 – SL 정책 네트워크 출력은 이전 이동 확률 추정 (P(V, v_i))을 위해 선택됩니다(저자는 인간 기반 데이터가 탐색 이동에서 더 풍부하다고 제안함). 그렇다면 RL 정책 네트워크의 목적은 무엇입니까? 더 강한 RL 정책 네트워크는 가치 네트워크 교육 (게임 상태 평가에 사용되는 하나)에 대한 30 mln 위치 데이터 세트를 생성하는 데 사용됩니다 우리는 지금 성공적으로 몬테 카를로 트리 검색을 구현하는 데 필요한 거의 모든 조각을 알고, 우리가 해야 할 몇 가지 질문이 있습니다 하지만 대답.

우선 우리는 실제로 MCTS 절차를 종료 할 때? . . 이 에 대한 대답은 : 그것은 문맥에 따라 달라집니다. 게임 엔진을 빌드하는 경우 «사고 시간»이 제한될 수 있으며 계산 용량도 경계를 넘나들 수 있습니다. 따라서 가장 안전한 방법은 리소스가 허락하는 한 MCTS 루틴을 실행하는 것입니다. AlphaGo뒤에 있는 몇 가지 맥락을 알려드리기 위해 먼저 AI 프로그램을 플레이하는 게임의 역사를 간략하게 살펴보겠습니다. 그런 다음 AlphaGo, 게임 트리 개념, 몇 가지 트리 검색 알고리즘의 구성 요소를 확인하고 마지막으로 MCTS 알고리즘의 작동 방식을 살펴보겠습니다. 이 게시물에서 우리는 몬테 카를로 트리 검색에 초점을 맞출 것이다. 기본 몬테 카를로 나무 검색은 많은 라운드 후 가장 유망한 움직임을 찾기에 충분한 정보를 수집; 그때까지의 움직임은 본질적으로 무작위입니다. 이 탐색 단계는 RAVE(신속한 액션 값 추정)를 사용하는 특정 클래스의 게임에서 현저히 감소될 수 있습니다. [44] 이 게임에서는 일련의 이동 순서의 순열이 동일한 위치로 이어집니다.

Comments are closed.

Ο καιρός

ar8ra

advertisement