훈련 실행하기#

tmux#

# tmux 실행
tmux
  • 백그라운드 및 다중 터미널 분할

  • tmux 명령어 및 단축키

    • tmux new -s <session-name> : 지정한 세션 명으로 세션 시작

    • tmux ls : 세션 목록 확인

    • tmux attach -t <session-name> : 세션 접속

    • ctrl+b, % : 터미널 세로 분할

    • ctrl+b, " : 터미널 가로 분할

    • ctrl+b, d : 세션 빠져나오기

실행#

기본 명령어#

  • dr-update : configure 업데이트

  • dr-upload-custom-files : custom 업데이트

  • dr-stop-training : 훈련 작업 종료

  • dr-start-training : 훈련 시작

    • -w (wipes) 옵션 : 모델명이 있는 폴더에 데이터가 존재하면 제거

  • dr-increment-training -f : 모델명 뒤의 -숫자를 하나 더하여 클론 훈련 진행

    • (예) 현재 모델명이 test-1 으로 훈련중일 때, 아래와 같이 명령어를 작성하면 test-2로 클론한 모델이 훈련 됨.

명령어 세트#

  • 실행

    dr-stop-training && dr-update && dr-upload-custom-files && dr-start-training
    
  • 증가 실행

    dr-stop-training && dr-increment-training -f && dr-update && dr-upload-custom-files && dr-start-training
    

트러블슈팅#

  • Selected path s3://.../... Delete it, or use -w option. Exiting. 에러

    • 버킷안에 이미 지정한 모델명으로 된 폴더가 존재하여 발생하는 에러.

    • 해당 모델명 폴더를 삭제하거나 -w 옵션(wipes)을 줘서 자동으로 삭제되도록 한다.

      dr-stop-training && dr-start-training -w
      
  • sagemaker is not running 에러

    • 흔히 발생하는 일시적 오류이다. 마찬가지로 아래 명령어를 통해 다시 시도한다.

      dr-stop-training && dr-start-training -w