목록2021/05/31 (2)
끊김 없이 하자
( + ) . 연구실에 있었을 때는 말로만 들었던 도커를 사용한 실험 환경 세팅이 익숙해졌다. 신세계다... 더는 이 블로그에 예전에 썼던 ubuntu os upgrade 따위로 고통받을 일이 없다 !_! . 도커파일도 만들어봤다. . 도커 컴포즈도 해봤다. (해봤다 수준에서 끝이지만) . 기술적인 건 아니었고, 어찌보면 학교에서 했던 조교의 연장선 같은 느낌으로 두 명의 인턴을 담당했다. (초보 매니저 (?)) ( . ) . 뜬금없이 제품 QA 업무로 고통받다가 잠깐 해방되었다. 너무 스트레스 받는 나머지 그냥 나중에는 QA 직무로 이직할까 하는 생각도 했다(?) (나중에 이것만 읽으면 이해가 안 될 맥락... 지금 있는 직무를 가고 싶은 회사에서 공고를 안 내니까 했던 생각.) . 과제 감사 프로세스..
오늘 해결할 수 있을 것 같지는 않아서 힘들기는 하고 어쨌든 오랜만에 뭔가 쓰고 싶어져서 일단 기록. https://github.com/ming024/FastSpeech2 위 레포로 학습 후 저장한 모델을 로드해서 추론하려고 하는 과정에서 생긴 문제이다. 학습한 모델이 torch.nn.DataParallel()을 사용했기 때문인지, 학습된 모델을 로드했을 때도 똑같이 모든 GPU를 점거하게 된다. 이를 해결하기 위해 제일 자주 사용했던 os.environ["CUDA_VISIBLE_DEVICE"] = "2" 코드를 torch.device(....) 위쪽에 삽입했는데, 그래도 여전히 0번 GPU를 메인으로 나머지 GPU를 다 소량씩 사용한다. torch.device('cuda')의 결과에 여러 개의 GPU(..