amp distributed pytorch
2020.07.14 07:37
python -m torch.distributed.launch --nproc_per_node=4 main.py \ | |
--batch_size 60 \ | |
--num_workers 2 \ | |
--gpu_devices 0 1 2 3\ | |
--distributed \ | |
--log_freq 100 |
이 코드를 실행할 때는 다음 명령어를 사용해서 실행합니다. Torch.distributed.launch를 통해 main.py를 실행하는데 노드에서 4개의 프로세스가 돌아가도록 설정합니다. 각 프로세스는 GPU 하나에서 학습을 진행합니다. 만약 GPU가 2개라면 nproc_per_node를 2로 수정하면 됩니다. main.py에 batch_size와 num_worker를 설정하는데 각 GPU 마다의 batch_size와 worker 수를 의미합니다. batch size가 60이고 worker의 수가 2라면 전체적으로는 batch size가 240이며 worker의 수는 8입니다.
번호 | 제목 | 글쓴이 | 날짜 | 조회 수 |
---|---|---|---|---|
1716 | mAP 계산법 | WHRIA | 2019.02.24 | 45558 |
1715 | epitope spreading | han | 2006.05.09 | 40968 |
1714 | encfs | WHRIA | 2020.05.17 | 34198 |
1713 | Heinrich Law (1:29:300 Law) | WHRIA | 2007.08.12 | 24963 |
1712 | 일본 주소 [2] | WHRIA | 2008.06.28 | 24013 |
1711 | 사주팔자 프로그램 | 한승석 | 2003.02.16 | 20304 |
1710 | simple adblock | WHRIA | 2012.04.13 | 18071 |
1709 | 도란사민 | WHRIA | 2011.04.19 | 18067 |
1708 | 탤런트 이윤지씨와 함께 | WHRIA | 2010.02.04 | 17006 |
1707 | penicillin | han | 2003.12.10 | 15672 |
1706 | SSH tunnel | WHRIA | 2007.10.01 | 15078 |
1705 | geexbox [1] | han | 2006.12.01 | 14601 |
1704 | 아이피부과 개원 | WHRIA | 2010.01.18 | 14407 |
1703 | 세무회계 | WHRIA | 2010.01.31 | 14380 |
1702 | 증명사진 | WHRIA | 2010.03.14 | 14308 |
https://medium.com/daangn/pytorch-multi-gpu-%ED%95%99%EC%8A%B5-%EC%A0%9C%EB%8C%80%EB%A1%9C-%ED%95%98%EA%B8%B0-27270617936b