# 설치된 패키지 검색
$ dpkg --list | grep nvidia
ii libnvidia-container-tools 1.9.0-1 amd64 NVIDIA container runtime library (command-line tools)
ii libnvidia-container1:amd64 1.10.0-1 amd64 NVIDIA container runtime library
ii nvidia-container-toolkit 1.9.0-1 amd64 NVIDIA container runtime hook
...
# 출력된 리스트 중 불필요한 구 파일 삭제
# dpkg -r [패키지명]
$ dpkg -r libnvidia-container-tools
$ dpkg -r libnvidia-container1:amd64
$ dpkg -r nvidia-container-toolkit
2) 순서대로 설치
$ dpkg - i libnvidia-container1_1.13.5-1_amd64.deb
$ dpkg - i libnvidia-container-tools_1.13.5-1_amd64.deb
$ dpkg - i nvidia-container-toolkit-base_1.13.5-1_amd64.deb
$ dpkg - i nvidia-container-toolkit_1.13.5-1_amd64.deb
3) [필수] 도커 서비스 재가동 (docker service restart)
$ systemctl restart docker
※ 참고사항
- 순서가 바뀌거나 더 필요한 게 있다면 하기와 같이 친절히 표기가 되니, 맞추어 설치한다.
dpkg: dependency problems prevent configuration of nvidia-container-toolkit: nvidia-container-toolkit depends on nvidia-container-toolkit-base (= 1.13.5-1); however: Package nvidia-container-toolkit-base is not installed.
리눅스에서 종종 있는 문제로 GSSAPI kerberos 가 활성화되어 있으면 keberos DNS에 질의를 하는데 DNS 응답이 늦어질 경우 접속지연이 발생한다. 이로 인해 간헐적으로 접속지연이 발생하거나 화면이 멈추는 현상이 발생한다.
만약 서버에서 설정하고 싶다면
vi /etc/ssh/sshd_config
GSSAPIAuthentication no
을 입력하고 저장한다.
2. 사용이 오래되어 세션이 끊기는 현상 (stopped session)
이것은 사실 정상적인 애플리케이션의 처리현상이다. 다만, 역시 불편하다. 하기와 같이 나올 때 세션이 끊긴 것이다.
Network error: Software caused connection abort ───────────────────────────────────────────────────── Session stopped - Press <Return> to exit tab - Press R to restart session - Press S to save terminal output to file
ㆍall-reduce communication : 각 노드에서 서로 다르게 계산 중인 모든 값들을 가져와서 합산한 후 다시 각 노드로 전달하는 전체를 맞추는 통신 방식으로 모델 학습에서는 분산 학습 시 Data parallel하게 진행되는여러 GPU에서 동일한 모델 파라미터에 각기 다른 입력 데이터로 서로 다른 그래디언트들이 계산 되는데 이를 다 가져와서 더한 후 해당 결과값을 다시 여러 GPU 상에 존재하는 모델 파라미터에 똑같이 업데이트하기 위한 통신 방법을 의미한다.