하기 글들을 읽을 때 도움이 되는 용어 설명
ㆍall-reduce communication : 각 노드에서 서로 다르게 계산 중인 모든 값들을 가져와서 합산한 후 다시 각 노드로 전달하는 전체를 맞추는 통신 방식으로 모델 학습에서는 분산 학습 시 Data parallel하게 진행되는 여러 GPU에서 동일한 모델 파라미터에 각기 다른 입력 데이터로 서로 다른 그래디언트들이 계산 되는데 이를 다 가져와서 더한 후 해당 결과값을 다시 여러 GPU 상에 존재하는 모델 파라미터에 똑같이 업데이트하기 위한 통신 방법을 의미한다.
Megatron LM 논문을 잘 번역하고 해석한 글
Nvidia 블로그, 당연히 참고가 필요한 곳
반응형
'인공지능' 카테고리의 다른 글
[펌] 데이터 분석을 위한 5단계 절차 (0) | 2024.07.22 |
---|---|
생성형 AI 학습, 데이터 정제, 읽어볼만한 글 (0) | 2024.03.04 |