[펌] Megatron LM 논문, 블로그 등 리뷰 모음
하기 글들을 읽을 때 도움이 되는 용어 설명
ㆍall-reduce communication : 각 노드에서 서로 다르게 계산 중인 모든 값들을 가져와서 합산한 후 다시 각 노드로 전달하는 전체를 맞추는 통신 방식으로 모델 학습에서는 분산 학습 시 Data parallel하게 진행되는 여러 GPU에서 동일한 모델 파라미터에 각기 다른 입력 데이터로 서로 다른 그래디언트들이 계산 되는데 이를 다 가져와서 더한 후 해당 결과값을 다시 여러 GPU 상에 존재하는 모델 파라미터에 똑같이 업데이트하기 위한 통신 방법을 의미한다.
Megatron LM 논문을 잘 번역하고 해석한 글
[Paper Review] Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
Summary 최근 연구된 language modeling 논문에서는 학습되는 모델의 크기가 커짐에 따라 NLP tasks에 적용했을 때의 성능이 나아질 것이라고 말한다. 하지만, 큰 모델은 메모리 한계와 같은 문제로 학습
learn-ai.tistory.com
Nvidia 블로그, 당연히 참고가 필요한 곳
자연어 처리 혁신 모델훈련 프레임워크 NVIDIA Megatron 완전 해부(1) | NVIDIA Blog
자연어 처리(NLP, Natural Language Processing)는 최근 몇 년간 대규모 계산이 쉽게 이뤄지고 데이터세트 용량이 커지면서 빠르게 발전했습니다.
blogs.nvidia.co.kr