잘 쓰여진 데이터 분석 관련 글

 

https://brunch.co.kr/@data/10

 

데이터 분석을 위한 5단계 절차

Part1. 공공데이터 분석의 개념 | 이번 글에서는 공공분야 데이터 분석 절차를 설명한다. 필자의 경험상, 공공데이터 분석은 통상 5가지 단계에 의하여 이루어진다. 이 단계는 폭포수 모델 처럼

brunch.co.kr

 

반응형

하기 글들을 읽을 때 도움이 되는 용어 설명

ㆍall-reduce communication : 각 노드에서 서로 다르게 계산 중인 모든 값들을 가져와서 합산한 후 다시 각 노드로 전달하는 전체를 맞추는 통신 방식으로 모델 학습에서는 분산 학습 시 Data parallel하게 진행되는 여러 GPU에서 동일한 모델 파라미터에 각기 다른 입력 데이터로 서로 다른 그래디언트들이 계산 되는데 이를 다 가져와서 더한 후 해당 결과값을 다시 여러 GPU 상에 존재하는 모델 파라미터에 똑같이 업데이트하기 위한 통신 방법을 의미한다.

 

 

 

Megatron LM 논문을 잘 번역하고 해석한 글

https://learn-ai.tistory.com/entry/Paper-Review-Megatron-LM-Training-Multi-Billion-Parameter-Language-Models-Using-Model-Parallelism

 

[Paper Review] Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

Summary 최근 연구된 language modeling 논문에서는 학습되는 모델의 크기가 커짐에 따라 NLP tasks에 적용했을 때의 성능이 나아질 것이라고 말한다. 하지만, 큰 모델은 메모리 한계와 같은 문제로 학습

learn-ai.tistory.com

 

Nvidia 블로그, 당연히 참고가 필요한 곳

https://blogs.nvidia.co.kr/blog/scaling-language-model-training-to-a-trillion-parameters-using-megatron/

 

자연어 처리 혁신 모델훈련 프레임워크 NVIDIA Megatron 완전 해부(1) | NVIDIA Blog

자연어 처리(NLP, Natural Language Processing)는 최근 몇 년간 대규모 계산이 쉽게 이뤄지고 데이터세트 용량이 커지면서 빠르게 발전했습니다.

blogs.nvidia.co.kr

 

반응형

아래 리스트에 글들은 100% 신뢰하면 안된다. 읽다 보면 깊은 경험에서 우러난 글 처럼  느껴지며 때때로 강한 신뢰감을 받기도 하지만, 출처를 알 수 없고 과학적으로 논의되거나 정량적으로 재현할 수 있는  글들은... 아니기 때문이다.

다만, 다양한 연구자들, 모델러들의 고민과 경험을 접할 수 있기에 무언가 막혀 있을 때 읽어 보면 좋을 듯 하다고 생각한다.

 

 

  [번역] 오픈소스 모델이 나아갈 길은 양질의 데이터 세트를 정제하는 것이다

 

 

After 500+ LoRAs made, here is the secret  [번역] 500개 이상의 LoRA를 만들어본 후, 터득한 비결

 

반응형

+ Recent posts