GPU Architecture, CUDA Compiler

💡 계층 용어 SM(Stream Processor): GPU의 코어 Single Precision: 4byte로 표시되는 데이터 Double Precision: 8byte로 표시되는 데이터 커널: CPU에서 GPU로 보내는 부분의 단위, 커널 안에 그리드가 들어있음 그리드: 여러 개의 블록으로 이루어짐 블록: 여러 개의 스레드로 이루어짐 스레드: 공유 메모리 통해 데이터 공유, 블록 내에서 실행 동기화 커널이 실행되면 SM에 스레드 블록이 분배되어 실행됨 하나의 SM에 여러 블록이 대응됨 블록 수는 코어의 개수보다 많아야 함(블록 수 > 코어 개수) 스레드를 코어에 할당할 때 워프 단위라는 것을 통해 스케줄링을 해서 모든 스레드가 수행되도록 함 1 Warp = 32 Threads 💡 nvcc CUDA C..

→2024.02.14