GPU Architecture, CUDA Compiler — 호영's Codding story

💡 계층 용어

SM(Stream Processor): GPU의 코어
Single Precision: 4byte로 표시되는 데이터
Double Precision: 8byte로 표시되는 데이터
커널: CPU에서 GPU로 보내는 부분의 단위, 커널 안에 그리드가 들어있음
그리드: 여러 개의 블록으로 이루어짐
블록: 여러 개의 스레드로 이루어짐
스레드: 공유 메모리 통해 데이터 공유, 블록 내에서 실행 동기화
커널이 실행되면 SM에 스레드 블록이 분배되어 실행됨
하나의 SM에 여러 블록이 대응됨
블록 수는 코어의 개수보다 많아야 함(블록 수 > 코어 개수)
스레드를 코어에 할당할 때 워프 단위라는 것을 통해 스케줄링을 해서 모든 스레드가 수행되도록 함
1 Warp = 32 Threads

💡 nvcc

CUDA Compiler, 확장자 cu를 가진 CUDA 소스 코드를 컴파일하기 위해 사용

nvidia-smi: 내가 사용하고 있는 장치에 대한 정보

-x{c | c++ | cu}: 소스 파일의 language를 명시적으로 지정
-G: device code에 대한 debug 정보를 생성
-arch: NVIDIA GPU architecture를 지정(-arch=sm_70), 성능을 원하는 아키텍처에 맞게 관리하기 위해서 옵션을 붙이는게 좋음
-maxrregcount: 커널이 사용 가능한 레지스터의 개수를 지정
-fmad: multiply-add의 기능을 활성/비활성화 함, default는 true
-dlcm: L1 cache 사용 여부를 지정, default는 ca(L1+L2 cache), cg(L2 cache)
--ptxas-options=-v or -Xptxas=-v: 컴파일 시 간략한 정보를 보여줌
-Xcompiler: 컴파일러/preprocessor에 직접 옵션을 지정
-Xlinker: 호스트 링커에 직접 옵션을 지정

💡 Handling

CPU랑 CUDA는 하드웨어적으로 분리되어 있기 때문에 CPU가 GPU 쪽의 커널을 통해서 작업을 넘겨주면 CPU에서는 GPU를 컨트롤할 수 없다. 그래서 GPU 안에서 작업물에 대한 결과의 성공 여부를 판별하기 위해 핸들러를 가지고 에러 여부를 판별한다.

__host____device__const char*cudaGetErrorName(cudaError_terror): 에러 코드의 이름을 반환
__host____device__const char*cudaGetErrorString(cudaError_terror): 에러 코드의 내용의 반환
cudaSuccess: 연산의 성공을 나타냄

강의

저작자표시

'CUDA' 카테고리의 다른 글

Thread Hierarchy, CUDA Kernel (4)	2024.02.14
CUDA, 병렬 프로그래밍 (0)	2024.02.13

티스토리툴바