반응형
들어가며이 시리즈에서 우리는 다음과 같은 단계를 거쳐왔습니다.C++ 환경에서 LibTorch 사용법 익히기 (기초 텐서 연산, TorchScript 모델 로드)Python에서 학습한 모델을 C++로 가져와 추론하기pybind11을 통해 C++ 코드를 Python에 바인딩하기C++과 Python 사이에서 텐서를 자유롭게 교환하는 기법 살펴보기이제 여기까지 배운 내용을 종합하여, 하나의 일관된 파이프라인을 구축해봅시다. 최종적으로 다음과 같은 흐름을 구현할 예정입니다.Python에서 텐서(입력 데이터) 준비pybind11로 바인딩된 C++ 함수를 호출해 TorchScript 모델 추론 수행결과 텐서를 Python으로 되돌려 받아 후처리 및 시각화이 과정을 통해 C++ 성능과 Python의 편리함을 동시에 누..
앞선 글에서 우리는 C++에서 PyTorch 텐서를 생성하고 연산하며, TorchScript 모델을 C++에서 로드하는 방법, 그리고 pybind11을 통해 C++ 함수를 Python에서 호출하는 방법까지 살펴보았습니다. 이제 한 단계 더 나아가 C++과 Python 사이에서 텐서를 자유롭게 주고받는 방법을 다뤄보겠습니다.이 과정은 다양한 시나리오에서 유용합니다. 예를 들어,Python에서 전처리한 입력 데이터를 C++ 모델 로직에 전달하고 싶을 때C++에서 계산한 텐서를 Python에서 시각화하거나 후처리하고 싶을 때Python에서 추론 로직 일부를 C++로 구현하여 성능을 향상시키고, 그 결과를 다시 Python으로 반환할 때이 글에서는 pybind11과 LibTorch를 활용해 C++과 Python..
앞선 글에서 우리는 C++ 환경에서 LibTorch를 이용해 텐서 연산, TorchScript 모델 로딩 및 추론까지 다뤄보았습니다. 이제는 C++에서 구현한 기능을 Python 환경에서도 그대로 불러와 사용할 수 있다면 어떨까요? 이렇게 하면 C++ 코드 기반의 성능과 최적화를 유지하면서도, Python 환경이 제공하는 편리한 스크립팅과 풍부한 생태계를 활용할 수 있습니다.이때 pybind11 라이브러리를 이용하면 C++ 함수를 Python 모듈로 손쉽게 노출할 수 있습니다. Python 개발자는 마치 파이썬 함수처럼 C++ 함수를 호출할 수 있으며, 이는 C++/Python 혼합 워크플로우를 매우 유연하게 만들어줍니다. 이번 글에서는 pybind11을 사용하여 간단한 C++ 함수를 Python에서 호..
지난 글에서는 2D 데이터 처리와 비동기 스트림(Asynchronous Streams)을 통해 Host와 Device 간 연산이 겹칠 수 있음을 확인했습니다. 이제는 GPU 메모리 계층을 살짝 들여다보고, 성능 최적화를 위해 왜 이러한 구조가 존재하는지 알아볼 차례입니다. 오늘 다룰 주제는 Shared Memory와 Constant Memory라는 특별한 메모리 공간들입니다. 이들은 단순한 글로벌 메모리(Global Memory) 접근보다 훨씬 더 빠르거나 특정 상황에서 효율적인 접근을 가능하게 해줍니다.메모리 계층 구조 이해하기GPU 메모리는 단순하지 않습니다. 성능을 극대화하기 위해 다양한 메모리 종류가 존재합니다.Global Memory(전역 메모리): 우리가 지금까지 cudaMalloc로 할당한 ..
이번 글에서는 지금까지 배운 스레드/블록/그리드 개념을 2차원 데이터에 적용하고, GPU의 비동기(Asynchronous) 기능을 살짝 맛보며 최적화를 향한 첫걸음을 내딛어보겠습니다. 이미지 처리나 행렬 연산 같은 2D 데이터 처리는 실제 GPU 활용 분야에서 매우 흔하고도 중요한 영역입니다. 또한 비동기 스트림을 활용하면 Host와 Device 사이의 작업을 겹치게 만들어 전체 처리 시간을 단축할 수 있다는 점을 알아볼 것입니다.2D 데이터 처리를 위한 블록/그리드 설정지금까지는 1차원 데이터(예: 벡터)에 대한 처리를 주로 다뤘습니다. 하지만 이미지(2D 배열)나 행렬을 다룬다면 2차원적으로 스레드와 블록을 배치하는 것이 직관적일 수 있습니다.2D 스레드 인덱스 계산 예제예를 들어, M x N 크기의..
지난 글에서는 Host-Device 메모리 전송, cudaMalloc, cudaMemcpy 등을 활용하여 벡터 덧셈 예제를 성공적으로 구동해봤습니다. 이제 GPU 병렬 프로그래밍의 핵심인 스레드, 블록, 그리고 그리드 개념을 파고들 차례입니다. 이 개념들은 GPU 상에서 대규모 병렬 연산을 구성하는 뼈대와 같습니다. 오늘은 스레드와 블록, 그리고 이들을 묶어 전체 문제를 분할하는 방식인 그리드(Grid)에 대해 차근차근 살펴보며, "내가 원하는 만큼 병렬화"하는 방법을 이해해보겠습니다.스레드(Thread)란?스레드는 GPU 병렬 연산의 최소 실행 단위입니다. CPU에서도 멀티스레딩을 통해 병렬 처리를 하지만, GPU에서는 수백만 개의 스레드를 가볍게 실행할 수 있습니다. 각각의 스레드는 독립적으로 실행되..
이제 우리는 Host(CPU)와 Device(GPU) 코드 구조를 이해하고, 간단한 커널 호출 예제를 통해 GPU 코드가 어떻게 동작하는지 살펴봤습니다. 이번 글에서는 실제로 데이터를 GPU로 보내고, 연산한 뒤 다시 결과를 가져오는 과정을 좀 더 구체적으로 다뤄볼 예정입니다. 즉, Host Device 메모리 전송(cudaMemcpy) 및 메모리 할당(cudaMalloc) 방법을 배우고, 이를 활용한 간단한 벡터 덧셈 예제를 통해 GPU 병렬 연산의 기본을 체험해보겠습니다.Host와 Device 메모리 관리의 기본앞서 말했듯 Host와 Device는 별개의 메모리 공간을 사용합니다. 이는 마치 서로 다른 섬에 사는 두 존재가 다리를 통해 상자를 옮기는 상황과 비슷합니다. 여기서 상자는 데이터, 다리는..
앞선 첫 글에서는 개발 환경을 설정하고, GPU 상에서 “Hello, GPU!” 문자열을 출력하는 예제를 통해 CUDA 코드가 동작하는 것을 확인했습니다. 이제 두 번째 단계로, Host 코드와 Device 코드의 역할을 파악해보겠습니다. 이 개념을 확실하게 알아야 앞으로 진행될 벡터 덧셈이나 메모리 전송, 블록/스레드 개념을 자연스럽게 이해할 수 있습니다.Host 코드와 Device 코드란?Host 코드(호스트 코드): CPU에서 실행되는 코드우리가 평소에 작성하는 일반적인 C++ 코드와 크게 다르지 않습니다.메모리 할당, 입출력, CUDA 커널 호출 등의 작업을 담당합니다.Device 코드(디바이스 코드): GPU에서 실행되는 코드병렬 계산을 수행하는 부분입니다.“커널 함수(Kernel Functio..
이 시리즈는 총 10개의 글로 진행됩니다. 이번 첫 글에서는 Ubuntu 기반의 개발 환경을 준비하고, 가장 단순한 CUDA 예제를 통해 “Hello, GPU!”를 출력해보겠습니다. Windows 환경 설정에 대한 언급도 곁들이니, OS에 관계없이 따라 할 수 있을 거예요. 앞으로 진행될 10개의 단계 중 첫 번째 스텝으로, "내 GPU에 손을 흔들어보기"라고 생각해주세요!이 시리즈를 시작하며GPU 프로그래밍은 처음 접하면 조금 낯설게 느껴질 수 있습니다. 하지만 CPU 프로그래밍을 시작할 때 “Hello, World!”를 먼저 찍어봤듯이, CUDA에서도 비슷하게 기초부터 천천히 쌓아나갈 수 있습니다. 앞으로 이 시리즈를 통해 다음 단계들을 차근차근 진행할 예정입니다:개발 환경 설정 (Ubuntu & W..
C++20의 새로운 기능들을 소개하는 시리즈의 두 번째 글에 오신 것을 환영합니다. 이번 글에서는 템플릿 프로그래밍을 더욱 강력하고 유연하게 만들어 줄 개념(Concepts)에 대해 자세히 알아보겠습니다.Concepts란 무엇인가요?Concepts는 C++20에서 도입된 기능으로, 템플릿 매개변수에 대한 제약 사항을 명확하고 간결하게 표현할 수 있게 해주는 도구입니다. 이를 통해 템플릿 코드를 더욱 안전하고 이해하기 쉽게 만들 수 있습니다.왜 Concepts를 사용해야 할까요?기존의 템플릿 코드는 컴파일 타임 에러 메시지가 난해하고 길어서 디버깅이 어려웠습니다. Concepts를 사용하면 템플릿 매개변수에 대한 명확한 제약을 지정할 수 있어, 컴파일 타임 에러를 줄이고 더 이해하기 쉬운 에러 메시지를 제..