PyTorch

3단 분석법

정의

알아야하는 이유

Tensorflow vs. PyTorch

3단 분석법

순서	분석	단어	내용
1	정의	PyTorch	딥러닝 모델을 쉽게 구축하고 학습할 수 있도록 설계된 파이썬 기반의 오픈소스 딥러닝 라이브러리
2	알아야하는 이유	PyTorch	직관적인 코딩 스타일과 동적 계산 그래프를 통해 딥러닝 모델의 구축과 디버깅을 용이하게 하고, 현재 연구와 실무에서 주로 사용되는 강력한 프레임워크이기 때문에
3	동작방식	PyTorch	1. 텐서 정의 및 연산 2. 동적 계산 그래프 생성 3. 자동 미분 4. 모델 정의 및 학습

정의

PyTorch

딥러닝 모델을 쉽게 구축하고 학습할 수 있도록 설계된 파이썬 기반의 오픈소스 딥러닝 라이브러리

PyTorch(이하 파이토치)는 딥러닝 모델을 쉽게 구축하고 학습할 수 있도록 설계된 파이썬 기반의 오픈소스 딥러닝 라이브러리입니다.

파이토치는 텐서(Tensor)라는 데이터 구조를 사용하며, 동적 계산 그래프를 통해 유연하고 직관적인 코딩을 지원합니다.

또한, 자동 미분 기능을 통해 역전파 알고리즘을 간단하게 구현할 수 있고 딥러닝 모델을 실험하고 디버깅하는 데 매우 유용합니다.

알아야하는 이유

PyTorch

직관적인 코딩 스타일과 동적 계산 그래프를 통해 딥러닝 모델의 구축과 디버깅을 용이하게 하고, 현재 연구와 실무에서 주로 사용되는 강력한 프레임워크이기 때문에

이유	설명
직관적인 코딩 스타일	PyTorch는 파이썬과 유사한 문법을 사용하여 직관적이고 간결한 코딩이 가능합니다. 이는 코드를 작성하고 이해하는 데 용이합니다.
동적 계산 그래프	PyTorch는 동적 계산 그래프를 사용하여 실시간으로 그래프를 생성하고 수정할 수 있습니다. 이는 디버깅과 모델 개발에 큰 이점을 제공합니다.
자동 미분	PyTorch의 Autograd 모듈은 자동으로 그래디언트를 계산하여 역전파 알고리즘을 구현할 수 있게 합니다. 이를 통해 복잡한 수식을 손쉽게 다룰 수 있습니다.
풍부한 커뮤니티와 지원	PyTorch는 활발한 커뮤니티와 풍부한 튜토리얼, 문서를 제공하여 학습과 문제 해결에 많은 도움을 줍니다.
다양한 연구 및 상업적 사용	PyTorch는 연구 및 실무에서 널리 사용되며, 최신 딥러닝 기술을 적용하고 실험하기에 적합합니다.

동작 방식

PyTorch

1. 텐서 정의 및 연산 2. 동적 계산 그래프 생성 3. 자동 미분 4. 모델 정의 및 학습

순서	동작	설명
1	텐서 정의 및 연산	파이토치 텐서를 사용하여 데이터와 가중치를 저장하고, 다양한 연산을 수행합니다.
2	동적 계산 그래프 생성	연산을 수행할 때마다 동적으로 계산 그래프를 생성하여, 각 연산의 그래디언트를 자동으로 계산할 수 있습니다.
3	자동 미분	Autograd를 사용해 역전파를 통해 그래디언트를 자동으로 계산하고 매개변수를 업데이트합니다.
4	모델 정의 및 학습	torch.nn 모듈을 사용해 신경망을 정의하고, 옵티마이저를 통해 모델을 학습시킵니다.

사용 예시

텐서플로 페이지에서 예제로 보았던 코드를 파이토치로 변환한 예시입니다.

난수로 생성한 가상 데이터셋으로 간단한 신경망을 구축하고 훈련하는 예시입니다.

코드

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
from torch.utils.data import DataLoader, TensorDataset

# 가상 데이터셋 생성
np.random.seed(0)  # 재현성을 위해 난수 시드 설정
train_data = np.random.rand(1000, 10).astype(np.float32)  # 1000개의 샘플, 각 샘플은 10개의 특성을 가짐
train_labels = np.random.randint(2, size=(1000, 1)).astype(np.float32)  # 1000개의 이진 레이블

test_data = np.random.rand(100, 10).astype(np.float32)  # 100개의 테스트 샘플
test_labels = np.random.randint(2, size=(100, 1)).astype(np.float32)  # 100개의 테스트 이진 레이블

# 텐서 데이터셋 및 데이터 로더 생성
train_dataset = TensorDataset(torch.tensor(train_data), torch.tensor(train_labels))
test_dataset = TensorDataset(torch.tensor(test_data), torch.tensor(test_labels))

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

# 모델 정의
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(10, 16)  # 은닉층: 16개의 뉴런
        self.fc2 = nn.Linear(16, 1)  # 출력층: 1개의 뉴런

    def forward(self, x):
        x = torch.relu(self.fc1(x))  # ReLU 활성화 함수
        x = torch.sigmoid(self.fc2(x))  # 시그모이드 활성화 함수
        return x

model = SimpleNN()

# 손실 함수 및 옵티마이저 정의
criterion = nn.BCELoss()  # binary cross entropy loss
optimizer = optim.Adam(model.parameters(), lr=0.001)  # Adam 옵티마이저

# 모델 훈련
for epoch in range(10):  # 10 epochs
    model.train()
    for batch_data, batch_labels in train_loader:
        optimizer.zero_grad()
        outputs = model(batch_data).squeeze()
        loss = criterion(outputs, batch_labels.squeeze())
        loss.backward()
        optimizer.step()
    print(f"Epoch {epoch+1}, Loss: {loss.item()}")

# 모델 평가
model.eval()
correct = 0
total = 0
with torch.no_grad():
    for batch_data, batch_labels in test_loader:
        outputs = model(batch_data).squeeze()
        predicted = (outputs > 0.5).float()
        total += batch_labels.size(0)
        correct += (predicted == batch_labels.squeeze()).sum().item()

test_acc = correct / total
print(f"Test accuracy: {test_acc}")

# 예측하기
model.eval()
with torch.no_grad():
    sample_output = model(torch.tensor(test_data[0])).item()
    print(f"Prediction for the first test sample: {sample_output}")
Python
복사

Google Colab

https://colab.research.google.com/drive/1GC6vgeAHBWwQCWSdtVLRdIeJnD9-a3K8?usp=sharing

코드 설명

데이터셋 생성

np.random.seed(0)
train_data = np.random.rand(1000, 10).astype(np.float32)
train_labels = np.random.randint(2, size=(1000, 1)).astype(np.float32)

test_data = np.random.rand(100, 10).astype(np.float32)
test_labels = np.random.randint(2, size=(100, 1)).astype(np.float32)
Python
복사

•

np.random.seed(0)는 재현성을 위해 난수 생성을 고정합니다.

•

np.random.rand는 0과 1 사이의 랜덤한 숫자로 이루어진 배열을 생성합니다.

•

astype(np.float32)는 데이터 타입을 float32로 변환합니다.

•

np.random.randint는 0과 1 사이의 정수로 이루어진 배열을 생성합니다. 이 데이터는 이진 분류 문제의 레이블입니다.

텐서 데이터셋 및 데이터 로더 생성

train_dataset = TensorDataset(torch.tensor(train_data), torch.tensor(train_labels))
test_dataset = TensorDataset(torch.tensor(test_data), torch.tensor(test_labels))

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)
Python
복사

•

TensorDataset은 텐서 데이터셋을 생성합니다. torch.tensor를 사용하여 NumPy 배열을 PyTorch 텐서로 변환합니다.

•

DataLoader는 데이터셋을 미니배치로 나누고, 학습을 위해 데이터를 섞을지 여부를 결정합니다(shuffle=True).

모델 정의

class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(10, 16)
        self.fc2 = nn.Linear(16, 1)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.sigmoid(self.fc2(x))
        return x

model = SimpleNN()
Python
복사

•

nn.Module을 상속하여 신경망 모델 클래스를 정의합니다.

•

nn.Linear는 선형 계층(fully connected layer)을 정의합니다. 여기서 입력 크기는 10, 출력 크기는 16입니다.

•

forward 메서드는 신경망의 순전파 과정을 정의합니다.

◦

torch.relu는 ReLU 활성화 함수를 적용합니다.

◦

torch.sigmoid는 시그모이드 활성화 함수를 적용합니다.

손실 함수 및 옵티마이저 정의

criterion = nn.BCELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)
Python
복사

•

nn.BCELoss는 이진 교차 엔트로피 손실 함수입니다. 이는 이진 분류 문제에 적합합니다.

•

optim.Adam는 Adam 옵티마이저입니다. 학습률 lr은 0.001로 설정됩니다.

모델 훈련

for epoch in range(10):
    model.train()
    for batch_data, batch_labels in train_loader:
        optimizer.zero_grad()
        outputs = model(batch_data).squeeze()
        loss = criterion(outputs, batch_labels.squeeze())
        loss.backward()
        optimizer.step()
    print(f"Epoch {epoch+1}, Loss: {loss.item()}")
Python
복사

•

model.train()은 모델을 학습 모드로 설정합니다.

•

optimizer.zero_grad()는 이전 배치의 기울기를 초기화합니다.

•

model(batch_data)를 호출하여 예측값을 계산합니다.

•

criterion(outputs, batch_labels)로 손실을 계산합니다.

•

loss.backward()는 손실에 대한 기울기를 계산합니다.

•

optimizer.step()은 모델의 파라미터를 업데이트합니다.

모델 평가

model.eval()
correct = 0
total = 0
with torch.no_grad():
    for batch_data, batch_labels in test_loader:
        outputs = model(batch_data).squeeze()
        predicted = (outputs > 0.5).float()
        total += batch_labels.size(0)
        correct += (predicted == batch_labels.squeeze()).sum().item()

test_acc = correct / total
print(f"Test accuracy: {test_acc}")
Python
복사

•

model.eval()은 모델을 평가 모드로 설정합니다.

•

torch.no_grad() 블록 안에서는 기울기 계산을 하지 않습니다(평가시에는 필요 없음).

•

예측값을 계산하고, 0.5를 기준으로 이진 분류를 수행합니다.

•

정확도를 계산합니다.

예측하기

model.eval()
with torch.no_grad():
    sample_output = model(torch.tensor(test_data[0])).item()
    print(f"Prediction for the first test sample: {sample_output}")
Python
복사

•

첫 번째 테스트 샘플에 대해 모델의 예측값을 계산하고 출력합니다.

알아 두면 좋은 정보

Tensorflow vs. PyTorch

항목	TensorFlow	PyTorch
코딩 스타일	선언적 (정적 그래프)	명령형 (동적 그래프)
디버깅	복잡	직관적
유연성	낮음	높음
학습 곡선	가파름	완만함
커뮤니티	광범위함	급성장 중
배포	강력한 지원 (TensorFlow Serving, TensorFlow Lite 등)	상대적으로 미흡

PyTorch는 사용자가 모델을 설계하고 실험하는 과정에서 더 많은 유연성과 편의성을 제공하기 때문에, 연구 및 실험 환경에서 널리 사용됩니다.

반면에 TensorFlow는 대규모 배포와 생산 환경에 강점이 있어 상용 애플리케이션에 많이 채택되고 있습니다.

이러한 특성을 이해하고, 사용 목적에 맞는 프레임워크를 선택하는 것이 중요합니다.