Develog
Data & AI 본문
데이터 (Data)
AI가 예측과 결정을 내리는 데 사용하는 자원(materials).
이미지, 텍스트, 비디오, 오디오 등 기계가 읽을 수 있다면 뭐든지 데이터가 될 수 있다.
- 개는 데이터가 아니지만, 개를 찍은 사진은 데이터가 될 수 있음.
인공 지능 (AI)
기계로 구현된 '인공 지능'.
컴퓨터 시스템을 활용하여 인간의 지능을 요구하는 작업을 수행할 수 있도록 만드는 연구 분야이기도 하다.
머신 러닝 (Machine Learning)
데이터로부터 패턴을 학습하고, 입력된 적 없는 데이터를 일반화하여 명시적인 지시 없이도 작업을 수행할 수 있도록 만드는 통계 알고리즘 연구 분야.
딥 러닝 (Deep Learning)
머신러닝의 하위 분야로, 신경망을 활용하여 작업을 수행하는 데 중점을 둔다.
판별 모델 (Discriminative models)
데이터 분류하기
- Many - to - One Mapping (다수의 입력으로 한 가지 결과물을 생성한다)
데이터 $X$가 주어졌을 때, 그것이 어떤 클래스 $Y$에 속하는지 경계를 찾는 것에 집중하는 모델.
- "이 이미지는 고양이 이미지인가, 강아지 이미지인가?"
클래스 간의 차이를 학습하고, 객관식 형태의 정답을 고르는 형태로 동작한다.
- 이미지 입력 > 판별 > 라벨 출력
생성 모델 (Generative models)
데이터 분류 & 데이터 생성 원리 학습하기
- One - to - Many Mapping (하나의 입력으로 다수의 결과물을 생성한다)
결합 확률 또는 데이터의 확률 분포를 모델링한다.
- "개는 보통 어떻게 생겼는가?"
학습 데이터의 분포를 모방하면 그와 유사한 새로운 데이터를 생성할 수 있게 된다. 즉, 무엇이 개인지 알 수 있다면, 개 이미지를 그릴 수 있다.
- 라벨 입력 > 생성 > 이미지 출력
생성 모델은 판별 모델이 수행할 수 있는 모든 일을 수행할 수 있다. 또한 라벨을 이용해 없던 데이터를 새로 생성하거나, 기존의 데이터 중 손상된 일부분을 생성(복원)하는 등의 새로운 작업도 수행할 수 있다.
확률적 모델 (그래픽 엔진)
그래픽 엔진은 프로그래밍 언어로 정의된 규칙에 따라 정형화된 3D 모델을 렌더링한다.
프로그래밍 언어를 사용하여 추상적으로 표현된 명령어는 그래픽 엔진에 의해 형성된 3D 모델과 1:1로 매칭되는 형태이다. 정해진 수치와 규칙에 따라 똑같은 결과가 나오기 때문에 '결정론적' 과정을 생각하기 쉽지만, 생성 모델의 관점에서는 '확률적 접근'으로 해석한다.
렌더링 결과물에 영향을 미치는 파라미터는 '확률 변수'이다.
'잠재 변수' $Z$는 물체의 종류, 크기, 회전 각도, 위치, 조명의 밝기 등을 의미한다. 30도 회전한 의자를 코드로 정의한다고 가정하면 30도, 의자 등의 값이 선정된 $Z$에 해당한다. $Z$는 무한한 가능성을 가지고 있다. 또한 $Z$에 의해 어떠한 특정 이미지가 렌더링 될 확률은 그 이미지를 구성하는 요소($Z$)가 선택될 확률 분포에 기반한다.
- "잠재 변수 $Z$가 주어졌을 때, 이미지 $X$가 나타날 확률"
코드는 고정되어 있으나, 입력값을 확률 분포상 무작위로 샘플링하여 넣는 순간, 출력되는 이미지 $X$ 역시 확률적으로 결정되는 결과물이라고 볼 수 있다.
통계적 모델 (생성형 AI)
생성형 AI는 입력된 데이터를 학습하여 규칙을 정의하고, 이를 바탕으로 결과물을 생성한다.
'침대가 있는 방'에 대한 수많은 이미지 데이터를 학습시키면 모델은 무엇이 침대가 있는 방인지 일반적인 규칙인 '침대가 있는 방의 생성 원리'를 수식으로 정의한다. 왜 데이터 $X$가 하필 이러한 결과물로 나오게 되었는지를 정의하게 되면 침대가 있는 방 이미지를 생성하라는 명령에 맞는 다양한 이미지를 생성할 수 있게 된다.
이는 세상의 데이터는 항상 그 데이터를 만들어내는 규칙이 존재한다고 가정했을 때 성립한다. 수많은 관측 데이터 $X$로부터 그 $X$를 만들어내는 통계적 파라미터($\theta$), 잠재적 원인($Z$)을 찾아내는 과정이 모델링의 과정이 된다.
- "수만 장의 필기체 a 사진을 보고, a라는 문자의 형태와 특징을 통계적으로 분석해 공식화하는 것."
머신러닝 알고리즘 3대 구성요소
모델 (Model)
데이터가 어떻게 생겼으리라는 것을 의미하는 수학적인 가정.
관찰된 데이터 $X$를 설명하기 위해 어떤 수학적 틀(함수 또는 분포)을 사용할 것인지 결정한다.
- "이 데이터의 분포는 평균을 중심으로 종 모양의 그래프(가우시안)를 그릴 것이다."
학습 목표 (Learning Objective)
모델이 데이터를 얼마나 잘 설명하는지 측정하는 척도.
- "원하는 데이터가 나오기 위한 확률(가능도)을 극대화하는 방법은 무엇인가?"
확률은 6면체 주사위를 던졌을 때(원인), 숫자 1(결과)이 나올 가능성을 다룬다.
가능도는 숫자 1(결과)이 나왔을 때, 6면체 주사위가 정상(원인)일 가능성을 다룬다.
- "내가 보고 있는 지금 이 데이터 $X$가 나오려면 모델 $A$는 어떤 형태여야 하는가?"
원하는 데이터가 나오기 위한 확률을 극대화한다는 것은 모델의 파라미터($\theta$)를 계속 수정하여 실제 데이터와 모델이 예측하는 분포를 최대한 일치하게 만든다는 것을 의미한다. 즉, 모델이 결과를 정확하게 설명할 수 있도록 파라미터를 조정하는 것이다.
최적화 알고리즘 (Optimization Algorithm)
목표를 달성하기 위해 모델의 파라미터를 (반복적으로) 수정해 나가는 방법.
모델을 학습 목표에 맞게 파라미터를 구체적인 연산 절차를 통해 조정하면서 가능도를 극대화한다.
변분 추론 (Variational Inference; VI)
- '비슷한 모양을 골라서 최적화'하는 방식으로 동작하며, 속도가 매우 빨라 딥러닝에 적합하다.
- 정해진 틀 안에서만 파라미터를 탐색하기 때문에 복잡한 분포를 사용하면 정확도가 떨어지기 쉽다.
마코프 연쇄 몬테카를로 (Markov Chain Monte Carlo; MCMC)
- '수만 번 점을 찍으면서 생긴 분포도로 최적화'하는 방식으로 동작하며, 속도가 매우 느리지만 이론적으로 가장 정확하다.
- 잠재 공간 $Z$를 무작위로 돌아다니면서 점을 찍는다. 확률이 높은 곳은 오래 점이 머물기 때문에 찍힌 점의 밀도가 정답 분포의 모양이 된다.
- 시간만 충분하다면 어떤 복잡한 분포라도 이론적으로 완벽한 정답을 찾을 수 있지만 계산량이 기하급수적으로 늘어나기 때문에 대용량 데이터 분석에는 적합하지 않다.
딥러닝 분야에서는 수백만 개가 넘는 대용량 데이터를 빠르게 처리하는 성능을 요구하기 때문에 MCM보다는 변분 추론을 선호한다고 한다.
'Technology > AI (2026)' 카테고리의 다른 글
| Transformer (0) | 2026.04.21 |
|---|---|
| Generative Adversarial Networks (0) | 2026.04.21 |
| Autoencoder (0) | 2026.04.11 |
| Optimization (0) | 2026.04.10 |
| Probabilistic Modeling (0) | 2026.04.09 |