Twowinn
[AI Research] 00 – 머신러닝 개요와 핵심 개념 정리 본문
KOSS X FOSCAR 연합 인공지능 스터디로 진행됨에 따라 매주 블로깅을 통해 학습 내용을 정리할 예정입니다.
이를 통해 기본적인 머신러닝-딥러닝을 이해하며 관련된 논문을 학습함에 목적이 있습니다.
1. 인공신경망의 기본 구조
- Perceptron
퍼셉트론은 크게 보면 inputs - weights - transfer function - activation function으로 이루어진다.

input은 n차원으로 이루어진 입력값이고 weight의 개수 또한 n이다. 각 변수마다 연결되어 표현한 것이 transfer function이다.
예를 들어 2개의 입력변수 X1,X2가 존재한다고 할 때, transfer function은 아래의 형태와 같다.

여기서 w0 는 그냥 또 하나의 weight가 아니라, 보통 bias(편향)를 의미합니다.
정리하면, w0는 뉴런이 단순히 원점을 기준으로만 작동하지 않도록 해주고, 결정 경계를 자유롭게 이동시킬 수 있게 하는 역할이다.
이후 활성화함수에 위 과정을 거친 값이 들어가 출력값을 구하는 과정이 진행된다.
- 층(Layer) 개념
- 입력층(Input Layer): 데이터를 받아들이는 단계
- 은닉층(Hidden Layer): 데이터 특징을 추출하고 변환하는 단계
- 출력층(Output Layer): 최종 결과를 산출하는 단계

각 선(line)은 이전 층의 뉴런 출력값이 다음 층 뉴런의 입력으로 들어갈 때 곱해지는 가중치(weight)를 의미한다.
Layer 개념 보충 설명
- 입력층 (Input Layer)
- 역할: 데이터셋의 특성(feature)을 받아들이는 관문이다. 각 노드(뉴런)는 데이터의 개별 특성 하나하나에 해당한다.
- 특징: 별도의 계산 과정 없이 입력된 데이터를 그대로 은닉층으로 전달합니다. 예를 들어, 붓꽃 품종 분류 데이터라면 '꽃받침 길이', '꽃받침 너비', '꽃잎 길이', '꽃잎 너비' 4개의 특성이 각각 입력층의 노드가 된다.
- 은닉층 (Hidden Layer)
- 역할: 입력층에서 받은 데이터에 가중치를 곱하고 편향을 더한 뒤, 활성화 함수를 통해 비선형적으로 변환하여 다음 층으로 전달한다. 이 과정에서 데이터에 숨겨진(hidden) 고차원적인 특징이나 복잡한 패턴을 학습한다.
- 특징: 신경망의 성능을 좌우하는 핵심적인 부분입니다. 은닉층이 2개 이상인 신경망을 심층 신경망(Deep Neural Network, DNN)이라고 부르며, 딥러닝의 기반이 된다. 은닉층의 수와 각 층의 뉴런 수는 모델의 성능에 큰 영향을 미치는 중요한 하이퍼파라미터(사용자가 직접 설정하는 값)이다.
- 출력층 (Output Layer)
- 역할: 은닉층을 거쳐 처리된 최종 결과를 문제의 목적에 맞게 출력한다.
- 특징: 해결하려는 문제의 종류에 따라 뉴런 수와 활성화 함수가 결정된다.
- 회귀 (Regression) (e.g., 주가 예측): 보통 1개의 뉴런을 두고 값의 범위를 제한하지 않는 활성화 함수(e.g., 선형 함수)를 사용하거나 사용하지 않는다.
- 이진 분류 (Binary Classification) (e.g., 스팸 메일 or 정상 메일): 1개의 뉴런에 시그모이드(Sigmoid) 함수를 사용하여 0과 1 사이의 확률 값을 출력한다.
- 다중 분류 (Multi-class Classification) (e.g., 손글씨 숫자 0~9 인식): 분류할 클래스의 개수만큼 뉴런을 두고, 소프트맥스(Softmax) 함수를 사용하여 각 클래스에 속할 확률을 출력한다.
2. 학습 원리: 손실함수와 경사하강법
- 손실함수(Loss Function): 예측값과 실제값의 차이를 수치화
- 대표적 예: MSE (Mean Squared Error)
- 경사하강법(Gradient Descent):
- 손실을 줄이기 위해 기울기(Gradient) 방향으로 파라미터 조정
- 학습률(Learning Rate)에 따라 한 번에 이동하는 크기가 결정됨
📊 시각화 추천: “2차원 함수 위에서 경사하강법으로 최적점으로 수렴하는 경로 애니메이션”
3. 유사도 측정: 코사인 유사도
- 두 벡터의 방향을 비교 → 크기보다는 방향성에 집중
- 응용 분야:
- 문서 간 유사도 측정 (예: 검색, NLP)
- 추천 시스템 (사용자–아이템 매칭)
📊 시각화 추천: “2D 벡터 사이의 각도와 코사인 값 비교 그림”
4. 주요 신경망 모델
- DNN (Deep Neural Network):
- 은닉층을 여러 개 두어 복잡한 패턴 학습 가능
- CNN (Convolutional Neural Network):
- 이미지/영상 등 공간적 패턴 인식에 강점
- RNN (Recurrent Neural Network):
- 시계열·텍스트 등 순차적 데이터 처리, 과거 정보를 기억
📊 시각화 추천:
- CNN: 합성곱 필터로 이미지 특징 추출 그림
- RNN: 순차 데이터 흐름도
5. 학습 방식
- 지도학습 (Supervised Learning)
- 입력 + 정답 제공
- 예: 스팸 메일 분류
- 비지도학습 (Unsupervised Learning)
- 정답 없음, 데이터 자체에서 패턴 탐색
- 예: 고객 클러스터링
6. 활성화 함수의 필요성
- 신경망은 선형 조합만으로는 한계 존재
- 활성화 함수(Activation Function)로 비선형성을 도입
- 대표 함수:
- ReLU: 간단하고 효율적, 딥러닝 기본값
- Sigmoid: 확률적 해석 가능
📊 시각화 추천: “ReLU, Sigmoid 곡선 그래프”
7. 인공지능의 주요 응용 분야
- 머신러닝 & 딥러닝
- 자연어 처리 (NLP)
- 컴퓨터 비전 (CV)
- 강화학습 (Reinforcement Learning)
- 추천 시스템
이번 스터디는 “AI 기초 다지기”에 집중한 시간으로, 이후 심화 주제(ResNet, Transformer 등)를 이해하는 기반을 마련하는 단계였음.
'[AI Research]' 카테고리의 다른 글
| [AI Research] 04 - LoRA: Low-Rank Adaptation Of Large Language Model (0) | 2026.03.19 |
|---|---|
| [AI Research] 02 - Attention Is All You Need (0) | 2026.03.18 |