데이터 불균형

본문 바로가기 메뉴 바로가기

티스토리 뷰

ML+DL/Deep Learning

데이터 불균형

Vagabund.Gni 2024. 4. 12. 11:00

728x90

목차

딥러닝의 역사와 발전: 머신러닝에서 딥러닝까지의 여정

인공 신경망의 기본 구조와 중요성

활성화 함수(Activation Functions) 이해하기

손실 함수(Loss Functions)의 역할과 중요성

딥러닝에서의 최적화: 하강법과 경사하강법

확률적 경사 하강법(Stochastic Gradient Descent, SGD)

기울기 사라짐(Vanishing Gradient)

손실 함수와 최적화

컴퓨터 비전(Computer Vision)

합성곱 연산(Convolution)

합성곱 신경망(Convolutional Neural Network, CNN)

순환 신경망(Recurrent Neural Network, RNN)

순환 신경망의 발전(The Evolution of RNN)

오토 인코더(Autoencoder)

생성적 적대 신경망(Generative Adversarial Network, GAN)

과적합과 그 방지법

데이터 불균형

딥러닝 모델 튜닝: 성능 향상의 기초와 전략

전이 학습(Transfer Learning)

딥러닝 학습 방법: 지도학습부터 강화학습까지

설명 가능한 AI(Explainable AI, XAI)

Imbalanced Data

데이터 과학과 딥러닝의 세계에서 데이터 불균형은 꽤 흔한 문제로,

이것이 무엇인지와 왜 중요한지를 이해하는 것은 모든 데이터 분석가와 개발자에게 필수적이다.

데이터 불균형이란, 데이터 세트 내의 클래스 간에 관측치의 수가 불균등하게 분포되어 있는 상황을 말한다.

예를 들어, 이메일 분류기를 훈련할 때 스팸 메일보다 정상 메일의 수가 훨씬 많을 수 있는데,

이것이 바로 데이터 불균형의 한 예이다.

Characteristics of Imbalanced Data

이 문제의 핵심은, 대부분의 머신러닝 알고리즘이 데이터에서 동일하게 분포된 클래스를 가정한다는 데 있다.

그렇기 때문에 불균형 데이터는 모델이 소수 클래스를 오분류할 가능성을 높인다.

예를 들어, 사기 거래 감지 시스템에서 정상 거래에 비해 사기 거래가 매우 드물다면,

모델은 모든 거래를 '정상'으로 분류함으로써 높은 정확도를 보일 수 있으나,

실제로 중요한 사기 거래를 걸러내지 못하는 문제가 발생한다.

Causes of Data Imbalance

데이터 불균형은 다양한 이유로 발생할 수 있다. 몇 가지 흔한 예는 다음과 같다:

정상 거래 vs 사기 거래: 금융 분야에서 사기 거래는 일반적으로 정상 거래보다 훨씬 드물게 발생한다.
기체 결함: 제조 공정에서 불량품은 대체로 양품에 비해 적게 나타난다.
높은 클릭률 vs 정상 클릭률: 인터넷 광고에서 대다수의 클릭은 일반적인 클릭이며, 높은 클릭률을 보이는 경우는 드물다.
희귀 질병 vs 질병: 의학 데이터에서 희귀 질병은 일반 질병에 비해 상대적으로 드물게 발생한다.

Solutions for Data Imbalance

데이터 불균형 문제를 해결하기 위한 몇 가지 방법은 다음과 같다:

데이터 증식(Data Augmentation)
소수 클래스의 샘플을 인위적으로 늘려 데이터 세트의 균형을 맞춘다.
샘플링 기법(Sampling Techniques)
과대 샘플링(소수 클래스 증가) 또는 과소 샘플링(다수 클래스 감소)을 통해 클래스 간의 균형을 맞춘다.
여기서 과대 샘플링이란 소수 클래스의 샘플 수를 인위적으로 늘리는 방법이며,
과소 샘플링은 반대로 다수 클래스의 샘플을 줄이는 기법이다.
과소 샘플링은 계산 비용을 줄이고, 데이터 세트의 크기를 감소시키는 데에 효과적이지만, 중요한 정보의 손실 위험이 있다.
가중 손실 함수(Weighted Loss Functions)
모델 학습 시 소수 클래스의 오류에 더 큰 가중치를 부여한다.
평가 기준 정의(Evaluation Metric Definition)
정확도 대신 F1 점수나 혼동 행렬을 포함한 다른 평가 지표를 사용하여 모델 성능을 평가한다.

저작자표시 비영리 변경금지

'ML+DL > Deep Learning' 카테고리의 다른 글

딥러닝 학습 방법: 지도학습부터 강화학습까지 (0)	2024.04.13
전이 학습(Transfer Learning) (0)	2024.04.12
딥러닝 모델 튜닝: 성능 향상의 기초와 전략 (0)	2024.04.12
과적합과 그 방지법 (0)	2024.04.11
생성적 적대 신경망(Generative Adversarial Network, GAN) (0)	2024.04.11
오토 인코더(Autoencoder) (0)	2024.04.11

댓글

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

글 보관함

티스토리툴바