Machine-Learning/Basic19 [ML] 경량 딥러닝 기술 동향 https://ettrends.etri.re.kr/ettrends/176/0905176005/34-2_40-50.pdf 해당 글은 ETRI에서 발표한 경량 딥러닝 기술 동향의 내용을 정리한 내용 입니다. 경량 딥러닝 기술 동향 경량 딥러닝 기술은 알고리즘 자체를 적은 연산과 효율적인 구조로 설계하여, 기존 모델 대비 효율을 극대화하기 위한 경량 딥러닝 알고리즘 연구와 만들어진 모델의 파라미터들을 줄이는 모델 압축(Model Compression) 등의 기법이 적용된 알고리즘 경량화 기술로 나눌 수 있다. 경량 딥러닝 알고리즘의 정의 경량 알고리즘은 CNN 계열의 모델에서는 주로 학습 시 가장 큰 연산량을 요구하는 합성곱 연산을 줄이기 위한 효율적인 합성곱 필터 기술이 일반화되고 있다. 다양한 신규 계층 .. 2023. 2. 9. [ML] Semi-Supervised Learning (Active Learning) Active Learning Active Learning은 적은 수의 Labeled Data를 활용하여 Unlabeled Data에 대한 Annotation을 수행, 해당 데이터를 재 학습하는 과정을 통해 모델의 성능을 높이는 방법 중 하나이다 이때, Annotation 할 데이터를 무작위로 추출하지 않고, 적절한 Query 전략을 통해 현 모델 기준 불확실성이 높은 데이터를 우선적으로 Annotator에게 Labeling 해줄 것을 요청하는 것이 Active Learning의 핵심이다 학습 데이터를 확보하는 과정은 데이터를 수집하는 거소가 수집한 데이터에 유의미한 라벨을 붙이는 것으로 구성되어 있다. 일반적으로 유의미한 라벨을 붙이는 것이 데이터를 수집하는 것에 비해 시간과 비용이 많이 든다 그렇기에 .. 2023. 1. 29. [ML] Cross Validation Cross Validation (교차 검증) 모델을 학습시키는 학습 데이터와 이에 대한 예측 성능을 평가하기 위한 별도의 테스트 데이터가 필요하다. 하지만 이 방법은 과적합(Overfitting)에 취약한 약점을 가질 수 있다. 과적합은 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우 예측 성능이 과도하게 떨어지는 것을 말한다. 그런데 고정된 학습 데이터와 테스트 데이터로 평가를 하다보면 테스트 데이터에만 최적의 성능을 발휘할 수 있도록 편향되게 모델을 유도하는 경향이 생기게 된다. 결국은 해당 테스트에만 과적합되는 학습 모델이 만들어져 다른 테스트 데이터가 들어올 경우에는 성능이 저하된다. 이러한 문제점을 개선하기 위해 교차 검증을 이용해 더 다양한 학습과 평가를 수.. 2023. 1. 11. [ML] 차원 축소 (Dimension Reduction) 차원 축소 (Dimension Reduction) 차원 축소는 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것이다. 일반적으로 차원이 증가할소록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소 (sparse) 한 구조를 가지게 된다. 수백 개 이상의 피처로 구성된 데이터 세트의 경우 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다. 또한 피처가 많을 경우 개별 피처간에 상관 관계가 높을 가능성이 크다. 선형 회귀 같은 선형 모델에서는 입력 변수 간의 상관 관계가 높을 경우 이로 인한 다중 공선성 문제로 모델의 예측 성능이 저하된다. 이렇게 매우 많은 다차원 피처를 차원 축소해 피처 수를 줄이면 더 직관적으로 데이터를 해석.. 2023. 1. 11. [ML] 메타 러닝과 퓨샷 러닝 메타러닝 이란? 딥러닝이 성공을 거둘 수 있었던 것은 많은 연구자들이 좋은 알고리즘과 기술을 연구하여 지속적으로 공유한 덕분이지만, 그 이면에는 더 중요한 계기가 있다. 딥러닝이 기존에 풀지 못한 어려운 문제들을 풀 수 있었던 근본적인 이유 중 하나는 크고 다양한 데이터 셋과 좋은 하드웨어가 뒷받침되었기 때문이다 그렇다면 이렇게 우수한 딥러닝의 단점은 없었을까? 딥러닝 또한 많은 단점이 있다. 대표적인 단점 중 하나는 크고 다양한 데이터 셋이 준비되어야 하고, 값비싼 좋은 하드웨어, 수 많은 컴퓨터 자원이 확보되어야 한다는 점이다. 조금 다른 관점에서 해석하면 딥러닝의 핵심인 인공신경망은 사람의 뇌와 달리, 적은 데이터로 빠르게 학습하기가 어렵다 사람은 새로운 데이터를 몇번만 보고도 어떤 개념을 상대적으.. 2022. 12. 17. [ML] 군집 평가 (Cluster Evaluation) - 실루엣 분석 (Silhouette Analysis) 군집 평가 (Cluster Evaluation) 군집화는 분류와 유사해 보일 수 있으나 성격이 많이 다르다. 데이터 내에 숨어 있는 별도의 그룹을 찾아서 의미를 부여하거나 동일한 분류 값에 속하더라도 그 안에서 더 세분화된 군집화를 추구하거나 서로 다른 분류 값의 데이터도 더 넓은 군집화 레벨화 등의 영역을 가지고 있다. 그렇다면 군집화가 효율적으로 잘 됐는지 평가할 수 있는 지표에는 어떤 것이 있을까? 비지도 학습의 특성상 어더한 지표라도 정확하게 성능을 평가하기는 어렵다. 그럼에도 불구하고 군집화의 성능을 평하는 대표적인 방법으로 실루엣 분석을 이용한다 실루엣 분석의 개요 군집화 평가 방법으로 실루엣 분석 (silhouette analysis)이 있다. 실루엣 분석은 각 군집 간의 거리가 얼마나 효율.. 2022. 12. 8. [ML] GirdSearchCV GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에 하이퍼 파라미터는 머신러닝 알고리즘을 구성하는 주요 구성 요소이며, 이값을 조정해 알고리즘의 예측 성능을 개선할 수 있다. 사이킷런은 GridSearchCV API를 이용해 Classifier나 Regressor와 같은 알고리즘에 사용되는 알고리즘에 사용되는 아이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출할 수 있는 방안을 제공한다 Grid는 격자라는 뜻으로, 촘촘하게 파라미터를 입력하면서 테스트를 하는 방식이다. 예를 들어 결정 트리 알고리즘의 여러 하이퍼 파라미터를 순차적으로 변경하면서 최고 성능을 가지는 파라미터 조합을 찾고자 한다면 다음과 같이 파라미터의 집합을 만들고 이를 순차적으로 적용하면서 최.. 2022. 11. 30. [ML] k-최근접 이웃 (K-Nearest Neighbor) k-최근접 이웃 (K-Nearest Neighbor) k 최근접 이웃 (K-Nearest-Neighbor, KNN)은 이름에서 알수 있듯, 비교 대상이 되는 데이터 포인트 주변에 가장 가까이 존재하는 k개의 데이터와 비교해 가장 가까운 데이터 종류로 판별한다. 예를 들어, 과일 데이터를 구분할 때, 데이터 포인트 주변의 3개의 값을 비교한다고 가정하면, 데이터 주변의 반경 (circle)으로 표시하고 원 내부의 데이터와 비교해 분류하는 것이다. 데이터 주변의 가장 가까운 데이터를 판별하게 되며, 가장 많이 존재하는 것을분류하는 것이다. k 최근접 이웃은 k의 값에 다라서 분류가 달라진다 만일, 타깃이 연속형 숫자라면 kNN은 k개의 데이터의 평균 값으로 에측하는 방법을 사용한다. 에를 들어 타깃 변수가 .. 2022. 11. 19. [ML] SVM(Support Vertor Machine) 서포트 벡터 머신 (Support Vector Machine, SVM) 서포트 벡터 머신은 서포트 벡터를 기준으로 클래스를 판별한다. SVM은 퍼셉트론의 확장이라고 생각할 수 있으며, 퍼셉트론 알고리즘을 사용하여 분류 오차를 최소화 한다. SVM의 최적화 대상은 마진을 최대화 하는 것이다. 마진은 클래스를 구분하는 초평면(결정 경계)과 이 초평면에 가장 가까운 훈련 샘플 사이의 거리로 정의 된다. 이런 샘플을 서포트 벡터(support vector)라고 한다 최대 마진(large margin)의 결정 경계를 원하는 이유는 일반화 오차가 낮아지는 경향이 있기 대문이다. 반면 작은 마진의 모델은 과대적합되기 쉽다. 소프트 마진 (soft margin) 서포트 벡터 머신은 데이터가 잘못 분류되는 경우는 고려하.. 2022. 9. 26. 이전 1 2 3 다음