본문 바로가기

Tech82

[NLP] Transforemr - 피드포워드, add와 Norm 피드포워드 네트워크 (Feed-Forward Networks) 2개의 전 결합층 (dense layer)과 ReLU 활성화 함수로 구성 피드 포워드 네트워크의 변수는 문장의 다른 위치에서는 동일하고 인코더 블럭에서는 다르게 나타낸다 add와 norm 요소 인코더에서 중요한 요소 중 하나는 바로 add와 norm 관련 부분이다. 이 부분은 서브레이어의 입력과 출력 부분에 연결되어 있다. - 서브레이어에서 멀티헤드 어텐션의 입력값과 출력값은 서로 연결한다 - 서브레이어에서 피드포워드의 입력값과 출력값을 서로 연결한다 add와 norm 요소는 기본적으로 레이어 정규화 (layer normalization)의 잔차 연결 (residual connection)이다 Residual Connection 특정 레이어를.. 2022. 11. 6.
[CV] 영상 처리(image processing) 영상처리(image processing) : 디지털 카메라를 통하여 영상을 전자적으로 얻은 후, 컴퓨터로 영상을 처리하여 원하는 출력 영상을 얻는 기술 분야 영상처리는 아날로그 영상 처리와 디지털 영상 처리로 구분할 수 있지만 최근에 컴퓨터의 발전으로 영상 처리라고 하면 일반적으로 디지털 영상 처리를 의미한다. 영상은 수학적으로는 2차원 함수 f(x,y)로 정의될 수 있으며, 여기서 x와 y는 2차원 공간 좌표이다. 좌표는 (x, y)에서 f의 값이 그 점에서의 영상의 밝기 (intensity)가 된다. 만약 x와 y가 유한하고 이산적일 때이러한 영상 f(x,y)을 디지털 영상이라고 한다. 디지털 영상은 유한한 개수의 점들로 구성되며, 이러한 점을 화소(pixel: picture element)라고 부른.. 2022. 10. 28.
[CV] VGGNet (Simonyan and Zisserman, 2015) VGGNet 이상적인 구조 형태에 대한 정보를 아직 확보하지 못한 시점에서 Simonyan and Zisserman(2015)는 깊이가 증가함에 따라 나타나느 효과에 대해 확인하는 작업을 수행했다. 이를 위해 기본적인 네트워크에서 최대 뉴런 입력 필드를 3X3으로 제한해 필요한 매개변수의 양을 상당 수준으로 줄였다 구체적으로 합성곱 입력 필드와 스트라이드를 각각 3X3과 1X1 크기로, 각 서브샘플링 레이어에 대해서는 입력 필드와 스트라이드 크기를 2X2로 제한했다. 또한 체계적으로 빠르게 수렴에 도달하도록 하여, 5단계의 레이어를 지남에 따라 224X224에서 7X7로 크기가 줄어들고, 1X1 크기의 단일 완전 연결 단계에 도달하게 딘다. 그런 다음 추가로 2개의 완전 연결 레이러를 지나 최종적으로 s.. 2022. 10. 28.
[Ops] FAISS (Fine-Grained Image Similarity Detection Using Facebook AI Similarity Search) https://github.com/facebookresearch/faiss FAISS (Fine-Grained Image Similarity Detection Using Facebook AI Similarity Search) 고속 벡터 검색 엔진으로 유사도 검색하기, Vector Search Engine : 벡터화 된 데이터를 인덱싱하고 데이터에 대한 효율적인 검색을 수행하기 위해서 Facebook AI에서 구축한 C++ 기반 라이브러리이다. - Faiss 는 벡터 검색 엔진이고 유사도 검색을 하거나 추천, 기계학습으로 만든 모델을 활용해서 응용 서비스를 만들 때 사용한다. 일반적으로 검색 엔진이라고 말하면 흔히 텍스트를 검색하는 것을 생각한다. 구글의 웹 검색, 네이버 검색, 다음 검색 같은 것은 검색.. 2022. 10. 23.
[GAN] AutoEncoder의 모든 것 (Revisit Deep Neural Networks) 오토 인코더의 모든 것 위키피티아를 통해 오토인코더의 키워드를 뽑아보면 크게 Unsupervised learning, Representation(= efficient coding learning), dimensionality reduction, generative model learning 으로 5가지로 주요 키워드를 뽑아 낼 수 있으며, 이중에서 가장 중요하게 생각하는 것은 dimensionality reduction을 사용하는 것이다. 이중에서 dimensionality reduction의 키워드를 뽑아보면 Unsupervised Learning, Nonlinear dimensionality reduction (= Representation learning = Efficient coding learn.. 2022. 10. 18.
[Paper] CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features [Paper] CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features https://arxiv.org/pdf/1905.04899.pdf 해당 논문은 네어버 Clova에서 발표한 Cutmix이다. 이미지 성능 향상을 위한 Data Augmentation 기법은 다양안 방법이 있다. Mixup, Cutout 등 다야앟ㄴ 당법이 있다. 그중에서 Cutout의 경우 이미지의 일부를 잘라내 픽셀 값을 0을 채우고 Mixup의 경우 다른 이미지와 겹칩으로써 (inte.. 2022. 10. 17.
[CV] ResNet ResNet의 주요 개념 ResNet은 네트워크를 얼마나 깊이 쌓을 수 있을까라는 의문에서 시작되었고, 해당 논문의 연구자들은 일정 수준 이상의 깊이가 되면 오히려 얕은 모델보다 깊은 모델의 성능이 더 떨어진다는 점을 발견했습니다. 그래서 이 문제를 해결할 방법으로 잔차 학습(residual learning)이란 방법을 제시했고 이를 구현한 ResNet으로 2015년 이미지 대회에서 우승했다. 아이디어는 꽤 단순하다. 특정 위치에서 입력이 들어왔을 때 합성곱 연산을 통과한 결과와 입력으로 들어온 결과 두가지 더해서 다음 레이어에 전달하는게 ResNet의 핵심이다. 즉 입력 값을 출력 값에 더해 줄 수 있도록 지름길 (shortcut)을 하나 만들어준 것 뿐이다. 잔차 학습 블록은 이전 단계에서 뽑았던 특.. 2022. 10. 11.
[NLP] Transformer - positional encoding, self-attention Transformer의 인코더의 이해 트랜스포머는 N개의 인코더가 쌓인 형태다. 인코더의 결괏값은 그 다음 인코더의 입력값으로 들어간다. 인코더는 N개로 쌓인 형태로 보여준다. 각 인코더의 결괏값은 그 위에 있는 인코더의 입력값으로 들어간다. 가장 마지막 있는 인코더는 결과값이 입력값의 최종 표현 결과가 되는 것이다. 최초 인코더에 대한 입력값으로는 입력 문장을 넣게 되고, 최종 인코더의 결과값으로 입력 문장에 따르는 표현 결과를 얻는 것이다 트랜스포머 관련 논문인 "Attention Is All You Need"를 보면 N=6개로 인코더를 6개 누적해서 쌓아 올린 형태를 표현한 것이다. 하지만 N을 다양한 값으로 지정해 인코더의 형태를 바꿀 수 있다. 그럼 인코더는 어떤 원리로 작동할까? 입력 문장으로.. 2022. 10. 11.
[NLP] Transformer-Overview 트랜스포머 소개 트랜스포머는 현재 여러 자연어뿐만 아니라 컴퓨터 비전 과제에서도 최신 기술로 사용되고 있다. 트랜스포머가 출현함으로 자연어 및 컴퓨터 비전 등에서 많은 발전을 이루고 있으며, BERT, GPT, VIT(vision transformer) Swin Transformer 등과 같이 발전하는 기반을 마련했다. 트랜트포머는 RNN에서 사용한 순환 방식을 사용하지 않고, 순수하게 어텐션만 사용한 모델이다. 트랜스포머는 셀프 어텐션(Self-attention)이라는 특수한 형태의 어텐션을 사용한다. RNN과 LSTM 네트워크는 다음 단어 예측(next word prediction), 기계 번역 (machine translation), 텍스트 생성 (text generation)등의 순차적 태스크에서.. 2022. 10. 11.