본문 바로가기
Machine-Learning/NLP (Natural Language Processing)

[ML] GLUE (General Language Understanding Evaluation)

by AteN 2022. 11. 30.

GLUE (General Language Understanding Evaluation) 

GLUE의 탄생과 활용의 예

전이 학습(Transfer Learning)과 관련된 연구를 시작하고, 자연어 처리 내에서도 전이학습의 성공이 이어짐에 따라 모델을 평가하기 위한 새로운 방법론의 필요성이 대두되었다

특정 문제만을 해결하기 위해 End-to-End 방식으로 학습된 Single Task Model들과 달리 전지 학습모델은 Deep한 모델을 이용해 자연어의 일반화된 이해를 중점으로 학습한다. 즉, 전이 학습 모델들 사전학습을 통해 언어에 대한 일반적인 이해 능력을 가질 수 있게 되는 것이다. 이처럼 사전학습을 통해 얻어진 자연어 이해 능력은 해당 모델을 특정 태스크를 수행하기 위해 fine-tuning 할 때 그 빛을 발하게 된다. 

뉴욕대학교 연구진은 한 모델에 대해 여러 태스크들을 훈련 및 평가할 수 있는 GLUE 데이터셋을 선보였다. 연구자들은 자신이 새로이 연구한 모델을 GLUE 데이터셋에 훈련시킨후, GLUE 내 9개의 태스크에 각각 점수를 task는 크게 3가지 - Single-Sentence Tasks (CoLA, SST-2), Similarity and Paraphrase Tasks (MRPC, QQP, STS-B), Inference Tasks (MNLI, RTE, QNLI, WNLI) - 로 구분하여 최종 성능 점수를 계산할 수 있게 되었다. GLUE 내에 존재하는 태스크를 모두 해결할 수만 있다면 모델은 어떠한 구조를 가져도, 내부적으로 어떠한 연산을 취해도 전혀 문제가 되지 않는다. 

Single Sentence Task

CoLA (Corpus of Linguistic Acceptability) 

SST-2 (Stanford Sentiment Treebank)

 

Similarity and Paraphrase Tasks

MRPC (Microsoft Research Paraphrase Corpus)

QQP (Quora Question Pairs)

STS-B (Semantic Textual Similarity Benchmark)

Inference Tasks

MNLI (Multi-Genre Natural Language Inference Corpus)

QNLI ( Stanford Question Answering Dataset)

RTE (Recognizing Textual Entailment)

WNLI ( Winograd Schema Challenge)

 

corpus task metrics label size (train/dev/test)
CoLA acceptability Matthews corr. acceptable / not acceptable 10K / 1K / 1.1K
SST-2 sentiment acc. positive / negative 67K / 872 / 1.8K
MRPC paraphrase acc. / F1 same / not same 1.7K / 408 / 3.6K
QQP paraphrase acc. / F1 same / not same 400K / - / 391K
STS-B sentence similarity Pearson/Spearman corr. 1 ~ 5 (similarity score) 7K / 1.5K / 1.4K
MNLI NLI metched acc. / mismatched acc. entailment / contradiction / neutral 393K / 20K / 20K
QNLI QA/NLI acc. entailment / not entailment ? 105K / 5463 /
RTE NLI acc. entailment / not entailment 2.7K / - / 3K
WNLI coreference/NLI acc.   706 / - / 146

 

Corpus of Linguistic Acceptability (CoLA)

CoLA는 공개된 언어학 문헌(publised liguistics literature)에서 추출된 약 21k 문장들로 구성되어 있다. 이 문장들은 문법적으로 옳은지, 그른지가 표기되어 있다.

 

Stanford Sentiment Treebank (SST-2)

rottentomatoes.com의 영화 리뷰 corpus로 구성되었으며 AMT(Amazon Mechanical Turk)를 통해 리뷰의 sentiment가 labeling 되었다. 1은 긍정, 0은 부정을 나타낸다.

 

Microsoft Research Paraphrase Corpus (MRPC)

MRPC는 온라인 뉴스에서 추출된 문장들로 구성되었으며 2개의 문장이 의미적으로 같은지 다른지를 평가하는 task이다.

 

Quora Question Pairs (QQP)

QQP는 https://www.quora.com/의 질문들로 구성되었으며, 두 개의 질문이 의미상 같은지 다른지가 표기되어있다.

 

Semantic Textual Similarity Benchmark (STS-B)

문장의 유사도는 번역, 요약, 문장 생성, QA, 대화 모델링 등등 다양한 NLP 분야에서 중요하게 다뤄진다. STS shared task는 모델이 문장들의 유사도를 얼마나 잘 파악하는지를 평가하기 위해 등장하였고, 2012년부터 2017년까지 매년 개최되었으며 그 때마다 다른 dataset이 사용되었다. 이 때문에 각 연도의 데이터셋을 적절히 조합한 common evaluation set으로 STS-B가 소개되었다.

이 전의 task와는 다르게 STS는 regression task이다. human annotator들은 두 문장의 의미적인 유사도를 1~5점으로 평가하였고 모델은 score를 예측해야한다.

 

Multi-Genre NLI corpus (MNLI)

MNLI는 SNLI(Stanford NLI) dataset의 단점을 개선시킨 데이터셋이다. SNLI는 image caption으로만 구성되었기 때문에 장면을 표현하는 짧고 간단한 문장이 많고 NLU(Natural Language Understanding) task와 무관한 단어들이 많이 등장한다. 그래서 NLU task의 benchmark로 사용되기는 어렵기 때문에 다양한 도메인(논문에서는 genre라고 표현)의 조합인 MNLI benchmark dataset이 등장하였다.

 

The Recognizing Textual Entailment (RTE)

RTE도 STS처럼 RTE1부터 RTE7까지의 데이터셋에서 만들어졌다. 구체적으로는 RTE1, RTE2, RTE3, RTE5로 구성되었고, 나머지 데이터셋 중 RTE4는 공개되지 않아서, RTE6와 7은 NLI task로는 부적합해서 제외했다고 한다. 취합하는 과정에서 일부는 세 개의 class, 일부는 두 개의 class로 labeling이 되어있어 이를 일괄적으로 두 개의 class(entailment, not_entailment)로 구분지었다.

 

The Stanford Question Answering NLI (QNLI)

Stanford에서 구축한 Machine Comprehension 목적의 QA Dataset, a.k.a SQuAD,을 NLI task에 맞게 변형한 데이터셋이다. SQuAD는 wikipedia에서 paragraph를 가져와서 annotator들이 적절한 질문을 던지는데 이에 대한 답을 paragraph 내에 있는 문장, 구, 단어로 답할 수 있게 구성되었다. QNLI는 질문과 paragraph 내의 한 문장을 비교하여 이 둘이 entailment되었는지 아닌지를 판단하도록 바뀌었다.

 

댓글