5-1 문장 쌍 분류 모델 훑어보기

1. 과제 소개

문장 쌍 분류: 문장 2개가 주어졌을 때 해당 문장 사이의 관계가 어떤 범주일지 분류하는 과제
업스테이지에서 공개한 NLI 데이터셋 사용
전제에 대한 가설 → 레이블
- 00분간 잘껄 그래도 소닉붐땜에 2점준다 + 100분간 잤다. → [0.02, 0.97, 0.01] → contradiction
- 100분간 잘껄 그래도 소닉붐땜에 2점준다 + 소닉붐이 정말 멋있었다. → [0.01, 0.01, 0.98] → neutral

2. 모델 구조

전제와 가설 두 문장 각각 토큰화
[CLS] + 전제 + [SEP] + 가설 + [SEP]

CLS : 문장 시작을 알리는 스페셜 토큰
SEP: 전제와 가설을 구분해주는 스페셜 토큰

BERT 모델에 입력
문장 수준의 벡터(pooler_output) 뽑기 → 전제와 가설의 의미 응축되어 있음
(+작은 추가 모듈)→ 모델 전체의 출력 = [전제에 대한 가설이 참/거짓/중립일 확률] 형태가 되도록

3. 태스크 모듈

Untitled

x: pooler_output 벡터
h: 분류 대상 범주 수만큼의 차원을 갖는 벡터
y: 모델 출력
모델 튜닝: 출력, 정답 레이블 비교 → 최대한 같아지도록
문장 쌍 분류 태스크 모듈 VS 문서 분류 태스크 모듈

→ 문장 2개 의미 내포 → 문장 1개 의미 내포

5-2 문장 쌍 분류 모델 학습하기