6-1 개체명 인식 모델 훑어보기

모델의 출력: 각 토큰이 어떤 개체명 태그에 속할지의 확률

모델의 출력: 각 토큰이 어떤 개체명 태그에 속할지의 확률

  1. 모델 구조

Untitled

  1. 스페셜 토큰 CLS, SEP(문장의 시작 & 끝)을 토큰 시퀀스 앞뒤에

  2. BERT 모델에 입력

  3. 모든 토큰(+추가 모듈) → 모델의 출력이 해당 토큰이 특정 개체명에 속할 확률이 되도록

  1. 태스크 모듈

    Untitled

    x(마지막 레이어의 개별 토큰 벡터)

    → 드롭아웃

    → 가중치 행렬을 곱하기

    → h(분류 범주 수만큼의 차원을 갖는 벡터로 변환됨)

    → 소프트맥스

    →y

Untitled

출력, 정답이 최대한 같아지도록 BERT 레이어 전체를 포함한 모델 전체 업데이트

6-2 개체명 인식 모델 학습하기

6-3 학습 마친 모델을 실전 투입하기