BERT BERT는 2018년 구글이 공개한 사전 훈련 모델이다. Transformer의 encoder 구조를 사용해 구현되었으며 약 33억 개의 텍스트 데이터로 사전 훈련되었다. 이전의 Embedding 방식에서는 다의어나 동음이의어를 구분하지 못하는 문제점이 있었고 이러한 문제의 해결책으로 BERT가 출현하게 되었다. 그럼 어떠한 방식으로 BERT가 문장의 문맥을 이해하고 단어를 표현할 수 있는지 알아보자. INPUT Wordpiece Tokenizer BERT에서는 subword tokenizer로 wordpiece tokenizer를 사용했다. 이는 자주 등장하는 단어 집합은 그대로 사용하고, 자주 등장하지 않는 단어의 경우, 더 작은 단위인 서브 워드로 분리하여 단어 집합에 추가한다. 실제로 세..