Study/NLP 5

BERT Architecture (Transformer Encoder)

BERT BERT는 2018년 구글이 공개한 사전 훈련 모델이다. Transformer의 encoder 구조를 사용해 구현되었으며 약 33억 개의 텍스트 데이터로 사전 훈련되었다. 이전의 Embedding 방식에서는 다의어나 동음이의어를 구분하지 못하는 문제점이 있었고 이러한 문제의 해결책으로 BERT가 출현하게 되었다. 그럼 어떠한 방식으로 BERT가 문장의 문맥을 이해하고 단어를 표현할 수 있는지 알아보자. INPUT Wordpiece Tokenizer BERT에서는 subword tokenizer로 wordpiece tokenizer를 사용했다. 이는 자주 등장하는 단어 집합은 그대로 사용하고, 자주 등장하지 않는 단어의 경우, 더 작은 단위인 서브 워드로 분리하여 단어 집합에 추가한다. 실제로 세..

Study/NLP 2022.05.25

[NLP] Word2Vec : Skip-gram, SGNS(Skip-gram with Negative Sampling)

Word2Vec의 학습방식을 공부하고 남기는 노트 자료입니다. 상세한 설명은 [WikiDocs]딥 러닝을 이용한 자연어 처리 입문 에서 보면 좋을 것 같습니다. 먼저 CBOW(Continuous Bag of Words)의 구조는 넣지 않았습니다. Skip-gram을 이해하면 쉽게 이해할 수 있는 구조입니다. 학습방식을 사전에 충분히 숙지한 뒤 나중에 참고용으로 보면 좋을 것 같습니다.(는 내 얘기)

Study/NLP 2022.04.20

[NLP] Seq2Seq, Attention Algorithm Structure

Seq2Seq, sequence to sequence seq2seq는 두 개의 RNN을 encoder와 decoder구조로 연결하여 사용하는 모델이다. 이러한 encoder-decoder 구조는 입력 문장과 출력 문장의 길이가 다를 경우 사용한다. 번역(Translation) 텍스트 요약(Text Summarization) 음성 인식(SST, Speech to Text) Seq2Seq의 구조를 요약하여 그려보았다. 처음 접한다면 이 구조만 보고 이해하기 어려울 것이다. Seq2Seq 프로세스를 숙지하여 본다면 요약본으로 보기 좋을 것 같다. Input word(Iw) / Target word(Tw) / Predict word(Pw)는 내가 이해하기 쉽게 명칭을 적어놓았다.. Attention Model ..

Study/NLP 2022.04.10

[WikiDocs] 딥러닝 자연어 처리 입문 노트 정리, Part 2

해당 포스트는 [WikiDocs] 딥 러닝을 이용한 자연어 처리 입문 을 보고 공부하면서 이론 위주의 요약 및 정리한 내용을 담았습니다. 자연어를 어떻게 수치화 할 것인가? - 이산표현의 corpus 수치화 방법들 언어 모델 Language Model 다양한 단어의 표현 방법 국소 표현(Local) = 이산 표현(Discrete) 단어 그 자체만을 가지고 특정값을 매핑하여 단어를 표현 : Integer Encoding 분산 표현(Distributed) = 연속 표현(Continuous) 주변을 참고하여 단어를 표현 Part2에서 우리는 Local Representation에 대한 수치화 방법들을 알아볼 것 One Hot Vector 단어 개수가 늘어날 수록 벡터 차원이 너무 커져 비효율적 단어 간 유사성..

Study/NLP 2022.04.05

[WikiDocs] 딥러닝 자연어 처리 입문 노트 정리, Part 1

해당 포스트는 [WikiDocs] 딥 러닝을 이용한 자연어 처리 입문 을 보고 공부하면서 이론 위주의 요약 및 정리한 내용을 담았습니다. - 자연어의 이해 - 전처리 방법 텍스트 전처리 Text preprocessing 자연어는 데이터를 사용하고자하는 용도에 맞게 토큰화 / 정제 / 정규화 하는 일을 하게 됨 자연어 처리에서 전처리나 정규화의 지향점은 언제나 갖고 있는 corpus로부터 복잡성을 줄이는 것 Tokenization : 토큰화 Word Tokenization : 단어 토큰화 주어진 문장에서 token 이라고 불리는 단위로 나누는 작업 token 단위는 상황에 따라 다르지만 보통 의미있는 단위로 토큰을 정함 1) 구두점이나 특수 문자를 단순 제외해선 안됨 : $45 / 22-03-31 2) 줄..

Study/NLP 2022.04.05
반응형