해당 포스트는 [WikiDocs] 딥 러닝을 이용한 자연어 처리 입문 을 보고 공부하면서 이론 위주의 요약 및 정리한 내용을 담았습니다. - 자연어의 이해 - 전처리 방법 텍스트 전처리 Text preprocessing 자연어는 데이터를 사용하고자하는 용도에 맞게 토큰화 / 정제 / 정규화 하는 일을 하게 됨 자연어 처리에서 전처리나 정규화의 지향점은 언제나 갖고 있는 corpus로부터 복잡성을 줄이는 것 Tokenization : 토큰화 Word Tokenization : 단어 토큰화 주어진 문장에서 token 이라고 불리는 단위로 나누는 작업 token 단위는 상황에 따라 다르지만 보통 의미있는 단위로 토큰을 정함 1) 구두점이나 특수 문자를 단순 제외해선 안됨 : $45 / 22-03-31 2) 줄..