분류 전체보기 32

[NLP] Seq2Seq, Attention Algorithm Structure

Seq2Seq, sequence to sequence seq2seq는 두 개의 RNN을 encoder와 decoder구조로 연결하여 사용하는 모델이다. 이러한 encoder-decoder 구조는 입력 문장과 출력 문장의 길이가 다를 경우 사용한다. 번역(Translation) 텍스트 요약(Text Summarization) 음성 인식(SST, Speech to Text) Seq2Seq의 구조를 요약하여 그려보았다. 처음 접한다면 이 구조만 보고 이해하기 어려울 것이다. Seq2Seq 프로세스를 숙지하여 본다면 요약본으로 보기 좋을 것 같다. Input word(Iw) / Target word(Tw) / Predict word(Pw)는 내가 이해하기 쉽게 명칭을 적어놓았다.. Attention Model ..

Study/NLP 2022.04.10

[WikiDocs] 딥러닝 자연어 처리 입문 노트 정리, Part 2

해당 포스트는 [WikiDocs] 딥 러닝을 이용한 자연어 처리 입문 을 보고 공부하면서 이론 위주의 요약 및 정리한 내용을 담았습니다. 자연어를 어떻게 수치화 할 것인가? - 이산표현의 corpus 수치화 방법들 언어 모델 Language Model 다양한 단어의 표현 방법 국소 표현(Local) = 이산 표현(Discrete) 단어 그 자체만을 가지고 특정값을 매핑하여 단어를 표현 : Integer Encoding 분산 표현(Distributed) = 연속 표현(Continuous) 주변을 참고하여 단어를 표현 Part2에서 우리는 Local Representation에 대한 수치화 방법들을 알아볼 것 One Hot Vector 단어 개수가 늘어날 수록 벡터 차원이 너무 커져 비효율적 단어 간 유사성..

Study/NLP 2022.04.05

[WikiDocs] 딥러닝 자연어 처리 입문 노트 정리, Part 1

해당 포스트는 [WikiDocs] 딥 러닝을 이용한 자연어 처리 입문 을 보고 공부하면서 이론 위주의 요약 및 정리한 내용을 담았습니다. - 자연어의 이해 - 전처리 방법 텍스트 전처리 Text preprocessing 자연어는 데이터를 사용하고자하는 용도에 맞게 토큰화 / 정제 / 정규화 하는 일을 하게 됨 자연어 처리에서 전처리나 정규화의 지향점은 언제나 갖고 있는 corpus로부터 복잡성을 줄이는 것 Tokenization : 토큰화 Word Tokenization : 단어 토큰화 주어진 문장에서 token 이라고 불리는 단위로 나누는 작업 token 단위는 상황에 따라 다르지만 보통 의미있는 단위로 토큰을 정함 1) 구두점이나 특수 문자를 단순 제외해선 안됨 : $45 / 22-03-31 2) 줄..

Study/NLP 2022.04.05

스마트팩토리 가공공정 불량예측 자료조사

제조 공정에서 센서와 머신러닝을 활용한 불량예측 방안에 대한 연구 제조공정 생산설비 16개 부위에 센서를 부착하여 데이터 수집 센서 위치는 제품 무게에 큰 영향을 미치는 부분을 반영하여 결졍 제품의 생산공정 데이터와는 별도로 제품의 불량 여부를 판별하기 위해 제품 무게도 센서를 사용하여 수집 PROCESS 데이터 전처리 상관관계 분석 변수 선택 모델링 -> 제품의 불량을 사전에 예측하기 위해 생산 설비의 중요 처리 부위에 센서를 부착하여 압력, 속도, 온도 등의 품질에 영향을 미칠 수 있는 데이터를 실시간으로 수집하였고 제품의 불량 여부를 판별하기 위해 제품의 무게를 자동으로 계측하는 센서 장비를 사용하여 무게의 변동계수를 종속 변수로 사용하였다. 사물인터넷 환경에서 제품 불량 예측을 위한 기계 학습 모..

[ML] Regularization : Lasso(L1), Ridge(L2)

Regularization 정규화 선형 회귀에서 우리는 Error를 줄이기 위해 SSE(Sum of Square Error)를 minimize 했다. $minimize SSE = \Sigma_{i=1}^{n}(y_i - \hat{y_i})^2 = \Sigma_{i=1}^{n}(y_i - w_0 -w_1x_i)^2$ 이러한 최적화 방법으로 우리는 주어진 데이터를 가장 잘 fitting 할 수 있는 모델을 학습하게 된다. 이후 새로 들어온 데이터가 우리가 가정한 추세선과는 멀리 떨어져 있다면 새로운 데이터에 대해 error가 매우 커질 것이다. 이런 문제는 우리가 만든 모델이 새로운 데이터를 잘 예측하지 못하는 variance Error(Large Coefficient)라고 할 수 있다. 즉, 주어진 데이터..

[ML] 앙상블(Ensemble) - Voting, Bagging, Boosting

기존의 단일 모델은 늘 bias-variance trade off의 문제를 벗어나지 못했다. 모델의 정확도를 올리고자 복잡한 모델을 만들면 과대적합의 우려가 생기고 이를 해결하려 모델을 단순하게 만들면 결국은 또 과소적합의 문제가 생기는 해결하기 어려운 문제점에 봉착한다. 이 말을 *bias와 *variance의 관점에서 다시 말하자면 모델을 과대적합하면 variance가 커지고 bias가 작아지며 모델을 과소적합하면 variance가 작아지고 bias가 커진다. (이게 왜 문제가 되는지는 bias-variance를 주제로 포스팅을 해보려고 한다.) 우리는 이러한 트레이드오프 문제에서 모델이 가장 좋은 정확도를 가질 수 있는 분산과 편향을 찾고 싶어 한다. 따라서 이러한 문제점을 해결하고자 앙상블 방법이..

[ML] Logistic Function - logit 변환

해당 포스트는 로지스틱 함수를 구하는 방법을 적어보려고 한다. 로지스틱 회귀분석에 대한 방법이 적혀있는 글은 아니다. 단지 기존의 회귀 식이 어떻게 로지스틱 회귀식으로 변형이 되는지 수식과 함께 천천히 풀어보려고 한다. Sigmoid Function 특징 Bounded : 0과 1 사이의 유한한 구간을 가짐 Differentiable : 미분 가능 Real Function : 실제 함수 Defined for all real inputs : 모든 Input에 정의 With positive derivative : 단조 증가 시그모이드 함수는 S자형 곡선을 갖는 수학 함수이며 로지스틱, 탄젠트 함수 등을 포함한다. 모든 점에서 음이 아닌 미분 값을 가지며 단 하나의 변곡점을 포함한다. 로지스틱 함수는 위와 같..

빅데이터분석기사 2회 실기 만점 : 문제 복원 및 파이썬 코드 리뷰

티스토리를 기술블로그로 사용하고 있기 때문에 빅분기 코드 리뷰를 옮기려고 합니다. 네이버 블로그에는 링크만 걸어둘 예정입니다. 그리고 블로그에 준비 어떻게 했냐는 질문이 있었는데 현업에서 파이썬을 다루고 있어서 따로 시간내서 공부하진 않았습니다. 시험 전날 사이트에서 미리 제공한 샘플 문제만 한번 풀어보고 기본적으로 사용할 사이킷런 모듈 몇개 외워갔습니다. 이제 진짜 2회 실기 문제 복원을 해볼텐데요. 밑에 제가 적어둔 주피터 파일을 공유하긴 할텐데 블로그에도 적어보겠습니다. 단답형 --- ## ***단답형*** --- *문제는 기억이안나서 답만 적음 (순서 상관x)* 1. 이상치 2. 평균대치법 3. 비지도학습 4. 부스팅 5. 그래디언트 부스트 - 그래디언트 부스팅인데 부스트라고 적어서 오답처리 될 ..

Certificate 2022.03.14

Maximum a Posterior Estimation (MAP)

해당 글은 [Edwith : 인공지능 및 기계학습 개론]의 문일철 교수님 강의를 참고한 내용입니다. CHAPTER 1. Motivations and Basics - 1.3 MAP 이전글 : 2022.03.14 - [Machine Learning/Statistics] - Maximum Likelihood Estimation(MLE)를 간단한 예시를 활용해 이해하기 : 수식 정리 Maximum Likelihood Estimation(MLE)를 간단한 예시를 활용해 이해하기 : 수식 정리 해당 글은 [Edwith : 인공지능 및 기계학습 개론] 문일철 교수님의 강의를 정리한 내용입니다. CHAPTER 1. Motivations and Basics - 1.2 MLE Thumbtack Question 압정을 던져..

Maximum Likelihood Estimation (MLE) - 간단한 예시를 활용해 수식 정리

해당 글은 [Edwith : 인공지능 및 기계학습 개론] 문일철 교수님의 강의를 정리한 내용입니다. CHAPTER 1. Motivations and Basics - 1.2 MLE Thumbtack Question 압정을 던져서 앞, 뒤 확률을 구할 때 구조적으로 50%, 50% 확률이라고 말하긴 어렵다. (동전은 앞뒷면이 똑같이 평평해 각 50%의 확률을 갖는다고 말할 수 있지만 압정의 모양을 생각해보면 쉽게 이해가 갈 것이다) 따라서 압정의 앞, 뒷면의 확률을 구하기 위해 여러 번 던져보자. 압정을 5번 던졌고 그중 3번이 앞면, 2번이 뒷면이 나왔다. 이때 우리는 앞면이 나올 확률이 3/5, 뒷면이 나올 확률이 2/5라고 말할 수 있을까? 압정 던지기 실험 시행 횟수 : 5번 앞면이 나온 횟수 : 3..

반응형