분류 전체보기 32

[Prod2vec] E-commerce in Your Inbox : Product Recommendations at Scale

E-commerce in Your Inbox : Product Recommendations at Scale 해당 논문은 사용자의 구매내역(email receipt)을 활용하여 Yahoo 사용자에게 개인화된 광고 메일을 발송하려고 한다. 각 email receipt는 특정 시점에 발생하는 구매내역이며 각 구매내역에는 여러개의 상품이 포함되어 있다. 각 item의 embedding vector를 잘 representation하여 사용자에게 개인화된 추천 상품을 노출시키고자 하는 것이 해당 논문의 목적이다. 이 논문에서는 구매 sequence를 활용하여 item embedding vector를 얻는다. Meta-Prod2vec을 공부하며 추가적인 개념으로 읽은 논문이라 prod2vec에 관한 내용만 적어보았다..

Potential Outcomes Framework

Potential Outcome Framework (Rubin's Causal Model) 이전 글 : 2023.02.05 - [Recommender System/Causal Inference] - Causal Inference 인과추론 design based approach의 핵심 앞서 작성한 글에서 Design-Based Approach은 treatment를 정의하고 두 가능한 결과를 대조시킴으로써 효과를 추정할 수 있다고 말했다. 따라서 연구 대상에 행해질 수 있는 구체적인 처치(treatment)를 정의할 수 없다면 그것의 인과적인 효과나 측정을 정의할 수 없다. 인과추론을 위해서 중요한 것은 빅데이터나 복잡한 통계 모형이 아니고 데이터를 모으기 전에 연구자가 얼마나 적절한 연구 디자인을 고안했는..

Causal Inference 인과추론

인과 추론(Causal Inference)이란? 기계학습 관점에서 우리는 "고객이 상품을 구매할 것인가?"를 궁금해왔다. 따라서 구매라는 결과 변수와 연관성이 있는 다양한 특성 변수를 활용하여 고객의 구매 여부를 예측해왔다. 하지만 이러한 예측 모델에서 얻은 결과로 고객의 '구매 의도'를 파악하긴 어렵다. 고객이 구매하기까지 관측된 현상으로 구매 여부를 예측한 것이기 때문에 예측에 활용된 특성 변수들이 고객이 상품을 구매하게 되는 원인이라고 볼 순 없다. 즉, 구매 원인이 아닌 구매하기 전에 나타나는 현상을 활용한 것이다. 따라서 우리는 구매 원인을 알 수 없기 때문에 고객의 구매율을 높이기 위해 어떠한 조치를 취해야 하는지 알 수 없다. 인과추론에서는 "고객이 왜 구매하는가?"를 궁금해한다. 따라서 고..

컨텐츠기반 추천시스템(Content-Based Recommender System)

앞선 "추천시스템이란?" 포스팅에서 각 알고리즘에 간략하게 설명을 적어보았다. Contents-based Recommender System (컨텐츠 기반 추천 시스템) - 사용자가 과거에 좋아했던 아이템을 파악하고, 해당 아이템과 비슷한 아이템을 추천해준다. - 간단하게 예를 들어 사용자가 과거에 스파이더맨과 아이언맨을 즐겨보았다면 타이타닉보다는 캡틴 아메리카를 추천해 줄 것이다. 즉, 위와 같은 예시는 스파이더맨, 아이언맨이 타이타닉보다 캡틴 아메리카와 더 유사하다는 결론에서 나온 결과이며 아이템끼리의 유사도를 구하는 것이 컨텐츠 기반 추천시스템의 목적이라고 볼 수 있다. 이러한 컨텐츠기반 추천시스템의 목적을 다시 한번 상기시키고 좀 더 상세하게 알아보도록 하자. 컨텐츠기반 추천 시스템이란? 정보검색(..

추천시스템이란?

추천시스템은 개발자뿐만 아니라 실제로 많은 사용자들이 잘 알고있는 영역이다. 우리가 쇼핑을 할때나 유튜브를 볼때 등 이미 실생활에서 많은 추천 시스템을 경험하고 있다. 유튜브에서 내가 먹방 콘텐츠의 영상을 여러개 보았다면 이후에 내 피드에는 먹방과 관련된 영상이 뜨게 된며 패딩이 사고 싶어서 쇼핑앱에서 패딩을 검색해 보았다면 이후 더 다양한 패딩 제품이 나를 구매로 이끌기도 한다. 요즘같은 시대에 인터넷에는 너무나 많은 정보가 있다. 많은 정보는 사람들에게 유익하지만 그만큼 내가 원하는 특정한 정보만을 찾기 힘들게 만들기도 한다. 따라서 추천 시스템은 사용자가 정보를 수집하고 찾는 시간을 줄여주는 것이 목적이다. Pull Information과 Push Information 검색서비스(Pull Infor..

BERT Architecture (Transformer Encoder)

BERT BERT는 2018년 구글이 공개한 사전 훈련 모델이다. Transformer의 encoder 구조를 사용해 구현되었으며 약 33억 개의 텍스트 데이터로 사전 훈련되었다. 이전의 Embedding 방식에서는 다의어나 동음이의어를 구분하지 못하는 문제점이 있었고 이러한 문제의 해결책으로 BERT가 출현하게 되었다. 그럼 어떠한 방식으로 BERT가 문장의 문맥을 이해하고 단어를 표현할 수 있는지 알아보자. INPUT Wordpiece Tokenizer BERT에서는 subword tokenizer로 wordpiece tokenizer를 사용했다. 이는 자주 등장하는 단어 집합은 그대로 사용하고, 자주 등장하지 않는 단어의 경우, 더 작은 단위인 서브 워드로 분리하여 단어 집합에 추가한다. 실제로 세..

Study/NLP 2022.05.25

[Paper] Detection and Segmentation of Manufacturing Defects with Convolutional Neural Networks and Transfer Learning

[Paper] Detection and Segmentation of Manufacturing Defects with Convolutional Neural Networks and Transfer Learning 사실 이미지 관련, 특히 object detection은 내가 해오던 분야가 아니라 지식이 많이 부족한편이다. 최근에 회사에서 object detection에 관한 과제가 생겼고.. 또 하필 세미나를 내가 맡아서 여기저기 찔러보는 공부 중 스마트팩토리를 메인으로 제조 기반의 Detection을 수행하게 되어 casting detection을 수행하는 해당 논문을 읽어보았다. 글을 뭐 어떻게 써야할진 잘 모르겠지만 내가 읽으면서 정리한 내용을 위주로 적어보려고 한다. Introduction 일반적인 ..

Study/CNN 2022.05.06

Fast R-CNN 이론 노트 정리

Fast R-CNN을 간단하게 구현해야할 과제가 있어 급하게 공부해본 이론 이미지처리 지식이 CNN 기본알고리즘에서 끝나버린지 오래라 요번에 알아보면서 참 새로운 방법론들이 많이 나왔구나 했다. 물론 이 알고리즘도 구작이겠지만 ... 참고 블로그가 해당 논문을 너무 잘 설명해줘서 다른 사이트를 참고할 필요가 없었다. 참고 논문 : Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 참고 블로그 : Faster R-CNN 논문(Faster R-CNN: Towards Real-Time ObjectDetection with Region Proposal Networks) 리뷰

Study/CNN 2022.05.05

Mac에서 가상환경 설치하고 window 사용하기

Mac에서 가상환경 설치하고 window 사용하기 Mac 사용 시 윈도우를 사용할 수 있는 방법을 소개해보려고 한다. 출근할땐 윈도우를 사용하고 재택할때 맥북을 쓰는데 ppt, word, excel 작업할 일이 많아서 꽤 불편했다. 지금까지는 웹으로 접속해서 office를 사용했는데 하다보니 성질머리가 드러워지는 것 같아서 가상환경 설치하고 윈도우를 사용하는 방법으로 바꿨다... 먼저 윈도우 사용하는 방법은 아래와 같이 있다. [Mac에서 윈도우를 사용하는 방법] Bootcamp Parallels Vmware Virtualbox 비용 유료 유료 유료 무료 장점 하드웨어 성능을 온전히 사용할 수 있음 맥과윈도우를 동시에 병행사용가능 단점 맥이나 윈도우 둘중에 하나로만 부팅하기에 OS간 전환이 느림 M1 맥..

[NLP] Word2Vec : Skip-gram, SGNS(Skip-gram with Negative Sampling)

Word2Vec의 학습방식을 공부하고 남기는 노트 자료입니다. 상세한 설명은 [WikiDocs]딥 러닝을 이용한 자연어 처리 입문 에서 보면 좋을 것 같습니다. 먼저 CBOW(Continuous Bag of Words)의 구조는 넣지 않았습니다. Skip-gram을 이해하면 쉽게 이해할 수 있는 구조입니다. 학습방식을 사전에 충분히 숙지한 뒤 나중에 참고용으로 보면 좋을 것 같습니다.(는 내 얘기)

Study/NLP 2022.04.20
반응형