Seminar

BOARD

[2019.12.04 - 이정호 석박통합과정] BERT4Rec : Sequential Recommendation with Bidirectional Encoder Representations from Transformer

Paper Review

작성자

관리자

작성일

2020-03-12 11:25

조회

7471

1. Topic

BERT4Rec , 추천시스템 , Sequential recommendation

2. Overview

최근 추천시스템 특히, Next item prediction 분야에서의 딥러닝을 활용 방법에대해서 설명한다. 세미나에서는 해당 분야의 발전이 딥러닝 이전의 Markov chain, Matrix Fatorization 과 같은 기존 방법과, RNN, 그리고 최근 주목받는 Transformer 와 BERT 방법론을 적용한 최신 기법을 비교한다.

기존 추천 방법론들은 대부분 이전 아이템 1~2개 정도의 정보를 기반으로 Next item을 예측해 냈으나, 데이터가 복잡해지고, 실시간으로 수집되는 많은(Dense)한 데이터셋 에서는 좋지 못한 성능을 보여주고 있다. Sequence의 많고 복잡한 데이터를 다루기위해, RNN 계열의 방법론으로 시작된 딥러닝 방법은 최근 Self-attention을 적용한 Transformer 로 Sequence의 다양한 아이템의 정보를 취합하여, 예측을 시행한다. 이 과정에서 병렬처리로 긴 Sequence 처리에 오랜 시간이 걸리지 않고, 매우 뛰어난 성능을 보여 주었다. Transformer 에서 단방향 학습이라는 단점을 해결하기 위해 BERT의 Masked language 방식을 차용해 왔고, 이는 더 많은 데이터 샘플링, 양방향정보를 결합하여 기존 방법에서 보다 나은 성능을 보여주었다.

실제 예측을 위해 Negative sampling 방식을 활용하였고, 이는 상대적 Score를 계산하던 기존의 추천시스템 방식과 유사하다.
추천시스템에서는 모델적인 부분의 개선과, 아이템의 복잡한 관계를 어떻게 임베딩할 것인가? Side infomation을 어떻게 활용할 것인가? 에대해 지속적인 관심이 있다. Graph 관련 임베딩이 가장 활용성이 높아 보이고 이를 결합한 연구를 앞으로도 진행해볼 계획이다.

3. 발표자료 및 발표영상

[1] 발표자료 (첨부파일 확인)

[2] ">발표영상

4. 참고문헌

[1] Fei Sun, Jun Liu, Jian Wu, et al. "BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer" ,In The 28th ACM International Conference on Information and Knowledge Management (CIKM ’19)

[2] Wang-Cheng Kang, Julian McAuley , et al. "Self-Attentive Sequential Recommendation" ICDM 2018

전체 11

Seungwan Seo

2020-03-16 17:17

BERT를 사용하여 아이템을 추천해주는 방법을 제안하는 BERT4REC에 대한 발표를 들었습니다. 평소에 크게 관심을 두고 찾아보는 분야는 아니지만, 스터디에서 이정호, 천우진 연구원들의 발표를 들으며 꾸준히 접하고 있는 분야입니다. 추천 시스템에서 사용하는 데이터가 sequential한 특성을 가지고 있다는 생각에 RNN-based model을 많이 차용하고 있는 추세였습니다. 이러한 흐름에 따라 BERT의 등장 후에 BERT를 활용하고자 하는 연구들이 많이 등장하고 있는 것 같습니다. 본 논문은 추천 시스템에 BERT를 처음으로 사용한 논문으로 알고 있고, 이 때문에 이후에 나올 논문들을 따라가기 위하여서는 반드시 읽어야 하는 논문이라고 생각합니다.
내가 마주한 task를 풀기위하여 다른 분야의 좋은 방법을 차용하는 것은 주변에서 익숙하게 찾아볼 수 있습니다. 예전에는 이러한 논문들이 좋은 논문이다 라는 생각을 하지 못하였으나, 최근에는 이러한 적용도 결국 평소에 여러 분야를 followup 하고 깊은 이해가 있어야 한다는 생각을 하고 있습니다.
본 논문이 매우 빠르게 나온 논문이기 때문에 어딘가 빈틈이 있을것이라 생각합니다. 이러한 부분에 관심을 가지고 연구를 한다면 좋은 기회가 될 것 같다는 생각을 하였습니다.
Junghoon Lee

2020-03-16 21:20

추천 시스템에 대해 정호형과 우진이형의 발표를 들으며 항상 많이 배우고 있습니다. 최근 다양한 분야에서 뛰어난 성능으로 주목을 받고 있는 transformer와 bert가 추천 시스템의 분야에서는 어떻게 사용되고 있는지 잘 알 수 있었던 발표였습니다.

transformer 구조가 자연어처리에서 뛰어난 성능을 보이는 이유에 대해 개인적으로는 양질의 unlabeled data를 많이 얻을 수 있어 대용량의 데이터를 쉽게 pretraining하기 좋다는 언어의 특수성 때문이라고 생각했습니다. 언어의 이러한 성질과 transformer의 구조가 시너지 효과를 내 좋은 성능을 내는 것이며 따라서 데이터가 희소한 추천 시스템과 같은 분야에 대해서는 극적인 효과를 얻기 힘들 것 같다는 생각을 해왔습니다.

하지만 본 연구를 통해 추천 시스템 분야에서도 transformer 구조가 굉장히 좋은 성능을 낸다는 것을 확인할 수 있었습니다. 본 논문에서는 비교적 적은 데이터만으로 masked language model을 이용해 사용자의 소비 sequence에 대하여 pretrain을 진행한 뒤 소비자가 가장 마지막에 이용하게 될 아이템에 대한 예측(finetuning)을 수행합니다. (엄밀히 말하면 pretrain과 finetuning이 아니지만 편의상 이렇게 표현했습니다.)

언어에서는 pretrain에 다량의 unlabeled data를 이용하고 finetuning에서는 이와 다른 소량의 labeled data 를 이용합니다. 반대로 본 논문에서는 pretrain과 finetuning에 동일한 (비교적 소량의)데이터를 이용했습니다. 그런데 성능이 굉장히 잘 나왔습니다. 이 말은 희소한 데이터에 대해서 단순히 transformer 구조를 차용한 것 만으로도 성능을 높일 수 있다는 이야기입니다.

추천 시스템과 transformer에 대한 여러 직관을 얻을 수 있는 발표였습니다. 만약 transformer를 이용해 추천시스템에 대한 연구를 이어간다면 모델의 구조에 대해 접근하면 어떨까 하는 생각을 했습니다. BERT4REC이나 SASRec같은 경우는 언어에서 이용한 구조를 거의 그대로 차용했습니다. 언어에서 이용한 구조들은 언어의 특징에 맞게 만들어진 것이기 때문에 추천 데이터의 특징을 살려 모델 구조를 조금 변경하면 어떨까 하는 생각을 했습니다.

추천 시스템에 사용되는 데이터는 언어와 달리 item의 수가 적습니다.(언어는 단어의 조합이 셀 수 없이 많으므로 character, sub-word, word 단위 등 단어(item)수를 임의로 조정함) 그리고 소수의 item이 dominant한 특징이 있습니다.(언어는 자주 등장하는 조사와 같은 단어는 덜 중요하고 조금 등장하는 단어는 의미적인 정보가 많다고 생각하는 경우가 많음(ex. TF-IDF)) 이러한 추천 시스템의 특성을 살려 모델 구조를 디자인하고 연구를 발전시킨다면 좋을 것 같습니다.
Heejeong Choi

2020-03-17 14:30

금일 발표는 “BERT4Rec: Sequenctal Recommendation with Bidirectional Encoder Representations from Transformer”이라는 BERT를 활용한 추천시스템 모델에 대한 리뷰였습니다. 해당 논문에서 제안하는 방법론은 transformer를 사용함으로써 기존의 RNN 기반의 추천시스템 모델의 단점인 long-term dependency 문제를 해결했습니다. 더불어 해당 방법론은 BERT의 bidirectional 특징을 기반으로 성능을 향상시켰고, 이를 실험을 통해 증명하기도 했습니다. 항상 추천시스템과 관련된 논문의 리뷰를 청취할 때 공통적으로 드는 생각이 input의 다양한 정보를 representation 하는 것이 굉장히 중요하며, embedding을 어떻게 하고 embedding된 정보를 어떻게 통합하느냐에 따라 다양한 모델들이 제안된다는 것이었습니다. 해당 논문 또한 NLP에서 좋은 성능을 보이는 BERT 모델의 representation을 이용해 성능을 높인 것을 보며, 추천시스템 모델에서 representation의 중요성을 다시 한 번 확인할 수 있었습니다. 또한, 이를 통해 NLP에서 좋은 성능을 보이는 또 다른 representation 방법들의 적용을 통해 새로운 추천시스템 모델을 제안할 수 있지 않을까하는 생각도 들었습니다.
Jonghyun Choi

2020-03-24 20:57

이번 세미나는 이정호 학우가 BERT를 Recommend System에 적용한 모델에 대한 세미나 였습니다. Transformer를 이용한 추천시스템은 기존의 RNN기반의 추천시스템의 단점인 Long-term dependency문제를 해결한 모델임을 알 수 있었습니다. 추천 시스템에서의 Transformer의 Input은 User당 소비한 item의 시퀀스를 입력으로하여 Self-Attention block을 거치게 됩니다. Transformer를 이용한 추천시스템의 학습은 Word2Vec의 Negative Sampling과 같이 Positive item은 높게 예측하도록 학습하고, Negative item은 낮게 예측하도록 학습합니다. BERT를 이용한 추천시스템은 BERT의 특징인 양방향(bi-directional)학습을 이용하여 성능의 향상을 꾀한 모델이었습니다. 추천시스템에서의 BERT또한 user당 item의 시퀀스를 가지고 MLM(Masked LM), NSP(Next Sentence Prediction) Task를 수행합니다. BERT4Rec을 이용하여 양방향 학습의 효과를 검증하였습니다.

이정호 학우의 세미나를 통해서 NLP분야에서 등장한 모델을 추천시스템이라는 분야에 적용하여 성능을 높인 BERT4Rec를 통해서 어떤 모델이 특정 분야에만 사용되는 것이 아니라 모델에 대한 입력 또는 접근 방법을 다르게 한다면 충분에 다양한 분야에서 사용될 수 있음을 알게 되었습니다.
Donghwa Kim

2020-03-25 14:35

RNN-CNN-selfAttention-BERT NLP를 따라가는 추천연구 동향을 알수 있었습니다. 기존 텍스트의 Transformer를 사용하였고 BERT(Encoder)+Transformer(Decoder)의 구조를 따라는것 같습니다. Sparse, Dense중에서 Dense데이터가 딥러닝을 적용하기 좋다는 흐름으로 이해하였고, 제가 알고 있는 기존 추천알고리즘 공모전을 봤을때 attention, Loss function 정의로 많이 발전되고 있는 것 같습니다.
Hyungseok Kim

2020-03-25 18:16

최근 발표자인 정호와 지난 우진이의 발표를 통해서 최근 추천시스템에 대해서 계속적으로 좋은 논문들을 소개받아 감사의 인사 전합니다. 금일 발표하신 BERT4rec은 어떻게 보면 NLP에서의 Language Modeling을 차용하여 다른 도메인(추천시스템)에서의 활용한 연구라고 생각됩니다. 아이템과 구매자를 Language Modeling을 통해 특정 vector 공간에 잘 표현하여 실제 다음 Sequence의 아이템을 예측한다. 아주 간단하고 명시적인 개념의 확장으로 본 논문을 잘 설계하였다고 생각됩니다. 또한, BERT와 같은 transformer에 대한 개념적인 설명도 본 세미나를 통해서 잘 들었습니다. Transformer모델이 제안된 모티브가 Unlabeled Corpus이지만 대량으로 학습하여 사용하자!였다면 본 논문에서는 제한된 크기의 session(아이템구매목록)내에서도 해당 Transformer 모델이 잘 작동하는 것이 인상적이었습니다. 실제 추천시스템의 경우에는 구매목록(session)의 길이가 구매자별로 다른 문제점이 존재합니다. 이로인해서, cold-start 문제가 발생하기도 합니다. 이러한 관점에서 봤을 때, 사전에 잘 학습(representation)된 아이템 space에 구매자를 잘 표현할 수 있는 few-shot learning 방법론을 이용하여 구매기록이 충분치 않은 구매자를 잘 표현하여 학습할 수 있다면, cold-start 문제도 해결할 수 있을지 않을까 하는 생각도 해보았습니다. 또한, 아이템은 시간의 흐름에 따라 그 사상된 공간이 상대적으로 정적이라면, 구매자는 구매 패턴의 변화(shift)가 발생할 수 있기 때문에, 이를 잘 캐치하여 이에 따른 장치가 있다면 좀더 정교한 추천시스템 모델링이 가능하지 않을까 하는 생각도 해보았습니다. 다시한번 장시간 발표를 진행한 정호에게 감사하다고 전합니다.
Joongmin Park

2020-03-27 14:23

Recommendation에 대하여 history와 milestone을 들을 수 있어서 좋았습니다. 현재 SOTA를 달성하는 모델에 대하여 발표를 하였는데 BERT 모델과 거의 흡사하였고, 이외에 추천에서 많이 사용하는 추가적인 기법인 negative sampling 사용 등이 있었습니다. masking 비율, hyper-parameter를 달리하며 여러 모델에 대해 많은 실험을 하였는데, 결국은 sparse하지 않은 데이터에 대해서는 의미있지만 sparse한 데이터에는 큰 의미가 없을 거라고 이해했고, 데이터의 정보가 많이 없기 때문에 결국 Factorized Markov chain과 같은 기존 방법들이 더 효율적이지 않을까 생각합니다.
Gyuwon Cho

2020-03-27 17:33

BERT 모델 구조를 추천 시스템에 활용하기 위한 BERT4Rec 논문에 대해서 이정호 석박통합과정의 세미나 발표를 들었습니다. 해당 논문은 2019 CIKM 에 accept 된 논문으로 알리바바에서 연구한 결과라고 합니다. 현재 추천 시스템에서는 Sequential Recommendation 이 가장 많이 연구 되고 있고, 오늘 세미나에서 발표를 들은 BERT4Rec 논문에서 사용한 모델이 현재 state-of-the-art 성능을 보여주고 있다고 합니다.

BERT4Rec 논문 이전에, SASRec(Self-Attentive Seqential Recommendation) 논문에서 Transformer 모델 구조를 적용한 연구가 있었는데 이 연구에서 기존에 가장 좋은 성능을 보이던 GRU 모델의 단점인 Long-Term 문제와 병렬 처리 문제를 해결 가능성을 보여주었고, BERT4Rec 논문에서는 SASRec 논문에서 더 발전된 형태로 양방향의 복잡한 관계를 표현 가능한 BERT 모델 구조를 추천 시스템에 적용하였다고 합니다.

기존 BERT 에서는 사용했던 next sentence loss 나 segment embedding 등을 사용하지 않았고, last item 만을 예측하면 되는 문제이기 때문에 masking 을 last item 에 대해서만 진행하는 등 차이점들이 있었습니다. 평가 metric 에 대해서도 MRR(mean reciprocal rank) 나 NDCG 등을 저는 처음 들어보았는데 rank 기반으로 평가 척도를 매길 때 사용하면 유용할 것 같았습니다. 추천 시스템에 대해서 잘 알지 못 했는데 연구 흐름을 들을 수 있어서 도움이 되었던 것 같습니다.
Youngbin Ro

2020-03-27 17:37

Transformer 및 BERT 구조를 활용한 추천시스템에 관한 논문 발표였습니다. 전통적으로 추천시스템에서 많이 사용되어 오던 Matrix Factorization 방법론은 transaction의 sequence 정보를 반영하지 못한다는 단점을 가지고 있습니다. 이를 해결하기 위해 RNN 계열의 모델들이 등장했지만 RNN의 선천적인 단점인 병목현상은 모델의 scalability를 저해하였습니다. 이에 대한 대안으로 자연어처리 분야에서 등장한 self-attention 기반의 모델들은 long-term dependency를 가져감과 동시에 병렬처리를 가능하게 한다는 장점이 있습니다. 이 개념을 추천시스템에도 적용한 것이 오늘 발표된 SASRec과 BERT4Rec 입니다. 개인적으로 발표를 듣고 self-attention 개념이 자연어, 비전은 물론 거의 모든 영역의 ML 에 적용되기 시작했구나라는 생각이 들었습니다. 처음 해당 분야 공부를 시작할 때에는 CNN과 RNN을 기반으로 지속적인 발전이 이어질 것이라고 생각했었는데 self-attention이라는 또 다른 알고리즘이 등장했고, 앞으로는 또 어떤 것이 이를 보완할지 궁금해졌습니다. BERT4Rec과 관련하여 training 시에는 masking prediction을 수행하고, testing 시에는 next item prediction을 수행하게 했다는 점이 기억이 남는데 이렇게 training과 testing의 objective가 달라도 좋은 성능을 내는 모델들이 많은 것 같아서 이와 관련된 연구를 찾아봐야겠다는 생각 또한 들었습니다. 전반적으로 추천 시스템에 대한 이해가 높아진 것 같아 좋은 세미나였습니다.
Wujin Cheon

2020-03-27 17:38

Recommendation 의 개인적으로 바라보는 연구분야에 대해 설명을 했는데, 저도 개인적으로 공부하고 있는 분야여서 이해하기 쉽게 잘 categorization하는 것 같아서 좋았습니다.
그리고 순차적으로 추천 시스템이 어떻게 발전되고 있는지, 현재 sota를 기록하고 있는 모델들의 특징이나 트랜드들을 잘 파악해서 설명해주어서 개인적인 연구 방향에도 도움이 되는 것 같았습니다.
BERT4REC의 구조를 설명하기 위해, transformer의 concept를 적용한 SASRec의 논문에 대한 설명도 추가적으로 해주었고, 각 단계를 step by step으로 이해하기 쉽게 설명해줘서 좋았습니다. 아이템 임베딩을 가져올 때, random하게 zero 값들로 치환해서 가져오는 방식으로 dropout을 진행한 점이 재밌었습니다.
Positive item들과 negative item들을 좀 더 잘 분리하기 위해 discrimminator의 입장에서의 loss를 추가하는 방향으로 개인연구를 선정했는데, loss 쪽에서 개선을 하려고 했던 관련 연구들을 못 본 것 같아서 참신하다고 생각했습니다.
Kyoungchan Park

2020-03-27 23:14

발표 주제가 무척 흥미로웠습니다. 요즘 다양하게 활용되고 있는 BERT 구조가 추천 시스템에서도 활용되고 있다는 것을 알게 되었습니다. 추천 시스템에서도 NLP와 마찬가지로 sequential data를 사용하기 때문에 BERT 구조를 적용하면 괜찮을 것 같다는 생각을 개인적으로 하였는데, 실제로 이에 관한 연구가 이미 이루어지고 있다는 것에 놀랐습니다.
NLP나 추천 시스템에 관한 연구를 접할 때 마다 하는 생각은 논리적 설계의 중요성입니다. 최근 각광 받고 있는 BERT를 비롯해 transformer나 self attention 등 영향력있는 연구들은 그 모델의 근간에 대한 논리성이 탄탄합니다. 기본이되는 논리적 설계가 탄탄하기 때문에 당연히 실험 성능 또한 잘 나올 수 밖에 없는 것 같습니다. 그런 의미에서 개인 연구에 관하여 논리적 설계를 꼼꼼히 잘 하고 계신 것 같습니다. 향후 아이디어가 더욱 구체화 되었을 때 그 실험 결과가 무척 기대되는 발표였습니다.

« [2019.12.04 - 노영빈 석사과정] How Multilingual is Multilingual BERT?

[2019.12.06 - 최종현 석사과정] Graph-based Summarization »

목록보기

전체 501

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10287	관리자	2020.03.12	0	10287
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 8899	관리자	2020.03.12	0	8899
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10012	관리자	2020.03.12	0	10012
498	New [Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables Sunghun Lim \| 2025.04.24 \| 추천 0 \| 조회 7	Sunghun Lim	2025.04.24	0	7
497	[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (3) Suyeon Shin \| 2025.04.21 \| 추천 0 \| 조회 39	Suyeon Shin	2025.04.21	0	39
496	[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (7) Woongchan Nam \| 2025.04.16 \| 추천 0 \| 조회 106	Woongchan Nam	2025.04.16	0	106
495	[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (9) Kiyoon Jeong \| 2025.04.16 \| 추천 0 \| 조회 194	Kiyoon Jeong	2025.04.16	0	194
494	[Paper Review] Reasoning over Time Series with LLMs (13) Hyeongwon Kang \| 2025.04.09 \| 추천 0 \| 조회 271	Hyeongwon Kang	2025.04.09	0	271
493	[Paper Review] Accurate predictions on small data with a tabular foundation model (16) Jaehyuk Heo \| 2025.04.02 \| 추천 0 \| 조회 267	Jaehyuk Heo	2025.04.02	0	267
492	[Paper Review] Reasoning and Reinforcement Learning for LLM (15) Jaehee Kim \| 2025.04.02 \| 추천 0 \| 조회 260	Jaehee Kim	2025.04.02	0	260
491	[Paper Review] LLM based Recommender Systems : EAGER-LLM (19) Jungho Lee \| 2025.04.02 \| 추천 0 \| 조회 244	Jungho Lee	2025.04.02	0	244
490	[Paper Review] Data-driven discovery of coordinates and governing equations (18) Hankyeol Kim \| 2025.03.25 \| 추천 0 \| 조회 241	Hankyeol Kim	2025.03.25	0	241
489	[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15) Sieon Park \| 2025.03.19 \| 추천 0 \| 조회 348	Sieon Park	2025.03.19	0	348

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호