[Paper Review] Deep Anomaly Detection With Outlier Exposure

Paper Review
작성자
Kyoungchan Park
작성일
2020-05-23 15:58
조회
9686
1. Topic

- Out of Distribution Detection

2. Overview

Out of distribution 데이터는 학습 데이터의 분포와는 다른 분포를 갖는 데이터를 의미한다. 분류 문제에서 out of distribution은 학습 데이터에 포함되지 않은 class를 가진 데이터를 의미한다. 예를들어 CIFAR-10을 분류하는 모델 입장에서 SVHN 데이터는 out of distribution이라고 할 수 있다. 이런 out of distribution 데이터를 탐지하는 것은 딥러닝 모델의 안정성에 있어서 굉장히 중요한 문제이다.

본 논문에서는 OE(Outlier Exposure)라는 방법론을 제안한다. OE(Outlier Exposure)는 문자그대로 학습 시에 out of distribution 데이터를 노출시켜 out of distribution 모델의 성능을 향상시키는 방법론이다. 실험을 통해 기존의 out of distribution 모델에 OE를 적용하였을 때 상당한 성능향상이 있는 것을 확인하였다.

3. 발표자료 및 발표영상

[1] 발표자료(첨부파일)

[2] ">발표영상

4. 참고 문헌

[1] Deep Anomaly Detection With Outlier Exposure, ICLR 2018.

[2] A Baseline For Detecting Misclassified And Out Of Distribution Examples In Neural Networks, ICLR 2017.

[3] Training Confidence-Calibrated Classifiers for Detection OOD Samples, ICLR 2018.
전체 14

  • 2020-06-05 17:13

    이번 세미나에서는 이상치 탐지를 위한 in domain , out domain을 구분하는 논문을 듣게 되었습니다. zero-shot learning의 차이가 뭔지 생각해봤을때, zero-shot learning은 학습하지않은 label or dataset에 대해 적용하여 classification task라고 하면, out of distribution은 one versus rest 같이 이게 학습에 사용된거냐 아니냐라는 OOD task로 정의되는 것 같습니다. 개인적으로 out of distribution이면 어떤의미를 가지는지에 대한 class로 실생활에서 필요하다고 생각됩니다.


  • 2020-08-03 17:50

    이번 세미나에서는 Out of Distribution(OOD) Detection과 Outlier Exposure에 대해 설명하고, Outlier Exposure를 통해 Out of Distribution Detection의 성능을 개선하는 방법에 대해 소개합니다. 우선적으로 학습 데이터의 분포를 In Distribution으로 정의하면 해당 분포를 따르지 않는 모든 데이터를 Out of Distribution 데이터로 간주합니다. 특히 Classification 관점에서는 학습데이터 이외의 Class를 가진 데이터를 OOD로 부르며 따라서 OOD는 학습데이터 관점에서는 없는 Label을 포함하고 있는 데이터가 됩니다. 하지만 In Distribution 데이터로 학습된 모델은 OOD 데이터를 적용하여 Inference 할 경우 학습 데이터에 맞는 Class를 할당하기 때문에 OOD 데이터를 탐지할 수 있는 능력이 없으므로 이러한 OOD 데이터를 탐지하는 것이 Out of Distribution Detection Task입니다.
    본 세미나에서는 이러한 관점에서 학습된 모델이 OOD 데이터에 대해 단순 Softmax 값을 Score로 산출하는 방식을 Baseline으로 제시하는 연관 논문을 소개하고, 모델의 학습 과정에 Outlier를 노출하여 성능을 향상시키는 방법을 소개합니다. 이 때 노출된 Outlier의 정답을 Uniform 분포로 하여 Classifier를 학습합니다. 해당 방법은 기존 방법에 대해서 간단하게 Outlier Exposure를 수행할 수 있다는 점에서 Contribution을 갖습니다.
    개인적으로는 처음 접해보는 분야인데, 발표자께서 기존 동향을 포함하여 세미나를 진행해 주시어 이해에 도움이 되었습니다. 감사합니다.


  • 2020-05-23 18:18

    오늘 발표는 Out of Distribution Detection 이라는 task에 대해 성능을 향상시키고자 하는 방법론에 대한 것이었습니다. task를 간단하게 정리하면, 학습된 데이터의 분포와 다른 분포를 가지는 데이터가 들어왔을때 이를 탐지하는 것입니다. 발표자가 이야기해주었지만 자율주행이나 의료 진료에 있어서 학습 데이터와 이질적인 것을 찾아내는 것이 중요한 분야가 있기 때문입니다. 어떻게 보면 anomaly detection과 같은 맥락이지만 클래스가 확장된 버전으로 볼 수 있을 것 같습니다. in distribution 데이터셋의 클래스들을 분류해내는 경계면을 잘 찾아내는 것도 중요하지만, out of distribution 데이터셋임을 걸러내는 것이 중요하다는 목적에서 시작된 연구입니다.
    기존에 anomaly detection뿐만 아니라 많은 분류 task에서 성능을 향상시키기 위해 data augmentation과 같은 방법을 사용해왔습니다. 그러나 이 task에서는 트레이닝 데이터와 유사한 데이터를 생성한다기보다는, out of distribution을 가지는 데이터셋을 추가하며, 이를 학습할때는 in distribution의 클래스를 랜덤으로 부여해서 학습을 합니다. 그렇게 함으로써 추가된 데이터들은, 특정 class에 높은 confidence를 가지지 않도록 만들어 줄 수 있고 in distribution 데이터의 경계면을 조금 명확하게 잡아낼 수 있게 된다는 논리입니다. 본 논문에서는 이러한 out of distribution 데이터를 추가하는 방법론에 대해서 세 특징을 강조하여 소개하고 있습니다. 처음 접하게 된 해당 분야에 대해 설명들을 수 있어서 좋았고, 추가적으로 공부해보며 흥미를 느꼈습니다. 다만 많은 분들이 질문하셨던 것처럼, 기존의 유사한 방법론들과 어떠한 차이가 있는지 명확하게 정리되면 좋겠다는 생각도 했습니다. 끝으로, 발표자의 아이디어들이 계속 발전해서 실험에 좋은 결과 있으면 좋겠습니다.


  • 2020-05-23 22:43

    이번 세미나는 박경찬 석박통합 과정의 Anomaly Detection에 관련된 발표였습니다.

    OOD detection은 in-distribution 데이터 셋(정상 데이터 셋)을 가지고 모델을 학습 시킨 후, 테스트 단계에서 Out-Of-Distribution(OOD) 데이터 셋(비정상 데이터 셋)을 찾는 문제를 말합니다. 본 논문은학습시킬 데이터(D_in)에 대해 Outlier Exposure데이터 (D_out_oe = OOD)를 추가하여 fine-tuning 시킴으로써 OOD detection의 성능을 높였습니다. 여지껏, 제가 알고 있던 Anomaly Detection과는 다른 분야라고 생각이 들었습니다.

    이번 세미나를 통해 기존의 OOD detection에 대한 방법론들을 알 수 있게 되어 좋았습니다. 또한 정상 sample의 class개수가 여러 개인 상황일 때의 Anomaly Detection을 OOD detection이라고 하는 것을 알게 되었습니다.


  • 2020-05-24 01:53

    금일 세미나시간에는 박경찬 석사과정이 Out-of-Distribution(OOD) Detection task를 해결한 “DEEP ANOMALY DETECTION WITH OUTLIER EXPOSURE(ICLR2019)”논문을 주제로 발표를 진행하였습니다. 여기서 OOD란? 현재 label을 알고 있고 해결하고자하는 데이터셋을 In-distribution 데이터라고 가정할때, 기존에 산정한 데이터셋이 아닌 레이블이 존재하지 않는 별도의 이상치데이터(Out-of-distribution)를 기존의 예측성능을 보존하면서 OOD데이터를 잘 걸러내는 것을 목표로 합니다. 따라서 기존의 예측성능을 위한 분류 loss에 추가적인 anomaly detector장치를 추가적으로 설계하여 수행되어져 왔습니다(기존 분류 목적식 + OE 목적식). 해당 논문에서는 이러한 OOD detector를 위한 별도의 보조데이터셋;Outlier Exposure (OE) Dataset을 활용하여 기존의 In-distribution 데이터와 함께 기존의 Outlier Exposure Loss로 알려진 OOD Maximum Softmax Probability, Confidence Branch, Synthetic Outliers를 독립적으로 적용하여 실험결과로 제시하였습니다. 다만 논문상에서 아쉬웠던 부분은 Outlier Exposure (OE) Dataset 을 어떻게 선정하고 이에 따른 결과의 차이를 같이 보여주어 가이드라인을 제시해 주었으면 하는 아쉬움이 있었습니다. 이는 실제로 해당 연구에서 OE 데이터셋을 어떻게 사용하였는지에 따라서도 결과의 양상이 달라질 수 있을 것 같다고 판단하였습니다. 또한 세미나발표자료에서 OOD-task에 대한 다양한 시각자료 혹은 예시와 함께 진행해주면 더 좋은 세미나자료가 되지 않을까 생각하였습니다. 마지막으로, 코로나로 인한 세미나 보류기간 가운데 갑작스럽게 오프라인으로 진행된 해당 세미나를 준비한 박경찬 발표자께 감사의 말씀 전합니다. ^^b


  • 2020-05-24 11:25

    오늘 발표는 Out of Distribution (OOD) Detection을 주제로 한 발표였습니다. OOD data란 학습 데이터의 분포를 벗어난 데이터를 의미하며, 쉽게는 사전 정의된 클래스 중 하나로 정의내릴 수 없는 새로운 클래스의 데이터로 이해할 수 있습니다. 최근 많은 딥러닝 연구들이 리서치를 넘어 실사용 시의 문제점들을 해결하려고 하는 경우가 많은데 OOD detection 또한 그러한 노력의 일환으로 느껴졌습니다. 오늘 다룬 논문은 Outlier Exposure (OE)라는 방법론을 제안하였습니다. OE는 기존의 OOD detection 방법론에 추가적으로 적용할 수 있는 기법으로, out-of-distribution으로 인식될 만한 데이터를 직접적으로 사용하여 어떤 데이터가 out-of-distribution 인지를 모델이 구별할 수 있게 합니다. 방법론 자체가 간단한만큼 실제 논문에서도 방법론 설명에 한 페이지도 할애하지 않고 있는 것이 기억에 남고, 그와 동시에 다양한 데이터 및 타 ODD detection 방법론에 관한 실험을 매우 intensive하게 진행했다는 생각이 들었습니다. 개인연구와 관련하여서는 anomaly detection과 OOD detection을 연결시킨 것이 신선했고, 세미나 때 나왔던 의견처럼 다양한 feature extraction 방법 및 거리 metric에 대한 실험을 진행해보면 좋은 결과가 있지 않을까 싶습니다.


  • 2020-05-24 23:52

    박경찬 석박통합과정의 세미나 발표를 들었습니다. 코로나 사태 이후 처음으로 진행하는 오프라인 세미나였는데 확실히 온라인 세미나보다 오프라인 세미나가 더 집중이 잘 되고 좋았습니다. 이번에 발표해주신 논문은 Outlier Exposure 를 적용해 Out Of Distribution(OOD) Detection 문제를 해결하고자 시도한 기존 방법론들에 간단하게 추가할 수 있는 새로운 방법론을 제시한 논문이었습니다. 먼저 발표 초반부에 기존의 OOD Detection 방법론인 MSP, Confidence Branch, BPP, GAN 방법들을 잘 설명을 해주셔서 발표하신 논문에 대해 이해하는데 많은 도움이 되었습니다. 이번 논문에 핵심은 기존에 존재하던 OOD Detection 방법론들에 Outlier Exposure 방법을 적용해 각 방법론들의 성능을 향상 시킬 수 있는 부가적인 방법으로 사용될 수 있음을 실험을 통해 보여준 것이었습니다. Outlier Exposure 를 적용시키는 간단한 방법은 모델 학습을 진행하는 과정에서 OOD Data를 함께 학습에 활용하여 OOD Detection 의 성능을 높이는 방법으로 간단하게 적용 가능하다고 합니다. 개인적으로 직접 코드를 짜서 위 논문에 제시된 방법론을 적용한 모델을 학습하고자 한다면 클래스 개수 설정, Mini-Batch 구성, D_in / D_out 데이터 학습 순서 등도 영향을 미칠 수 있을 것 같아서 세미나 중에 질문을 드렸는데 잘 답변을 해주셔서 감사합니다. 개인연구 잘 마무리하셔서 좋은 연구 결과물 얻으시면 좋겠습니다. 발표 잘 들었습니다. 감사합니다.


  • 2020-05-25 09:58

    가지고 있는 셋에서 out of distribution (OOD)를 찾는 연구에 관한 세미나였습니다. 세미나를 들으면서 OOD를 탐지하는 것이 중요한 문제이고 꼭 해결해야하는 문제라는 생각이 들었습니다. 세미나에서 발표한 논문에서는 기존의 방법론들에 새로운 D_out_OE 를 추가하여 성능을 높이는 방식을 제안하였습니다. 이를 온전히 이해하기 위해서는 기존의 방법론들이 어떤식으로 OOD를 탐지하는지에 대한 이해가 필요하였습니다. 발표중에 설명을 해주셨지만 처음 듣는 입장에서 이를 완전히 이해하고 받아들이기에는 어려움이 있었습니다. 세미나 중에 이해를 잘못하여 D_out_OE에 대하여 저자들의 생각과 전혀 다른 방향으로 질문을 하였으나 다시 논문을 살펴보니 D_out_OE를 추가하는 아이디어는 매우 직관적이고 합리적임을 알 수 있었습니다.
    Novelty detection을 꾸준히 연구하고 있는데, 매번 될 수밖에 없어 보이는 아이디어를 제안하고 실험을 하는데 baseline을 이기지 못하여 보는 입장에서도 아쉽습니다. 곧 좋은 결과를 얻을 수 있을 것이라 생각합니다!


  • 2020-05-25 14:05

    이번 세미나는 갖고 있는 데이터에서 제시하는 class 외의 다른 class가 outlier가 되지만 이러한 out of distribution에 대한 분류 성능을 높이는 방법을 연구하고 있습니다. 기존의 OOD 방법론(MSP, BPP, GAN 등)에 대한 설명을 들어 이해를 도울 수 있었고, 기존에 알고 있던 Anomaly detection과 연결해서 이해를 할 수 있었던 세미나였습니다.
    또한 기존의 연구들은 비젼, 텍스트 등등 한 분야의 데이터를 정해 그 분야에서의 성능을 높이는 연구에 치중했다면, 이미지/ 텍스트 데이터 중에 어떤 데이터에 더 잘 적용하는지 알수 있다는 것이 이번 세미나의 contribution 이었는데 이 부분이 참신했습니다.
    D_out_OE를 추가해 학습하는 것은 직관적인 아이디어이지만 이번 세미나를 통해 직관적인 아이디어를 풀어서 녹여내는 방법에 대해서도 생각해볼 수 있었습니다. 여러가지 시사점을 주는 세미나를 들을 수 있어서 감사합니다.


  • 2020-05-25 14:16

    평소에 관심이 많았던 OOD detection에 대한 세미나를 들었습니다. OOD detection은 학습 데이터가 특정 확률분포를 형성해 해당 분포 안에 있는 데이터를 In-distribution Data라고 가정한 뒤 학습 데이터와 다른 이질적인 데이터를 해당 분포에서 벗어난 Out-of-distribution data라고 정의하고 이를 탐지하는 일종의 이상치 탐지 방법론중 하나입니다. 해당 세미나에서 소개한 논문은 학습 당시에 Out-of-distribution 데이터를 모델에 노출시키는 일명 Outlier Exposure이라는 방법을 사용합니다. 기존의 OOD detection 방법들이 주로 목적함수를 새롭게 디자인했던 것과 달리 해당 논문은 데이터셋의 구성을 새롭게 디자인하는 것만으로도 성능을 높일 수 있다는 점을 보여줍니다. 논문에서 흥미로웠던 점은 OOD data를 학습 데이터와 유사하게 가져갈수록 모델의 OOD 탐지율이 높아진다는 것입니다. 논문의 예시와 같이 natural한 이미지를 대상으로 OOD detection을 수행할 때는 유사한 OOD data를 쉽게 구할 수 있겠지만 공정 데이터와 같이 실제로 이상치 탐지가 많이 필요한 분야에서는 in-domain distribution data와 유사한 OOD data를 구하기 힘들지 않을까 라는 생각을 했습니다.


  • 2020-05-25 17:50

    오늘 세미나에서 박경찬 석박통합과정의 Anomaly Detection 발표를 잘 들었습니다.
    이번 세미나에서 발표하신 논문은 OOD와 관련된 논문입니다.
    OOD(Out of distribution)을 인식할 수 있는지에 대한 여부를 확인하는 실험이었습니다.
    Out-of-distribution(OOD) Detection은 현재 보유하고 있는 In-distribution 데이터 셋을 이용하여 multi-class classification network를 학습시킨 뒤, test 단계에서 In-distribution test set은 정확하게 예측하고 Out-of-distribution 데이터 셋은 걸러내는 것을 목표로 하고 있습니다.
    발표하신 논문은 학습 당시에 Out-of-distribution 데이터를 모델에 노출시키는 Outlier Exposure이라는 방법을 사용합니다.
    기존 OOD Detection 방법론인 MSP, Confidence Branch, BPP, GAN 등에 오늘 소개한 논문인 Outlier Exposure 라는 방법론을 적용했을 때 Outlier Exposure를 적용시키는 것만으로 기존의 방법론의 성능을 향상시킬수 있다는 것을 확인할 수 있었습니다.


  • 2020-05-26 19:20

    일반적으로 정해져 있는 Task가 아닌 Out of distribution으로 들어온 Data에 대해 모델은 탐지하지 못합니다. 이에 여러 관련 파생 연구분야가 있고 박경찬 학우는 OOD Detection의 방법론에 대해 발표하였습니다. 개인적으로 기존 Task 이외에도 다른 데이터 분포를 탐지하는 함으로써 실제 현실적으로 도처해 있는 문제이고 적용 분야도 매우 크다고 생각합니다. 이번 세미나에서 발표한 OOD Detection의 여러 방법론에 적용할 수 있는 Outlier Exposure는 기존의 In-distribution 데이터로 모델을 학습하고, 연구자가 정의한 전혀보지 못하고 다른 분포를 가진다고 생각하는 Out-of-distribution 데이터를 추가로 학습함으로 인해 OOD Detection의 성능이 높아지는 것입니다. 특히 Out-of-distribution 중에 기존 데이터 분포와 유사하지만 다른 분포일수록 OOD Detection의 성능이 높아지는데 저의 개인연구 중의 Meta learning 샘플링 방식의 트릭 부분과 개념은 일맥상통하다고 생각하였습니다. 다른 분포의 데이터를 추가적으로 모델을 고도화하여 OOD Detection 향상을 하는 것을 보면 딥러닝 모델의 무궁무진함은 대단한 것 같습니다.


  • 2020-05-29 21:20

    이번 세미나는 Deep Anomaly Detection with Outlier Exposure를 주제로 세미나가 진행되었습니다. OOD는 out of distribution을 뜻하는데, 학습된 분포를 따르지 않는 분포를 OOD라 칭합니다. 우리가 흔히 알고있는 Anomaly detection에서 비정상 데이터를 골라내는 것도 중요하지만, real-world에서는 Unkown class에 대해 detect하는 OOD도 굉장히 중요하며, Anomaly detection의 확장된 연구라는 생각을 했습니다.

    소개해주신 논문은 Outlier exposure라는 방법론을 사용하여 OOD를 탐지합니다. 이는 OOD 데이터를 학습에 노출시키는(학습에 사용)하는것이며 세미나에서는 온전히 이해하지 못해 추가적인 질문을 통해 아래와 같은 결론을 도출했습니다. (늦은시간에도 친절히 답해주셔서 감사했습니다!)
    1) OOD의 목적은 indomain이냐 outdomain이냐 판단하는것
    2) indomain과 outdomain를 판단하는 classifier를 robust하게 만들기 위해 Auxiliary dataset을 생성하여 학습에 도움을 줌 (이를 OE라 칭하며, 학습시 Unkown이라는 label을 부여하여 학습함)
    3) test는 학습에 사용했던 indomain dataset / Auxiliary dataset과 완전히 다른 데이터셋으로 실험함
    기존의 OOD 방법론에 OE를 추가하는것만으로도 성능이 좋아질수있다는점이 놀라웠고, OOD detection에 대해 알아갈 수 있는 좋은 기회였습니다.


  • 2020-06-03 22:04

    금일 발표는 "Deep Anomaly Detection with Outlier Exposure"라는 주제로 진행되었습니다. 본 발표에서는 학습 데이터의 분포와는 다른 분포를 갖는 데이터를 의미하는 out of distribution (OOD)를 탐지하는 방법론에 대해 다루었습니다. OOD detection에 대한 다양한 방법론 중 Outlier Exposure (OE)라는 방법론에 대해 설명하였습니다. OE는 학습 과정에서 OOD 데이터를 노출시켜 OOD detection 성능을 향상시키는 방법론으로 기존의 OOD 탐지 방법론들에 간단하게 적용하여 성능을 향상시킬 수 있는 방법론입니다. 저희 연구실 세미나에서 OOD와 관련된 방법론은 처음으로 발표된 것 같은데, 현실 세계에서 중요한 부분에 해당하는 OOD 탐지에 관련하여 자세하게 들을 수 있는 발표여서 유익한 시간이었습니다.


전체 553
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 14628
관리자 2020.03.12 0 14628
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 13396
관리자 2020.03.12 0 13396
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 14339
관리자 2020.03.12 0 14339
50
[Paper Review]Open Information Extraction (Open IE) (12)
Youngbin Ro | 2020.06.09 | 추천 0 | 조회 6841
Youngbin Ro 2020.06.09 0 6841
49
[Seminar]Mel Frequency Cepstrum Coefficient (12)
Donghwa Kim | 2020.06.05 | 추천 0 | 조회 6453
Donghwa Kim 2020.06.05 0 6453
48
[Paper Review] Defense-GAN (14)
Seungwan Seo | 2020.06.03 | 추천 0 | 조회 4560
Seungwan Seo 2020.06.03 0 4560
47
[Paper Review] ReMixMatch & FixMatch : Consistency-based Semi-supervised Learning Methods (14)
junghoon lee | 2020.05.29 | 추천 0 | 조회 8377
junghoon lee 2020.05.29 0 8377
46
[Paper Review] Transformer to T5 (XLNet, RoBERTa, MASS, BART, MT-DNN,T5) (13)
Yukyung Lee | 2020.05.25 | 추천 0 | 조회 14959
Yukyung Lee 2020.05.25 0 14959
45
[Paper Review] Deep Anomaly Detection With Outlier Exposure (14)
Kyoungchan Park | 2020.05.23 | 추천 0 | 조회 9686
Kyoungchan Park 2020.05.23 0 9686
44
[Paper Review] Scheduled sampling for one-shot learning via matching network (15)
Joongmin Park | 2020.05.19 | 추천 0 | 조회 4085
Joongmin Park 2020.05.19 0 4085
43
[Paper Review] Question Generation with BERT, GPT2 (12)
관리자 | 2020.03.13 | 추천 0 | 조회 6173
관리자 2020.03.13 0 6173
42
[Paper Review] Graph-BERT : only attention is needed for learning graph representations (10)
관리자 | 2020.03.12 | 추천 0 | 조회 6877
관리자 2020.03.12 0 6877
41
[Paper Review] Single Document Summarization & Graph Attention Networks (13)
관리자 | 2020.03.12 | 추천 0 | 조회 3657
관리자 2020.03.12 0 3657

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호