2018 대한산업공학회 춘계학술대회 - 정재윤

대한산업공학회
작성자
관리자
작성일
2020-03-12 13:25
조회
687
발표 후기

2018 춘계학술대회에서는 현대자동차와 함께 진행한 프로젝트인 머신러닝 및 텍스트마이닝 기반의 VDS 고객불만 분석 기법 개발에 관하여 발표하였다.
미국 JD Power사에서는 매년 전세계 자동차를 대상으로 VDS(Vehicle Dependability Study)를 시행한다. 이 조사는 출고된지 3년 된 차량을 대상으로 진행하며, 객관식과 주관식 문항으로 이루어져 있다. 주관식 문항에 대해서는 현재 엔지니어가 하나씩 확인하며 소비자 의견을 분석하고 있는 상황이다. 다수의 차량 이용자를 대상으로 하는 설문인 만큼, 효율적인 텍스트마이닝을 통한 고객불만 분석이 필요하다.
이에 본 연구에서는 전처리한 주관식 문항을 distributed representation 방법론 중 하나인 Doc2Vec을 사용하여 임베딩하였다. 길이가 너무 짧아서 정보가 없는 문장을 제거하고, 벡터로 표현된 문서에 이상치 탐지 기법 중 하나인 LOF(Local Outlier Factors)를 적용하여 이상 문서를 추출하였다. LOF가 일반 이상치 탐지 방법론들과는 다르게 거리에 더해 밀도까지 고려하는 장점이 있기 때문에 정성적으로 평가했을 때 더 나은 결과가 나오는 것을 확인할 수 있었다. 실제로 이상 문서와 무작위 문서에서 TF-IDF 기준 상위 단어들을 추출한 결과 80%가 unique한 단어들이 나왔으며, 이를 특이 키워드로 설정하였다.
여기에 키워드 및 관계도 분석을 위해 카테고리 별, 특이단어 별 co-occurrence 그래프를 생성하였다. 특이단어와 가장 많이 등장하는 상위 5개 단어를 1-step word라고 지칭하였으며 1-step word들과 가장 많이 등장하는 각각의 상위 5개 단어들을 2-step word로 설정하였다. 이후 특이 단어, 1-step, 2-step word 모두 등장하는 문장도 같이 추출하여 사용자가 핵심 문장을 쉽게 파악할 수 있도록 하였다. 두 번째로는 특이 문서에 N-gram을 사용하여 추출한 구(phrase)를 가지고 거리 기반 그래프를 생성하였다. 구에 대한 임베딩 값과 핵심 단어에 대한 임베딩 값을 가지고 가장 거리가 가까운 핵심 구를 추출하였다.
발표 후 “이상 문서”에 대한 정의에 관한 질문이 매우 날카롭게 들어왔다. 사실 프로젝트를 진행하면서 가장 헷갈리던 부분이 데이터 사이언티스트 입장에서는 결과물들의 정성적 평가가 어려웠다는 점이다. 해당 분야 전문가와의 의사소통이 굉장히 중요하다는 점을 다시 한 번 느낄 수 있었던 부분이기도 했다.

청취 후기

Semi-supervised Learning with End-to-end Graph Convolution – 고려대학교
그래프 기반 준지도학습(Graph based Semi-supervised learning)에 graph convolution을 활용한 연구였다. 기존 graph convolution은 graph representation 자체와 데이터의 구조를 prior로 설정한다는 한계점이 있다. 또한 domain knowledge가 없다면 일반적인 준지도학습으로 확장하기가 힘들다. 발표에서는 먼저 edge를 k-NN을 사용하여 생성하고 weight는 가우시안 커널을 사용하여 정해주었다. 이후 graph convolution을 사용하여 레이블이 달려 있는 데이터에 대해서만 inference를 한 후 loss를 최소화하는 방향으로 학습하였다. 구조 자체가 end-to-end에다가 역전파를 통한 edge weight 학습이 가능하다. 준지도 학습에 convolutional layer를 적용하는 방법론은 처음 듣는 분야라서 매우 흥미롭게 들었다. 아쉬운 점이라면 기존 graph convolution 방법보다 조금 더 나은 성능을 보여주기는 했지만 다른 그래프 기반 준지도학습 방법론에 대비하기에는 아직도 살짝 부족한 듯한 실험 결과였다.

다목적 특징 선택을 통한 반도체 제조 공정에서의 불량 탐지 방안 – 한양대학교
보통 공정에 달려있는 센서 데이터를 가지고 반도체의 양/불량을 탐지한다. 하지만 모든 센서의 특정 값을 사용하면 이를 판단하는데 시간이 너무 오래 걸리므로 효율적인 불량 탐지 기법이 필요하다고 한다. 발표에서는 다양한 유전 알고리즘을 활용하여 필요 센서만 선택하는 방법론을 제시하였다. 일단 목적식을 불량 탐지 성능의 최대화, 특징 집합의 크기 최소화 그리고 프로세스 시작을 최대한 빠르게 시작하는 것으로 설정하였다. 이를 적응형/엘리트 유전 알고리즘을 사용하여 결과값을 비교하였다. 결과적으로는 적응형 유전 알고리즘이 가장 적은 수의 센서를 선택하여 효율적이라고 한다. 유전 알고리즘을 feature selection 방법론으로 사용했지만 다른 방법론과의 비교가 없는 부분이 조금 아쉬웠다. 간단히 step-wise selection정도만 추가하여 비교했으면 더 탄탄한 흐름이 되지 않았을까 싶었다.

반도체 설비 Sensor Data의 거리 기반 Pattern 분석 방법론 - SK하이닉스
삼성 프로젝트를 해본 경험 때문인지 반도체 관련 발표임에도 이해하기 더 쉬웠다. 반도체 생성 공정에서 전체 웨이퍼 데이터를 확보할 수 있는 것 중 하나가 FDC(Fault Detection and Classification)이다. 이는 그 전 발표인 유전알고리즘을 사용한 부분처럼 센서 데이터를 의미한다. 이러한 센서 데이터를 사용하여 정상 웨이퍼의 FDC 데이터로 base pattern을 만들고 불량 웨이퍼가 벗어난 정도를 수치화하는 간단한 아이디어로 이상 parameter를 검출하였다. 지금 연구실에서 보고 있는 웨이퍼 데이터도 엔지니어마다 해석이 매우 다르다. 삼성 프로젝트를 진행했을때도 처음 받았을 때는 대체 레이블이 왜 다른지 이해가 가지 않는 웨이퍼들도 많았는데 이는 엔지니어들의 해석이 개인마다 굉장히 다를 수 있기 때문이었다. 이 때문에 실제 공정 데이터에 여러가지 알고리즘을 적용할 때 주의해야한다. 이에 더해 음성 인식 분야에서 사용하는 DTW 거리 알고리즘으로 FDC 패턴 간 거리에 따라 불량 발생과 상관있는 parameter 검출 방법에 대한 설명도 들었다. 발표 도중 제품에 대한 상세한 분석 결과까지 굉장히 자세히 설명 해주셔서 매우 놀라웠다. 제품군이 낸드플래시인 것 뿐만 아니라 데이터도 상세히 나와있었다.
전체 0

전체 345
번호 제목 작성자 작성일 추천 조회
345
2025 한국데이터마이닝학회 하계학술대회 - 박시언
Sieon Park | 2025.10.13 | 추천 0 | 조회 342
Sieon Park 2025.10.13 0 342
344
2025 한국데이터마이닝학회 하계학술대회 - 장진우
Jinwoo Jang | 2025.09.13 | 추천 0 | 조회 224
Jinwoo Jang 2025.09.13 0 224
343
2025 한국데이터마이닝학회 하계학술대회 - 김한결
Hankyeol Kim | 2025.09.05 | 추천 0 | 조회 274
Hankyeol Kim 2025.09.05 0 274
342
2025 한국데이터마이닝학회 하계학술대회 - 김선민
Sunmin Kim | 2025.09.05 | 추천 0 | 조회 289
Sunmin Kim 2025.09.05 0 289
341
2025 한국데이터마이닝학회 하계학술대회 - 고재용
Jaeyong Ko | 2025.09.05 | 추천 0 | 조회 253
Jaeyong Ko 2025.09.05 0 253
340
2025 한국데이터마이닝학회 하계학술대회 - 성시열
Siyul Sung | 2025.08.31 | 추천 0 | 조회 308
Siyul Sung 2025.08.31 0 308
339
2025 한국데이터마이닝학회 하계학술대회 - 차수빈
Subeen Cha | 2025.08.31 | 추천 0 | 조회 248
Subeen Cha 2025.08.31 0 248
338
2025 한국데이터마이닝학회 하계학술대회 - 이준기
Jungi Lee | 2025.08.30 | 추천 0 | 조회 234
Jungi Lee 2025.08.30 0 234
337
2025 한국데이터마이닝학회 하계학술대회 - 김도윤
Doyoon Kim | 2025.08.30 | 추천 0 | 조회 223
Doyoon Kim 2025.08.30 0 223
336
2025 한국데이터마이닝학회 하계학술대회 - 손준영
Junyeong Son | 2025.08.30 | 추천 0 | 조회 314
Junyeong Son 2025.08.30 0 314

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호