2018 한국데이터마이닝학회 추계학술대회 - 손규빈

데이터마이닝학회
작성자
관리자
작성일
2020-03-12 13:36
조회
629

11월의 마지막을 데이터마이닝 학회와 함께 했습니다. 신식 건물이라 그런지 강연장도 깔끔했고, 도시락까지 준비되어 식사를 편리하게 해결할 수 있어 좋았습니다. 무엇보다 데이터마이닝이라는 주제에 특화되어 심화된 내용들을 들을 수 있어서 배운 점이 많았습니다.

재밌게 본 발표는 먼저 서울대학교 박노일님의 “어텐션 메커니즘을 활용한 특허문서의 다중 레이블 분류”입니다. 저희 연구실에서도 서승완 박사과정이 진행하고 있는 연구라서 어떤 다른 접근을 하고 있는지 흥미롭게 보았습니다.

연구의 목적은 특허 분류를 자동화하는 것입니다. 점점 특허 출원이 증가하는 시점에서 전문적인 소수 인력에 의존하는 노동집약적 과정을 인공지능을 통해 자동화하려는 시도입니다. 어텐션 메커니즘을 활용한 것도 특별한 접근이지만 Multilabel classification task를 해결하는 방식이 특히나 기억에 남습니다. Multilabel classification은 예를 들어 5개 class가 존재할 때 2개 label을 가지고 있다면 [1, 0, 0, 0, 1] 형태로 표현하고 예측하는 것을 말합니다.

특허 데이터는 텍스트 데이터인 {제목, 초록, 요약, 청구항, 명세서}와 대표 이미지, IPC, 출원번호, 발명인 등으로 이루어져있습니다. 연구자분은 여기서 앞쪽 텍스트 데이터를 input으로 하고, IPC 데이터를 label로 하여 모델을 만들었습니다. 일반적인 classification task와 달리 IPC label은 hierarchical structure, multilabel 특성을 가지고 있습니다. 하나의 특허가 여러 개의 label을 가지고 있다는 뜻입니다.

특허 분류에 대한 기존 연구는 대부분의 알고리즘에 대해서 연구가 수행되었습니다. kNN에서부터 SVM, K-means, tf-idf 등 다양한 알고리즘에 쓰여왔습니다. 딥러닝을 활용한 논문도 있습니다. 그 중 첫 사례인 DeepPatent는 Y.kim et al.의 모델을 사용했지만 앞 부분 100단어라는 제한적인 단어만 사용한 점이 한계입니다. 그래서 연구자 분은 전체 텍스트를 활용하고, sequence가 긴 점은 어텐션 메커니즘을 통해 해결하려고 했습니다. 제안하는 모델은 단어를 Word2Vec으로 변환 후, GRU에 적용하고, 각 hidden state를 attention을 이용해 조합하고 최종 결과를 도출했습니다.

하지만 class imbalance 문제가 있었습니다. Label 종류가 600개인데 특허 당 가지고 있는 label은 최소 1개에서 최대 18개입니다. Positive와 Negative label의 비율이 1:400이라서 그냥 모델을 돌리게 되면 결과가 잘 나오지 않았다고 합니다. 추가로 이런 상황에서 accuracy만 고려하면 모두 0으로 예측하기만 해도 성능이 좋기 때문에 Precision과 recall을 주요 지표로 삼았다고 합니다.

BCE = -[ beta * t_1 log(f(v)) + (1 - t_1) log(1 - f(v)) ]

그래서 beta라는 positive weight를 사용했습니다. Binary cross entropy의 수식에서 positive label 부분에 beta를 곱해줘서 차지하는 영향력을 대폭 상승시켰습니다. 처음 봤을 때 많아봤자 10 정도를 곱해주지 않았을까 했는데 label의 비율 정도가 적당했다고 합니다. 실험은 beta = [50, 100, 200, 300, 400] 값에 대해서 수행했습니다. 실제로 실험결과를 보니 beta가 없을 때는 precision, recall 값이 0.1, 0.09 정도이다가 beta를 넣었을 땐 0.9까지 치솟는 것을 볼 수 있었습니다.

데이터는 USPTO-2M을 사용했고, 앞으로는 attention 스코어 값을 사용해 키워드를 시각화하는 것까지 확장한다고 합니다.

두 번째는 서울대학교 박봉준님의 “2차원 CNN 적용을 위한 다변량 시계열 데이터 이미지화”에 대한 발표입니다. 서로 다른 데이터 종류를 연결하려는 시도는 많이 있습니다. Text2img, Img2text, text2speech, speech2text 등이 있습니다. 하지만 시계열 데이터를 이미지화하여 분석하려는 시도는 처음 보았고 매우 흥미로웠습니다.

일반적으로 시계열 데이터에서 row 방향의 correlation은 높지만 column 방향의 correlation은 낮습니다. 이미지 형태로 분석하려면 이 column 방향의 correlation을 높이는 작업이 필요합니다. 연구자 분의 발표는 이 방법을 제안하는 것이었습니다.

먼저 column 단위로 재배열하고, 반전시킵니다. 그리고 그래프 문제로 변환하여 모든 node를 지나는 최소비용 경로 형태로 데이터를 배열합니다. 이 때 edge의 cost는 correlation 절대값의 마이너스 값으로 설정했습니다. 최적화의 외판원 문제와 유사하여 해당 방법을 활용했습니다. 열 단위 재배치라는 관점에서 시계열 순서가 바뀌지 않을까 우려가 되지만 정말 독창적인 시도라고 생각합니다. 시계열 데이터를 2D conv로 분석하기 위해 수행하는 전처리 방법론인데, 2D가 아니라 1xN 형태의 길쭉한 conv는 충분히 적용해볼 수 있지 않을까라는 생각도 들었습니다.

세 번째는 중앙대학교 선현석님의 “단어 임베딩 기법을 이용한 한글의 의미 변화 파악” 논문입니다. 시대 변화에 따라 단어의 Semantic change를 포착하는 연구였습니다. 연도별로 텍스트 데이터를 구분하여 각각 Word2Vec을 학습하고, 연도별로 단어 벡터들의 이동이 큰 것을 의미 변화가 일어난 것이라 가정했습니다.

다만 이를 위해선 몇 가지 문제를 해결해야했습니다. 기본적으로 Word2Vec을 학습하기 시작할 때 weight를 random initialization 하게 되는데요. 해당 값에 따라서 같은 데이터라 하더라도 Word2Vec 학습 결과가 상이할 수 있습니다. 또한 2000년엔 있었던 단어가 2018년엔 없는 Out of Vocabulary 문제가 생길 수도 있습니다. 연구자 분은 이를 이전 시점의 학습결과를 다음 시점의 초기값으로 설정하는 것으로 해결했습니다. 아주 효율적인 해결책입니다.

또한 단어 벡터를 서로 비교할 때 정렬이 필요한데 procrustes 정렬 방법을 사용했습니다. 해당 정렬 기법은 아래 그림처럼 같은 사이즈로 스케일링, 같은 포지션으로 이동, 방향 맞추는 3가지 단계로 이루어집니다.

데이터는 대통령 연설기록문(1950-2018)과 신문기사(1990-2018)를 활용했고, 눈에 띄는 결과물은 널리 쓰이는 의미의 동음이의어 포착과 “전세”(전쟁 -> 부동산), “수저”(숟가락 -> 계급) 같은 의미 변화를 실제로 잘 포착했음이 훌륭했습니다.

마지막으로 아주대학교 박성홍님의 “SentiWordNet 기반 한글 감성사전 구축”입니다. 영어로 이미 구축되어있는 대량의 SentiWordNet 데이터를 활용해 한글 데이터를 만들었다는 점에서 높이 평가합니다. 방법은 우선 Translated SentiWordNet이라는 번역 한글 데이터를 만듭니다. 기존 영어 데이터를 영어사전을 통해 한글로 바꿨습니다. 사람의 수고를 매우 덜어주는 영리한 방식입니다. 이렇게 구축된 감성사전을 바탕으로 자동차와 스마트폰 2개 도메인에 대해 감성 분류를 수행했습니다.

데이터를 수집할 때는 네이버 카페를 웹크롤링했습니다. 자동차와 스마트폰 둘 다 모델 별 대표 카페를 선정해서 수집했다는 점이 좋았습니다. 좀 더 질 좋은 데이터를 수집할 수 있었을 것 같습니다. 도메인 별로 31만건 이상의 텍스트 데이터를 수집했습니다. 그리고 명확한 감성 분류가 가능하고, 100회 이상 출현한 단어를 각각 1만개 씩 선정했습니다.

성능 비교는 기존 한글 데이터인 KOSAC과 비교했는데 데이터도 훨씬 많고 AUROC 기준 3-4% 가량 더 나은 성능을 보였습니다. 자동차 도메인이 스마트폰보다 더 나은 성능을 보였는데 그 이유는 텍스트 데이터가 애초에 자동차 도메인에서 더 순도 높은 데이터였다고 합니다. 스마트폰 관련된 텍스트는 은어도 많고, 장난스러운 글도 많아서 성능이 덜 좋았던 것으로 보입니다. “블루투스”라는 단어에 대해서 도메인 별 차이가 강하게 드러났는데요. 자동차 도메인에선 편의성에 대한 것으로 긍정적인 문맥이 많았고, 스마트폰은 잘 동작하지 않는다는 의미로 부정적인 내용이 많았다고 합니다.

현재 우리 연구실에서도 한글 데이터를 만들고 있는 입장에서 동질감을 느끼기도 했고, 데이터 수집과 정제에 많은 고생을 했을 것 같습니다.

오전부터 저녁까지 흥미로운 발표를 많이 들었고, 저 역시 연구를 하고 발표할 수 있어야겠다 생각을 했습니다. 연구실에서 발표한 김창엽 박사과정, 김준홍 박사과정, 박민식 박사과정, 장명준 석사과정, 양우식 석사과정 모두가 자랑스럽고 박수를 보냅니다.

전체 0

전체 326
번호 제목 작성자 작성일 추천 조회
326
New 2025 한국컴퓨터종합학술대회 - 차수빈
Subeen Cha | 10:07 | 추천 0 | 조회 2
Subeen Cha 10:07 0 2
325
New 2025 한국컴퓨터종합학술대회 - 김도윤
Doyoon Kim | 2025.07.04 | 추천 0 | 조회 7
Doyoon Kim 2025.07.04 0 7
324
2025 ICLR - 김도윤
Doyoon Kim | 2025.07.02 | 추천 0 | 조회 18
Doyoon Kim 2025.07.02 0 18
323
2025 ICLR - 김재희
Jaehee Kim | 2025.05.12 | 추천 0 | 조회 194
Jaehee Kim 2025.05.12 0 194
322
2025 ICLR
Hun Im | 2025.05.02 | 추천 0 | 조회 148
Hun Im 2025.05.02 0 148
321
2025 ICLR - 박진우
Jinwoo Park | 2025.04.28 | 추천 0 | 조회 223
Jinwoo Park 2025.04.28 0 223
320
2024 NeurIPS - 김재희
Jaehee Kim | 2024.12.20 | 추천 0 | 조회 484
Jaehee Kim 2024.12.20 0 484
319
2024 NeurIPS - 박진우
Jinwoo Park | 2024.12.19 | 추천 0 | 조회 318
Jinwoo Park 2024.12.19 0 318
318
2024 Neurips - 임훈
관리자 | 2024.12.18 | 추천 0 | 조회 394
관리자 2024.12.18 0 394
317
2024 ACL - 김재희
Jaehee Kim | 2024.12.09 | 추천 0 | 조회 247
Jaehee Kim 2024.12.09 0 247

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호