2018 한국데이터마이닝학회 추계학술대회 - 정민성

데이터마이닝학회
작성자
관리자
작성일
2020-03-12 13:41
조회
653
지난 주 금요일에 서울대학교에서 실시한 데이터 마이닝 학회에 다녀왔습니다. 주변을 가거나 갈 일이 있어 지하철 역에서 내릴 때 마다 드는 생각이지만, 서울대입구역은 이름을 바꿔야 한다고 생각합니다. 이름부터 그러하다는 것을 느낄 수 있듯이 이 학회는 좀 더 우리 연구실 사람들이 중점적으로 연구하는 방향과 맞닿은 부분이 많은 것 같습니다. 그래서 세션 자체도 딥러닝, 텍스트처리, 이미지 처리, 딥러닝 방법론에 관한 것이었습니다. 흥미로운 주제가 많았습니다.

[어텐션 메커니즘을 활용한 특허문서의 다중 레이블 분류]

특허문서나 논문에 대한 레이블 분류는 많은 연구가 있어왔기 때문에 굉장히 낯익은 주제인 것 같습니다.  받아들이기에 친숙하거나 쉽게 생각하게 되는 경향이 있지만 필요하고 중요한 주제라고 생각합니다. 특허문서에 대한 약 200여 개(헷갈림)의 레이블이 있고 주제에 따라 해당하는 레이블을 분류하는 문제였습니다. word2vec 으로 embedding 하고 , GRU 셀로 인코더를 구축, attention 씌워주는 구조를 갖고 있었습니다. 데이터의 pos, neg 의 불균형을 해결하기 위해 F-score 의 분자와 분모에 베타라는 hyper-parameter 를 추가함으로써 보정해주는 것이 해당 연구의 주요 contribution 으로 보였습니다. 발표 재미있게 잘 들었지만 시간이 부족했는지 설명하는 내용에 비해 시각화가 잘 되지 않았던 점이 아쉬웠습니다.

[2차원 cnn 적용을 위한 다변량 시계열 데이터 이미지화]

목차를 다 읽지 않고 제목만 봤을 때 가장 기대되는 발표였습니다. 지금 진행 중인 과제와 연결되는 부분이 있을 거라 생각하였지만 그렇지는 않았습니다. 메인 아이디어는 1d-conv 로 밖에 처리할 수 없는 시계열 데이터를 2d-conv로 바꾸게 되면 더 많은 방법론을 이용할 수 있을 것이라는 생각에서 출발하는 것 같습니다. 이 때 1d-conv 와 2d-conv 의 차이점을 픽셀 간의 상관관계로 들어 그것을 없애고자 합니다. 2-dimensional 로 볼 경우에는 선 후의 상관관계가 높은 반면 1-dimensional 하게 보면 상관관계가 낮으므로 이에 대한 재배치를 합니다. 두 가지 방법을 통해 아이디어를 실현합니다. 첫번째로는 시계열 간 재배치입니다. 가로축을 variable, 세로축을 observation으로 봤을 때, variable 간의 correlation을 높일 수 있도록 가로축을 재배열하였습니다. 두번째로는 데이터 반전입니다. 이웃한 값 간의 correlation 최댓값을 최대화하도록 합니다. 이 두 가지 방법에 대한 최적화를 위해 graph 화 하여 문제를 풀어줍니다. TSP 와 비슷한 모양의 모델로 풀었다고 합니다.  발표를 듣고 여러가지 의문이 듭니다. 과연 값들 간의 상관관계를 높여준다고 해서 1d로 풀 문제가 2d로 풀어질 것인가는 잘 모르겠습니다. 또한 상관관계를 높이기 위해 graph 문제까지 풀어야 한다면 time complexity 는 급격하게 높아질 것인데, 그러한 단점을 가져가면서 퍼포먼스가 좋아질 것인지도 의문입니다. 이러한 의문은 실험결과만이 해결해 줄 수 있습니다. 하지만 실험결과는 아직 나오지 않았고 그럼에 따라 많은 사람들이 아이디어에 대해 많은 의문을 품었던 것으로 보입니다.

[Neural counterfeit images similarity: How can we measure similarity between counterfeit images]

이미지 특징을 contents, style, structure 세 개로 정의한 뒤, conv net으로 feature 를 뽑아내고 similarity 를 비교하는 것 같았습니다. 해당하는 방법을 통해 위조 이미지 판별 개선에 이바지 할 수 있다고 했습니다. 발표자가 많이 힘들어 보였습니다.

[User-personalized car destination prediction with memory networks]

발표자가 3분만에 자리로 돌아오는 마법을 보았습니다. 많이 창피한 것 같았습니다. 화이팅 해주고 싶었습니다.

[방산주 주가를 활용한 안보 위기 모니터링 index 구축]

디테일한 방법론은 다르지만 인식한 문제를 해결하는 논리적 구성이 저희가 진행했던 것과 유사했습니다. 과거의 유사한 날을 통해 현재에 대한 인식을 하고 더 나아가 미래에 대한 예측을 할 수 있지 않을까 라는 논리적 흐름이 그러했습니다. 해당 연구는 안보 위기상황 발생시 주가흐름을 통해 위기상황을 정량화 합니다. 그 결과로 안보위기 에 대한 index를 만들어내고, 이에 대한 similarity 를 구하는 것 같습니다. similarity 비교를 통해 유사한 과거의 날을 구하게 되고 그 과거의 미래(더 가까운 과거)를 통해 유사한 현재의 미래를 예측할 수 있게 되는 것입니다. .정교한 분석을 위해 disentanglement method 를 사용한 것이 흥미로웠습니다. 해당 method를 통해 주가 변화를 시장에 의한 것과 안보위기에 의한 것으로 나누었다고 합니다.
전체 0

전체 345
번호 제목 작성자 작성일 추천 조회
345
2025 한국데이터마이닝학회 하계학술대회 - 박시언
Sieon Park | 2025.10.13 | 추천 0 | 조회 335
Sieon Park 2025.10.13 0 335
344
2025 한국데이터마이닝학회 하계학술대회 - 장진우
Jinwoo Jang | 2025.09.13 | 추천 0 | 조회 216
Jinwoo Jang 2025.09.13 0 216
343
2025 한국데이터마이닝학회 하계학술대회 - 김한결
Hankyeol Kim | 2025.09.05 | 추천 0 | 조회 267
Hankyeol Kim 2025.09.05 0 267
342
2025 한국데이터마이닝학회 하계학술대회 - 김선민
Sunmin Kim | 2025.09.05 | 추천 0 | 조회 281
Sunmin Kim 2025.09.05 0 281
341
2025 한국데이터마이닝학회 하계학술대회 - 고재용
Jaeyong Ko | 2025.09.05 | 추천 0 | 조회 249
Jaeyong Ko 2025.09.05 0 249
340
2025 한국데이터마이닝학회 하계학술대회 - 성시열
Siyul Sung | 2025.08.31 | 추천 0 | 조회 299
Siyul Sung 2025.08.31 0 299
339
2025 한국데이터마이닝학회 하계학술대회 - 차수빈
Subeen Cha | 2025.08.31 | 추천 0 | 조회 241
Subeen Cha 2025.08.31 0 241
338
2025 한국데이터마이닝학회 하계학술대회 - 이준기
Jungi Lee | 2025.08.30 | 추천 0 | 조회 221
Jungi Lee 2025.08.30 0 221
337
2025 한국데이터마이닝학회 하계학술대회 - 김도윤
Doyoon Kim | 2025.08.30 | 추천 0 | 조회 212
Doyoon Kim 2025.08.30 0 212
336
2025 한국데이터마이닝학회 하계학술대회 - 손준영
Junyeong Son | 2025.08.30 | 추천 0 | 조회 303
Junyeong Son 2025.08.30 0 303

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호