2018 한국데이터마이닝학회 추계학술대회 - 천우진

데이터마이닝학회
작성자
관리자
작성일
2020-03-12 13:38
조회
677
11월 말, 지난주에 서울대학교로 데이터마이닝 학회를 다녀왔습니다. 산업공학회 다음으로 두번째로 참가한 학회였습니다. 산업공학회와는 다르게 데이터마이닝을 주제로 하는 학회였기 때문에, 저희 연구실에서 연구하는 주 분야이면서 제가 관심있어하는 분야들에 대한 연구발표들이 대부분이었습니다. 그래서 미리 발표 세션들에 대한 제목과 간략한 설명들을 읽고 듣고 싶은 발표를 선택하려고 했지만, 정말로 대부분의 발표가 듣고 싶은 발표여서 선택하기가 어려웠습니다.

제가 처음으로 들은 발표는 동국대학교 배전희님이 발표한 ‘북한어 문서의 자연어처리와 유사 문서 추천’ 이라는 연구였습니다. 남한어에 대해서는 형태소 분석기에 대한 연구들도 많이 이루어진 것으로 알고 있고, 우수한 성능을 보이는 자연어 처리기들도 많이 있는 것으로 알고 있습니다. 그런 측면에서, 북한어를 처리한다는 것은 어떻게 보면 새로운 언어에 대한 처리기를 만들겠다는 것으로 보여서 흥미로웠습니다. 그리고 무엇보다 북한어로 이루어진 문서들을 얻기 힘들 것이라고 생각하고 있었는데, 공개된 북한어 문서인 로동신문을 직접 크롤링하여 데이터를 만들었다는 것이 대단했습니다. 무슨 의미인지 알기 힘든 북한어에 대해서, word2vec 기법을 이용해 유사한 단어들을 통해 그 의미를 파악하는 과정이 흥미로웠고, Doc2vec을 이용해서 유사한 성격의 문서를 추천해주는 모델을 만들어낸 것이 좋았습니다. 그러나 한편으로는, 우리나라 지역 사투리에 대한 분석을 진행하는 것과 매우 유사하다고 느꼈고, 새로운 언어에 대해서 위 과정을 진행한다면 더 많은 곳에 활용할 수 있지 않을까 하는 생각도 해보았습니다.

다음으로는 서울대학교 전성환님의 ‘금융 뉴스 토픽 분석을 통한 KOSPI 변동성 급변 예측’이라는 주제였습니다. 주가를 예측하는 간단한 시계열 모델이나, 유가 예측 모델들을 만들어보고 많은 조사를 해보았지만, 금융 시장을 예측하는 것은 신의 영역이라고 생각하고 있었습니다. 그래서 이 변동성을 도대체 어떻게 예측하고자 하는지에 대해 크게 관심을 가지고 발표를 들었습니다. 발표자는, 기존에 변동성을 예측하는 모델인 GARCH 모델을 기반으로 진행했습니다. 새로웠던 것은 금융뉴스관련 사이트를 통해서 뉴스 데이터를 텍스트 마이닝 기법인 토픽 모델링을 이용했다는 것이었습니다. 그렇게 해서 뉴스별로 주요 정보를 담고 있는 토픽벡터를 분리해낸 후, 그를 변동성에 영향을 주는 요인으로 반영시키는 기법이었습니다. 정량적인 데이터뿐만 아니라, 정성적인 데이터를 하나의 요인으로 반영시킨 점에서 흥미로웠고, 사실 지금 진행하고 있는 프로젝트의 내용과도 부합하는 부분이 많아서 흥미로웠습니다. 그래서 저도 토픽 모델링이나 문서, 단어 벡터들의 분포를 만들어내는 기법들을 공부해서 적용하면 좋을 것 같다는 생각을 해보면서 발표를 들었습니다.

그리고 오후 세션에서는 유사한 주제의 두 발표를 들었는데, 뉴스에서만 몇번 들어보았던 주제였고 실제로 연구로 진행된 논문이나 자료를 읽은적은 없었습니다. 하나는 김은지님의 ‘콘텐츠 피쳐 추출기와 자취 피쳐 추출기를 결합한 가짜 얼굴 탐지 모델’이었고, 하나는 김현중님의 ‘특정인물 이미지 진위여부 판별을 위한 딥러닝 기법 적용’이었습니다. 둘 다 사람의 얼굴 이미지를 입력으로 받아서 그 사진이 실제 그 사람을 찍은 사진이 맞는지, 아니면 합성되거나 조작된 것인지를 판별하는 것이었습니다. 최근에 딥페이크를 사용해서 물의를 일으키는 일들이 많이 논란이 되었었는데, 점점 기술이 발달하면서 이를 탐지하고 철저하게 관리를 해야할 필요성이 증대되고 있습니다. 지금은 그래도 어느정도 판별이 가능하지만 이런 일들이 더 발전하게 되면 나중에는 왜곡된 정보들을 아무런 주관없이 받아들이게 될 수 있기 때문에, 이를 판별하고 자동화하는 것이 중요하다고 생각해보았습니다.

마지막으로 재미있었던 발표는 고려대학교 강현구님의 ‘합성곱 오토인코더를 활용한 스타크래프트 내 미확인 정보 추정’에 대한 것이었습니다. 남자라면 어렸을적 한번쯤은 해보았던 스타크래프트라는 게임에서, 상대가 어느 정도의 군사를 가지고 있고 어디에 군사를 가지고 있을지 아는 것은 매우 중요합니다. 맵을 몰래 볼 수 있는 맵핵이라는 것이 유명할 정도로 상대를 파악하는 것이 중요한 게임입니다. 그것을 가능하도록 여러 게임들을 분석해서, 예측이 가능하도록 한 연구였습니다. 오토 인코더를 통해 화면을 이미지화해서 입력으로 넣고, 몇 분 후의 군사력을 예측하도록 출력으로 하여 모델을 학습시켰다고 합니다. 그리고 전투를 하면 유리할 주요 시점들도 같이 분석해낸 흥미로운 연구였습니다. 모델 자체는 어려운 구조를 사용한 것은 아니지만, 게임 리플레이를 데이터화해서 적용하고 흥미로운 주제를 이용해서 재미있는 결과를 낸 점에서 좋은 발표였다고 생각했습니다.

여러 연구자들의 발표를 들으며 이해하기 어려운 부분도 많았고 재미있는 부분도 많았지만, 연구를 진행하는 일련의 과정을 어떻게 설계하면 좋을지 계속해서 생각해볼 수 있었고, 스스로 공부하는 분야들을 어떠한 도메인에 적용시켜서 연구를 하면 재미있을지 등에 대해서 생각할 수 있었습니다. 그리고 흥미로운 연구를 통해 꼭 발표를 해보고 싶다고 느낀 뜻깊은 학회였습니다. 그리고 중간에 선배들과 많은 이야기를 했고, 식사도 하면서 많은 조언들을 들을 수 있었던 하루였습니다.

감사합니다
전체 0

전체 345
번호 제목 작성자 작성일 추천 조회
345
2025 한국데이터마이닝학회 하계학술대회 - 박시언
Sieon Park | 2025.10.13 | 추천 0 | 조회 335
Sieon Park 2025.10.13 0 335
344
2025 한국데이터마이닝학회 하계학술대회 - 장진우
Jinwoo Jang | 2025.09.13 | 추천 0 | 조회 216
Jinwoo Jang 2025.09.13 0 216
343
2025 한국데이터마이닝학회 하계학술대회 - 김한결
Hankyeol Kim | 2025.09.05 | 추천 0 | 조회 267
Hankyeol Kim 2025.09.05 0 267
342
2025 한국데이터마이닝학회 하계학술대회 - 김선민
Sunmin Kim | 2025.09.05 | 추천 0 | 조회 281
Sunmin Kim 2025.09.05 0 281
341
2025 한국데이터마이닝학회 하계학술대회 - 고재용
Jaeyong Ko | 2025.09.05 | 추천 0 | 조회 249
Jaeyong Ko 2025.09.05 0 249
340
2025 한국데이터마이닝학회 하계학술대회 - 성시열
Siyul Sung | 2025.08.31 | 추천 0 | 조회 299
Siyul Sung 2025.08.31 0 299
339
2025 한국데이터마이닝학회 하계학술대회 - 차수빈
Subeen Cha | 2025.08.31 | 추천 0 | 조회 241
Subeen Cha 2025.08.31 0 241
338
2025 한국데이터마이닝학회 하계학술대회 - 이준기
Jungi Lee | 2025.08.30 | 추천 0 | 조회 221
Jungi Lee 2025.08.30 0 221
337
2025 한국데이터마이닝학회 하계학술대회 - 김도윤
Doyoon Kim | 2025.08.30 | 추천 0 | 조회 212
Doyoon Kim 2025.08.30 0 212
336
2025 한국데이터마이닝학회 하계학술대회 - 손준영
Junyeong Son | 2025.08.30 | 추천 0 | 조회 303
Junyeong Son 2025.08.30 0 303

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호