Seminar

BOARD

[Paper Review] ICNet for Real-Time Semantic Segmentation on High-Resolution Images

Paper Review

작성자

Yunseung Lee

작성일

2021-02-19 17:11

조회

3556

1. Topic

segmentation 성능 저하는 최소화하며, inference 속도를 real time 수준으로 향상시키고자 Image Cascade Network(ICNet) 를 제안합니다.

2. Overview

기존 semantic segmentation 모델들은 inference 속도가 매우 느리기 때문에 실제 application에 적용하기 힘들다는 한계점을 갖습니다. 특히 정확도 측면에서 큰 발전이 있었던 Pyramid Scene Parsing Network(PSPNet) 은 약 80% mIOU 성능을 보이지만, 속도는 0.78 fps 에 그칩니다.

이에 저해상도 이미지에 heavy CNN을 적용하여 real time 수준으로 속도를 향상시키고, Cascade Feature Fusion을 통해 성능 저하를 최소화 하고자 하는 Image Cascade Network를 제안하였습니다.

3. 발표자료 및 발표영상

발표 자료: 첨부파일 참고
발표 영상: 업로드 예정

4. 참고자료

첨부파일 참조

전체 15

Jina Kim

2021-04-01 20:59

오늘 세미나는 semantic segmentation 방법론 중 하나인 IC-Net에 대한 내용으로 이루어졌습니다. semantic segmentaion은 pixel-wise classification으로, 개별 instance를 구별하지는 않고, class 별로만 분류하는 task입니다. CNN의 feature map을 그대로 쓰기에는 픽셀별로 예측해야 하는 semantic classification에는 적합하지 않아 좀 더 dense feature map을 얻기 위해서 upsampling을 사용합니다. upsampling 방법에는 bilinear interpolation, transpose convolution, dilated convolution 등이 있습니다. PSPNet은 ResNet에 Dilated layer를 넣어 feature map의 사이즈가 layer가 깊어져도 유지될 수 있게하여 높은 resolution을 달성할 수 있게 됩니다. ICNet은 PSPNet을 베이스라인으로 하여 PSPNet의 좋은 성능을 최대한 유지하면서 시간을 최대한 단축한 모델입니다. 이를 위해 저해상도 이미지에만 heavy CNN을 적용하고, 이로 인해 성능이 떨어지는 것을 방지하기 위해서는 cascade feature fusion을 사용합니다. 이렇게 CFF를 사용함으로써 semantic 정보를 최대한 보존하며, low branch에서 놓친 세부정보를 모두 포함할 수 있게 됩니다. 이로써 ICNet은 정확도를 어느 정도 유지하면서 real-time 수준으로 빠른 속도를 달성하였습니다. 라즈베리 파이를 사용하여 직접 real-time segment classification 하려는 시도가 매우 좋은 것 같습니다. 좋은 결과가 있길 바라겠습니다. 좋은 발표 감사합니다.
Myeongsup Kim

2021-06-19 14:49

이번 세미나에서는 고해상도의 이미지에 대해 실시간으로 Semantic Segmentation을 수행하는 IC-NET에 대해 소개해 주셨습니다. Semantic Segmentation의 경우 Pixel 단위의 Classification을 수행하기 때문에 기존 CNN 기반의 Sparse Feature Map이 잘 작동하지 않는 경우가 많습니다. 이를 해결하기 위해 제안된 모델들이 있지만, 속도가 매우 느리다는 단점이 존재하고, 속도를 개선한 모델의 경우 성능이 저조하다는 문제가 있습니다. 속도를 빠르게 하며, 동시에 성능을 유지하기 위해 IC-NET은 저해상도에만 Heavy CNN을 적용하는 방법과 Cascade Feature Fusion with Cascade Label Guidance를 사용합니다. 이를 통해 약 10%p의 성능 감소로 50배에 해당하는 Inference 속도를 달성하였습니다.
개인적으로 아직까지 Vision Domain이 익숙하지 않지만, 해당 분야에 관한 세미나를 통해서 이해에 도움을 받고 있습니다. 좋은 발표 감사합니다.
junghoon lee

2021-04-29 15:47

ICNet(Image Cascade Network)은 semantic segmentation에 사용되는 모델로 segmentation의 높은 속도 향상을 보이는 동시에 성능 저하는 최소화하는 데 중점을 맞춘 논문입니다. ICNet은 기존에 높은 성능을 보이던 PSPNet을 baseline으로 하여 Dilated convolution layer를 사용하여 layer가 깊어져도 고해상도를 유지할 수 있도록 하였고 추가로 inference의 속도를 향상시키기 위해 입력 이미지의 크기에 따라 다른 모델들을 연결하였습니다. 구체적으로는 저해상도에 PSPNet을 적용하고 고해상도에는 비교적 적은 convolution 연산을 사용했다고 합니다. 좋은 방법론을 소개해주셔서 감사합니다.
Jungho Lee

2021-08-16 23:36

이미지 Segmentation 는 이전에 다른 논문들에서도pyramid 구조를 사용해서 모델을 설계하곤 했습니다. PSPNet 으로 알려진 모델은 속도면에서 문제점이 있었습니다. Fast RCNN 계열의 방법론들이 속도면에서 좋은 성과를 낸것 처럼(Cascade RCNN) 본 세미나에서는 비슷한 개념을 잘 조합한 느낌을 받았습니다. Vision 분야 중에서도 객체탐지, Segmentation 등은 Specific 한 도메인으로 생각하고 있는데, 그래서 연구실에서 자주 다루지 않았던 주제였습니다. 발표자께서 관심을 가지시고, vision 쪽에서도 좋은 연구결과 있길바랍니다.
Yukyung Lee

2021-06-30 01:20

세미나는 ICNet for Real-Time Semantic Segmentation on High-Resolution Images를 주제로 진행되었습니다. segmentation 분야의 발전 속도는 볼 때 마다 놀라운것 같습니다. 특히 모든 segmentation이 비슷하다고 느꼈었는데, 여러가지 task에 대해 잘 분류해주셔서 도메인 지식이 없는 입장에서 매우 흥미롭게 들었습니다.

Segmentation 모델은 성능이 가장 좋은 모델을 제안하는것도 중요하지만 realtime Segmentation을 위해 Inference Speed인 IFS도 하나의 지표로서 활용하고 있습니다. NLP도 최근에서야 IFS나 Latency 개념을 도입하여 speed에 대한 지표로 모델을 평가하지만 엄청 General하지는 않습니다. 2018년 기준으로 생각해보면 vision task가 비교적 연구와 service사이의 갭이 작다는 생각을 하게되었습니다.

IC-Net은 PSP-Net의 후속 연구로서 속도와 성능을 모두 만족하기 위해 저해상도 이미지에만 heavy CNN을 적용시키고, Cascade Feature Fusion을 적용합니다. CFF를 이 발표를 통해 알게되었는데, 저해상도의 Featuremap과 고해상도의 Feature map을 모두 활용하여 Feature를 결합하는 방법입니다. Cascase label까지 활용해서 Loss weight를 구한 후 이를 Loss term에 반영해주었습니다. 실험 결과는 정확도가 조금 감소했지만 inference 속도가 매우 개선되었음을 알 수있었습니다

논문의 발표 시기를 보면 Vision task의 발전속도가 엄청나다는것을 실감합니다. 최근 multimodal에 대한 연구가 활발히 진행되고있는데, 다양한 domain에 대한 지식을 듣는것 자체가 큰 도움이되고 있고 분야에 상관없이 꾸준히 공부해야겠다는 생각을 할 수 있는 계기가 되었습니다. 감사합니다
Hyeyeon Kim

2021-08-03 02:28

이번 발표는 image segmentation에 대한 시간 단축 및 성능 하락 감소에 대한 방법론을 소개한 세미나였습니다. 본 발표에서는 segmentation의 속도가 낮은 것을 보완하고자, 저해상도의 이미지에 heavy CNN을 적용하였고, 성능이 심하게 하락되는 것을 방지하기 위해 Cascade Feature Fusion을 도입한 Image Cascade Network를 제안하였습니다. 실제 segmentation의 속도가 real time인 것이 놀라웠고 각 단계별로 모델의 한계점과 각 단점을 보완하는 방법, 그래도 존재하는 한계점으로 step으로 논리의 흐름을 진행해주셔서 Image Cascade Network에 대한 이해가 더욱 쉬웠습니다. 이 아이디어를 차용하여 segmentation외에도 object detection task에 적용해도 좋을 것 같다는 생각이 들었습니다. 좋은 발표 감사합니다.
Donghwa Kim

2021-02-21 16:36

이번 세미나에서는 Segmentic segmentation에 대한 ICNet에 대해서 발표해 주셨습니다. 해당 task는 해당 픽셀이 object 인지 아닌지 구별한 class agnostic에 대한 내용이 아닌 개별 픽셀마다 target class 마다 categorization에 대한 설정으로 이루어졌습니다. PSP-net의 핵심구조는 여러개의 dilated conv를 사용하여 이미지 표현의 high resolution의 향상을 목표로 한것 같습니다. 추가적으로 1x1 conv를 사용하여 가로x 세로의 사이즈는 유지하되 채널에 의한 high dimension의 문제를 해결하고자 하는 면도 보였습니다. PSP-Net의 성능은 매우 뛰어나지만 inference 속도가 너무 느려 IC-Net이 제안이 되었습니다. IC-Net의 모델을 입력 이미지크기에 따라 다른 모델들을 연결시킴으로써 저해상도에서 고해상도로 boosting과 같은 효과를 가지도록 하였습니다. 이렇게 되면 이미지 크기에 따라 모델의 성능이 바뀌는 점에서도 robust해지는 효과도 발생되었다고 생각합니다. 좋은 발표 감사합니다.
Hyungseok Kim

2021-02-22 16:44

금일 세미나 시간에는 ICNet for Real-time Semantic Segmentation on High-Resolution Images의 논문을 주제로 Computer Vision분야에서 Semantic Segmentation task에 해당하는 내용을 다루어 보았습니다. Semantic Segmentation은 이미지로부터 모든 픽셀에 해당하는 Class로(사전에 정의된 개수만큼) 분류하는 것입니다. 해당 논문에서의 ICNet은 Image Cascade Network의 약자로 실시간 처리에서 강점을 가지기 위한 해당 네트워크의 특징을 잘 표현하고 있습니다. Input으로부터 연속적인 cascade feature를 결합을 통해서 최종적인 feaure map을 구성하게 되고, 이과정에서 Upsampling과 dilated convolution을 사용하였습니다. 또한, 학습과정에서의 각 branch 단계에서의 안정적인 학습을 위해서 Loss를 최종 단에서만 계산하는 것 뿐만 아니라 각 중간단계에서도 각각의 Loss를 산출하여 이를 가중치를 통해 결정하여 학습을 수행하였습니다(Cascade Label Guidance). 아무래도 cascade한 구조에서 단순 최종단계에서의 손실함수만을 적용한 것보다 실험적으로 나은 성능을 거두었기에 이러한 학습방식을 수행한 것으로 해석됩니다. 실제로 결과에서는 이러한 CLG의 유무에 따라 성능의 차이를 보이는 것을 확인하였습니다. 간만에 Vision 관련 논문을 연구실 세미나를 통해서 접할 수 있어 재미있게 잘 들었습니다. 발표자가 첫 세미나임에도 불구하고 꼼꼼하게 준비를 잘해주어 부드럽게 이해해가며 들을 수 있었습니다. 감사합니다.
Euisuk Chung

2021-02-22 20:08

ㅤ오늘 세미나는 Semantic Segmentation 성능을 올린 PSPNet과, PSPNet의 속도를 개선시킨 ICNet에 발표였습니다. 먼저 Semantic Segmentation은 pixel-wise classification으로 같은 class의 물체가 있더라고 개별 object에 대해서는 고려하지 않는 task입니다. 기본적인 sematic segmentation은 encoder-decoder의 모델 구조를 가지며 encoder단에서 이미지의 정보를 축약하여 feature map을 얻고, decoder단에서는 up-sampling과 residual connection을 통해 각각의 픽셀에 대한 classification을 수행하게 됩니다. 하지만, 기존 semantic segmentation 모델들은 일반적인 convolution layer를 통해 데이터를 encoding하게 되면 context 정보 부족으로 인한 pixel 분류성능이 하락한다는 점이었습니다.
ㅤ이를 극복하기 위해 제안된 방법이 바로 PSPNet으로 pyramid pooling module을 추가하여 다양한 사이즈의 CNN 필터에 대한 정보를 함께 사용하여 rich context를 포함한 feature map을 만들고 이를 통해 pixel classification을 하는 것이었습니다. 그리고 이때 좀 더 넓은 공간의 정보를 학습하기 위해 사용한 dilated ResNet을 사용했다고 합니다. 하지만, PSPNet은 고해상도일수록 시간복잡도가 지수적으로 증가한다는 문제가 있었습니다.
ㅤPSPNet의 한계를 극복하기 위해 나온 모델이 ICNet으로 저해상도 이미지에는 PSPNet을 적용하여 rich semantic information을 추출하고, 고해상도 이미지는 적은 conv 연산을 통해 학습한 정보를 CFF(Cascade Feature Fusion with Cascade Label Guidance)를 통해 효율적으로 합쳐주게 됩니다. 이 과정을 통해 rich segmentation 정보를 학습하여 좋은 성능을 낼 뿐만 아니라 inference 속도가 매우 빠르게 될 수 있게 해주었습니다. 좋은 발표 들려주셔서 감사합니다.
Seungwan Seo

2021-02-26 01:13

비전 도메인 세미나라서 너무 반가운 마음에 잘 들었습니다. segmentation의 정말 꾸준하게 발전이 되고 있는 분야같습니다. 그럼에도 불구하고 아직 굉장히 빠르면서 굉장히 정확한 모델은 나오지 않고 있으며 trade-off가 존재하고 있습니다. 본 논문에서도 성능에서는 그 당시 SOTA가 아니었지만, 속도대비 성능에서 매우 좋은 모습을 보였습니다. Segmentation의 경우 보통 매우 큰 사이즈의 인풋을 사용하기 때문에 real time inference가 어렵게 되는데, 본 연구에서는 casecade input을 사용하여 이를 해소하고 있습니다. 우선 작은 사이즈의 input을 사용하여 깊은 모델을 적은 cost로 학습을 진행합니다. 이렇게 대략적인 정보를 얻은 후 조금씩 큰 사이즈의 이미지를 조금씩 작은 모델에 넣음으로써 정확도는 높이고 time cost는 줄이게 됩니다. 매우 직관적이고 논리적으로 반박하기 어려운 접근이라는 생각이 들었습니다.
진행하고 있는 개인연구도 이러한 방식에서 시작해 real time으로 탐지할 수 있다면 충분히 가능성 있는 주제가 될 것 같다고 생각합니다.
Jounghee Kim

2021-02-26 17:59

금일 세미나에서는 Semantic Segmentation 방법론 중 하나인 ICNet에 대해 설명해 주셨습니다. 해당 논문은 큰 receptive field로 때문에 속도가 느린 이전 논문 PSP-Net의 단점을 해결하고자 성능 저하 최소화하면서 real-time 속도를 최대화 하는 모델을 제시하였습니다. 해당 논문에서 속도를 향상시키기 위하여 저해상도의 이미지에만 heavy CNN을 적용하였습니다. 또한 저해상도의 이미지에만 heavy CNN을 적용했을때 성능 하락하는 단점을 극복하고자 Cascade Feature Fusion을 적용하였습니다. 이 두가지 방법을 통해 실시간으로 Semantic Segmentation이 가능하면서도 높은 정확도를 갖추었다는 것을 실험적으로 증명하였습니다. 모델의 성능도 중요하지만 제품으로 활용하기 위해서는 inference 속도도 매우 중요합니다. 따라서 ICNet과 같은 속도를 고려한 논문이 필요하다고 생각합니다. 좋은 발표 감사합니다.
Kyoosung So

2021-03-02 00:22

비전 분야에 대해 오랜만에 세미나를 들은 것 같아 굉장히 흥미로웠습니다. 오늘 소개해주신 논문은 IC-Net에 관한 논문으로, real-time segmentation 모델인 PSP-Net의 속도 면에서의 한계를 개선하고자 제안된 모델입니다. IC-Net의 모델 구조는 U-Net과 유사하나 해상도에 따른 이미지 인풋을 추가하고 FPN과 같은 구조를 더하여 일정 수준의 성능을 내면서도 속도가 real-time에 가까운 모델인 것 같습니다. Cascade 구조가 동화 선배가 소개했던 cascade-rcnn과 같이 이미지 정보를 인식하는 데에 굉장히 효과적인 구조라고 생각되며, segmentation 분야가 적용 분야가 많으면서도 속도가 굉장히 중요하다고 생각하는만큼, 앞으로 이러한 연구가 활발히 진행될 것이라고 생각합니다. 앞으로도 좋은 논문 소개와 연구 기대하겠습니다. 깔끔한 발표 감사합니다.
Hoonsang Yoon

2021-03-07 17:04

본 세미나에서는 Pixel별로 분류를 수행하는 Semantic Segmentation 기법 중 대표적인 PSPNet과 ICNet에 대해 설명하였습니다. PSPNet은 mIOU, Pixel 정확도 면에서 성능이 좋지만, 해상도, Channel 크기가 증가할 수록 시간복잡도가 지수적으로 증가해 속도가 매우 느려진다는 단점이 있습니다. 이를 극복하기 위하여 ICNet에서는 저해상도에만 무거운 CNN인 PSPNet-50을 사용하고, 고해상도에서는 Conv 연산을 적게 수행합니다. 개별적 Conv에서 도출된 Feature Map을 Aggregate하여 Coarse Prediction을 보강하는 것이 ICNet의 주요 절차이며 이를 통해 적은 성능 저하와 높은 속도 향상을 이룩하게 됩니다. 또한 논문에서는 Feature Map 크기 감소, Kernel 개수에 따라 성능 하락과 속도 향상의 수준을 비교하는 실험도 제시하였습니다. Vision은 항상 어렵게 느껴지지만, 앞으로 많이 배우도록 하겠습니다. 좋은 발표 감사합니다.
Takyoung Kim

2021-03-15 16:38

Instance segmentation이 같은 클래스에 속한 다른 객체도 각각 구분하여 분류를 수행한다면, semantic segmentation은 같은 클래스 내의 객체를 동일하게 인식하고 분류를 수행합니다. 발표 초반에 개념에 대해 명확하게 정의해주셔서 이해할 수 있었습니다. Real-time 류의 task는 yolo 등이 수행하는 detection만 있는 줄 알았는데 segmentation task에서도 real-time 구현이 가능하다는 주장을 보고 새삼 빠른 발전속도를 체감할 수 있었습니다. Segmentation에서는 픽셀 별로 분류를 수행하기 때문에 coarse한 feature map만으로는 객체 간 경계를 구분하기 어렵기 때문에 bilinear interpolation과 dilated convolution을 사용한다고 이해하였습니다. 발표에서는 PSPNet과 ICNet을 소개해주셨는데, 많은 vision task에서 pyramid 구조를 차용하는 것을 본 적이 있어 흥미롭게 들었습니다. ICNet은 성능을 약간 희생하여 고해상도 이미지에서 PSPNet의 무거운 연산량을 줄이는 방법으로 학습을 수행합니다. 이에 따라 성능의 감소를 최소화하는 것이 중요한 이슈일텐데, 제안된 cascade feature fusion은 작은 이미지도 큰 이미지와 어느정도 공유하는 feature가 존재한다는 사실을 잘 이용한 트릭인 것 같습니다. 발표 잘 들었습니다.
Heejeong Choi

2021-03-22 18:06

금일 발표는 "ICNet for Real-Time Semantic Segmentation on High-Resolution Images"라는 주제로 진행되었습니다. 본 발표에서는 저해상도 이미지에 heavy CNN을 적용하여 real time 수준으로 segmentation의 속도를 향상시키고 Cascade Feature Fusion을 통해 성능 저하를 최소화한 Image Cascade Network가 소개되었습니다. 먼저 저희 연구실에서는 segmentation 관련 방법론들이 소개된 적이 적기 때문에 관심을 가지고 발표를 청취하였습니다. 본 논문에서 인상적이었던 점은 기존 방법론들의 한계점을 기반으로 문제를 잘 정의하고 이를 해결하기 위한 방법들을 잘 명시했다는 점이었습니다. 더불어 저해상도의 rich semantic 정보와 low branch에서 놓친 boundary와 같은 세부 정보 모두 포함하기 위해 사용한 Cascade Feature Fusion도 인상적이었습니다. 특히 이 부분은 multiresolution을 사용하는 이상치 탐지 모델에도 적용 가능할 것 같다는 생각이 들어 더 흥미로웠습니다. 좋은 발표 감사합니다.

« [Paper Review] Geometic Graph Convolutional Networks

[Paper Review] FreeLB: Enhanced Adversarial Training for Natural Language Understanding »

목록보기

전체 556

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 15352	관리자	2020.03.12	0	15352
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 14095	관리자	2020.03.12	0	14095
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 15051	관리자	2020.03.12	0	15051
553	New [Paper Review] Why CLIP fails at Dense Prediction Task? (1) Jinwoo Jang \| 2026.04.06 \| 추천 0 \| 조회 34	Jinwoo Jang	2026.04.06	0	34
552	[Paper Review] Dynamic Large Concept Models (8) Jaeyong Ko \| 2026.03.30 \| 추천 0 \| 조회 117	Jaeyong Ko	2026.03.30	0	117
551	[Paper Review] Programming Refusal with Conditional Activation Steering (15) Sunmin Kim \| 2026.03.10 \| 추천 0 \| 조회 378	Sunmin Kim	2026.03.10	0	378
550	[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (9) Sunghun Lim \| 2026.03.01 \| 추천 0 \| 조회 318	Sunghun Lim	2026.03.01	0	318
549	[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (9) Suyeon Shin \| 2026.02.25 \| 추천 0 \| 조회 240	Suyeon Shin	2026.02.25	0	240
548	[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10) Jaehyuk Heo \| 2026.02.12 \| 추천 0 \| 조회 486	Jaehyuk Heo	2026.02.12	0	486
547	[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (9) Hyeongwon Kang \| 2026.02.10 \| 추천 0 \| 조회 467	Hyeongwon Kang	2026.02.10	0	467
546	[Paper Review] Introduction to Neural Operator (10) Hankyeol Kim \| 2026.02.03 \| 추천 0 \| 조회 557	Hankyeol Kim	2026.02.03	0	557
545	[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (13) Sieon Park \| 2026.01.29 \| 추천 0 \| 조회 576	Sieon Park	2026.01.29	0	576
544	[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (13) Subeen Cha \| 2026.01.28 \| 추천 0 \| 조회 385	Subeen Cha	2026.01.28	0	385

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호