[Paper Review] Safety Layers in Aligned Large Language Models: The Key to LLM Security

Paper Review
작성자
Sunmin Kim
작성일
2025-11-25 21:00
조회
884
  1. 논문 제목
    • Safety Layers in Aligned Large Language Models: The Key to LLM Security
    • 논문 링크 : https://arxiv.org/abs/2408.17003
    • Venue: ICLR 2025
  2. Overview
    • Safety Layers의 존재 확인: 레이어별 벡터 유사도 분석을 통해, 정상 질의와 악성 질의를 구분하기 시작하는 특정 중간 레이어 구간을 발견
    • Safety Layers 위치 탐지 알고리즘 제안: ‘over-rejection’ 현상과 파라미터 스케일링을 활용해 각 모델별 안전층의 정확한 범위를 찾음
    • SPPFT 제안 (Safely Partial-Parameter Fine-Tuning): 안전층의 파라미터를 고정한 채 나머지 부분만 fine-tuning함으로써, 보안을 유지하면서도 성능을 유지할 수 있는 기법을 제안
  3. 발표 자료 및 발표 영상
    • 발표 자료: 하단 첨부
    • 발표 영상:
전체 12

  • 2025-11-25 22:49

    이번 세미나는 Safety Layers in Aligned Large Language Models: The Key to LLM Security라는 논문으로 LLM의 악성 입력에 대한 보안을 다루는 논문이 였습니다. 해당 논문은 fine-tuning 과정에서 보안에 대한 문제가 발생하게 되며 이를 위해 단순 layer freezing을 통해 해결 가능함을 보였습니다. layer freezing을 위한 layer 선택 과정에서 residual의 factor를 조절하여 악성에 대한 대응책이 아닌 정상에 대한 성능 저하를 기준으로 safety layer를 찾는 방법을 사용합니다. 이는 새로운 인사이트를 제공하고 있으며 타 분야에서도 적용할 수 있는 생각의 전환을 제시해주어 새롭게 다가왔습니다. 추후 연구들에서 밝혀지겠지만 명확히 Safety Layer이 효과적인 이유에 대해서 다루기 힘들었다는 것이 아쉬웠습니다. 좋은 논문 소개해주셔서 감사합니다.


  • 2025-11-27 16:12

    금일 세미나는 “Safety Layers in Aligned Large Language Models: The Key to LLM Security” 논문을 중심으로 진행되었습니다. 본 연구는 LLM의 security alignment 문제를 다루고 있으며, 이미 안전하게 사전학습된 aligned LLM이라고 하더라도 특정 도메인에 맞추기 위한 fine-tuning 과정에서 기존의 safety alignment가 훼손될 수 있다는 문제제기에서 출발합니다. 저자들은 aligned LLM 내부에 safety를 담당하는 특정 layer가 존재함을 실증적으로 확인하고, 이 safety layer를 손상시키지 않으면서 fine-tuning을 수행할 수 있는 새로운 접근법을 제안합니다. 특히 safety layer의 존재를 검증하고, 그 위치를 체계적으로 규명해 나가는 과정이 매우 인상적이었습니다. 다만 일부 실험에서는 보다 엄밀한 실험 설정이 적용되었다면 저자들의 주장과 기여가 더 명확하게 드러났을 것이라는 아쉬움도 있었습니다. 물론, 전반적으로 LLM 안전성 연구를 이러한 방식으로 접근할 수도 있구나 등 다방면에서 좋은 인사이트를 얻을 수 있었던 것 같습니다. 좋은 발표 정말 감사드립니다.


  • 2025-12-01 13:50

    이번 세미나에서는 Safety Layers in Aligned Large Language Models: The Key to LLM Security라는 논문을 소개해주셨습니다. Aligned LLM이 Fine-tuning 시 safety alignment가 훼손되는 문제를 해결하기 위해, 모델 내부에서 악성 의도를 식별하는 'Safety Layers'의 존재를 규명하고 이를 활용한 방어 기법을 제시했습니다. Cosine similarity 분석과 parameter scaling을 통해 악성 쿼리를 거부하는 특정 레이어 구간을 찾아냈으며, Safety Layers는 모델마다 약간의 차이가 있지만 비슷한 층에 형성됨을 밝혀내었습니다. 추가적으로 연구진은 해당 safety layer의 파라미터만 고정하고 나머지를 학습시키는 'SPPFT' 방법론을 제안했습니다. 실험 결과, 이 방법은 모델의 일반 성능을 유지하면서도 유해 질문에 대한 방어율을 효과적으로 보존하여, LLM 보안 연구를 layer-wise로 확장했다는 의의를 가집니다. Safety layers가 생각보다 큰 범위로 설정되어, specific한 safety 작동 기전을 밝혀내지는 못했지만, 추가적인 LLM의 post-training 시에 human-alignment를 유지할 수 있는 인사이트를 제공한 연구였다는 점에서 의의가 있었습니다. 좋은 논문 소개해주셔서 감사합니다.


  • 2025-12-02 10:52

    이번 세미나는 사전 학습된 LLM이 유해하거나, 편향된 출력을 생성하는 것을 방지하기 위해 RLHF, IFT 등을 수행한 이후 특정 도메인에 대한 Fine-Tuning 과정에서 모델이 악성 질문을 거부하는 데 기여하는 Safety Layers의 존재를 밝히고, 해당 레이어의 파라미터는 고정한 상태로 모델 보안 성능을 높이는 SPPFT를 제안한 “Safety Layers in Aligned Large Language Models: The Key to LLM Security”라는 논문에 대한 발표를 중심으로 진행되었습니다. LLM Security라는 분야를 처음 접하게 되었는데, 실제 악성 질문에 대한 문제로 인해 기존에도 여러 가지 사회적 문제점들이 발생했던 것을 고려해보았을 때, 높은 실용적 가치를 지닌 연구 분야라는 생각이 들었습니다. 특히 이러한 기능을 수행하는 특정 Layer가 LLMs 내에 존재한다는 사실이 매우 흥미로웠으며, 이를 고정한 상태로 Fine-Tuning을 수행해 모델의 Security를 유지한다는 방향성이 좋다는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.


  • 2025-12-03 23:01

    그동안은 AI의 safefy issue와 관련 기술에 대해 ChatGPT, Claude 등 여러 LLM 서비스 유저의 입장에서 피상적으로만 생각했는데, 본 세미나 덕분에 LLM에서 safety layer가 어떻게 동작하는지 생각해보는 시간을 가질 수 있었습니다. 모델 내부에 safety를 위한 역할을 중점적으로 담당하는 safefy layer라는 것이 존재한다는 가설과, normal-malicious query pair를 입력했을 때 각 layer에서 계산한 cosine similarity의 차이를 통해 이 가설을 어느 정도 입증한 것이 가장 인상깊었습니다. 물론 방대한 능력을 가진 LLM의 32개 layer 중 5-6개의 layer가 오로지 safety에 dedicated 되었을 리는 없기에 safety 말고도 다양한 representative power를 갖고 있을테니, 여러 갈래의 능력이 어떤 layer들에서 주로 발현되는지도 더 알아보고 싶어지기도 했습니다. Safety 관련 능력의 보존을 위해 논문에서 제안하는 SPPFT (Safely Partial-Parameter Fine-Tuning)은 safety layer들만 freezing 후 다른 영역의 parameter들로만 fine-tuning을 수행하는 방법으로, 직관적이고 다른 방향성의 연구들에서도 쉽게 pluggable한 방법이라고 생각되어 좋은 듯합니다. 연구에서 제시한 결과로 봤을 때는 모델마다 safety layer의 위치와 깊이가 대략 비슷한 것 같은데, 보다 큰 다른 모델들에서도 이러한 경향이 보편적으로 드러나는지도 궁금해졌습니다. 좋은 연구 소개 감사합니다!


  • 2025-12-04 17:03

    이번 세미나에서는 "Safety Layers in Aligned Large Language Models: The Key to LLM Security" 라는 주제로 진행되었습니다. 이 연구는 LLM 내부의 특정 중간 레이어들이 정상 질의와 악성 질의를 구분하는 'Safety Layers' 역할을 한다는 사실을 규명했습니다. 레이어별 벡터 유사도 분석을 통해 이러한 보안 층의 존재를 확인하고, 'over-rejection' 현상을 활용해 해당 구간을 정밀하게 탐지해낸 접근 방식이 매우 흥미로웠습니다. 무엇보다 이 발견을 바탕으로 안전층의 파라미터만 고정한 채 나머지 부분만 학습하는 SPPFT 기법을 제안하여, 파인튜닝 시 발생할 수 있는 보안 성능 저하 문제를 효과적으로 해결한 점이 인상 깊었습니다. LLM의 내부 메커니즘을 보안 관점에서 해석하고 실용적인 방법론으로 연결한 유익한 시간이었습니다. 좋은 발표 감사합니다.


  • 2025-12-04 20:55

    이번 세미나에서는 "Safety Layers in Aligned Large Language Models: The Key to LLM Security" 라는 논문을 중심으로 진행되었습니다. 해당 연구는 aligned LLM 내부에 실제로 안전 관련 기능을 수행하는 safety layers가 존재한다는 점을 실증적으로 보여준 점이 가장 흥미로웠습니다. 레이어별 표현 차이를 정량적으로 분석해 악성, 정상 쿼리를 구분하기 시작하는 지점을 찾고, 이를 기반으로 fine-tuning 시 해당 구간만 고정하는 SPPFT 방식을 제안한 것도 실용적인 접근이라고 느꼈습니다. 또한 full fine-tuning 대비 보안 성능을 유지하면서도 downstream 성능 저하가 없었다는 실험 결과가 인상적이었습니다. 다만 모델 크기가 더 큰 경우에도 동일한 경향이 유지되는지, alignment 방식에 따라 safety layers의 범위가 달라지는지 등은 앞으로 확인이 필요한 부분이라고 생각합니다. 전체적으로, LLM 안전성을 모델 내부 구조 관점에서 해석하려는 유의미한 시도였다고 생각합니다. 좋은 발표 감사합니다!


  • 2025-12-07 10:27

    이번 세미나에서는 aligned LLM 내부에 안전성을 담당하는 safety layers가 존재한다는 연구가 소개되었습니다. 레이어별 cosine similarity 분석을 통해 정상 입력과 악성 입력이 중간 구간에서부터 뚜렷하게 구분되기 시작한다는 점이 확인되었고, 이 지점이 안전성과 관련된 층일 가능성이 높다는 논리도 흥미로웠습니다.

    또한 over-rejection을 활용해 safety layer 범위를 세밀하게 찾아가는 방식이 제안되었고, 해당 구간만 고정한 상태에서 fine-tuning을 진행하는 SPPFT 기법 역시 소개되었습니다. 이 방법은 보안 성능을 유지하면서도 downstream 성능 저하가 크지 않았다는 결과를 보여 주었는데, 실제 적용성 측면에서도 의미 있는 접근으로 느껴졌습니다.

    다만 모델 크기가 더 커졌을 때도 동일한 패턴이 유지될지, alignment 방식에 따라 차이가 생길지는 앞으로 더 확인해볼 필요가 있어 보입니다. 좋은 발표 감사합니다 🙂


  • 2025-12-08 21:00

    이번 세미나에서는 “Safety Layers in Aligned Large Language Models: The Key to LLM Security” 논문을 중심으로, LLM 내부에서 안전성(safety)이 어떻게 구현되고 유지되는가를 구조적 관점에서 분석한 흥미로운 연구를 살펴보았습니다. 발표를 통해 aligned LLM이라고 하더라도 downstream fine-tuning 과정에서 기존의 safety alignment가 쉽게 훼손될 수 있으며, 그 원인이 모델 내부의 특정 구간(safety layers)에 집중되어 있다는 점을 실증적으로 제시했다는 것이 가장 인상적이었습니다. 저자들이 normal–malicious 쿼리 쌍을 레이어별 표현 차이로 비교해 safety 기능이 발현되기 시작하는 지점을 규명하고, 이를 바탕으로 해당 범위를 고정한 채 나머지 파라미터만 학습하는 SPPFT(Safely Partial-Parameter Fine-Tuning)를 제안한 방식은 직관적이면서도 실용적인 접근이라고 느껴졌습니다. 실제로 full fine-tuning 대비 안전성 유지가 가능하면서도 성능 저하가 거의 없었다는 결과는 제안 기법의 적용 가능성을 뒷받침해주었습니다. 물론 모델 크기나 사전 alignment 방식에 따라 safety layer의 범위가 달라지는지, 또는 safety 기능 외 다른 능력이 동일한 레이어에 얼마나 혼재되어 있는지 등은 아직 추가 검증이 필요한 부분이라고 생각됩니다. 그럼에도 불구하고 이번 발표는 LLM 안전성을 단순 external filtering 차원이 아닌 모델 내부 표현 구조 관점에서 해석하려는 새로운 시도를 보여주며, 앞으로의 안전성 연구에 다양한 통찰을 제공했다고 느껴졌습니다. 좋은 발표 준비해주셔서 감사합니다!


  • 2025-12-13 17:16

    이번 세미나는 “Safety Layers in Aligned Large Language Models: The Key to LLM Security” 논문을 바탕으로, aligned LLM이 도메인 adaptation을 위한 fine-tuning 과정에서 safety alignment가 약화될 수 있다는 현실적인 문제를 다룬 발표였습니다. 특히 layer-wise representation 차이를 (cosine similarity 등으로) 분석해 정상/악성 질의가 구분되기 시작하는 구간을 ‘Safety Layers’로 식별하고, 해당 구간을 freezing한 채 나머지 파라미터만 학습하는 SPPFT(Safely Partial-Parameter Fine-Tuning)로 안전성을 유지한다는 접근이 직관적이면서도 실용적으로 느껴졌습니다. 다만 Safety Layer가 왜 그 구간에서 형성되는지에 대한 메커니즘적 설명이 아직은 제한적이라, 모델 규모(scale)나 alignment 방법(RLHF/IFT 등)에 따라 동일한 패턴이 얼마나 보편적으로 유지되는지 후속 검증이 더 궁금해졌습니다. 유익한 논문 소개와 발표 감사합니다.


  • 2025-12-13 18:20

    이번 세미나에서는 “Safety Layers in Aligned Large Language Models: The Key to LLM Security” 논문을 중심으로, aligned LLM이 downstream fine-tuning 과정에서 기존의 safety alignment를 어떻게 잃을 수 있는지, 그리고 이를 구조적으로 어떻게 보존할 수 있는지를 다룬 흥미로운 연구를 살펴보았습니다. 특히 모델 내부의 특정 중간 레이어들이 정상 질의와 악성 질의를 구분하는 데 중요한 역할을 한다는 점을 실증적으로 보여주고, 이를 ‘Safety Layers’로 정의한 접근이 인상 깊었습니다. 단순히 악성 입력에 대한 방어 성능만을 기준으로 레이어를 찾는 것이 아니라, over-rejection이나 정상 성능 저하를 활용해 safety layer의 범위를 규명한 점이 새로운 시각을 제공했다고 느꼈습니다. 또한 해당 레이어만 고정한 채 나머지 파라미터를 학습하는 SPPFT 방식은 직관적이면서도 실제 fine-tuning 환경에서 바로 적용 가능해 보이는 실용적인 방법론이라는 생각이 들었습니다. 다만 safety 기능이 왜 특정 구간의 레이어에 집중되어 나타나는지에 대한 메커니즘적 설명은 아직 부족해 보였고, 모델 규모나 alignment 방식에 따라 이러한 경향이 얼마나 보편적인지도 추가 연구가 필요해 보였습니다. 그럼에도 불구하고 LLM 안전성을 모델 내부 표현과 구조 관점에서 해석하려는 시도 자체가 매우 의미 있었고, 향후 LLM security 및 alignment 연구에 많은 인사이트를 줄 수 있는 발표였다고 생각합니다. 좋은 논문 소개와 발표 감사합니다.


  • 2025-12-08 21:00

    이번 세미나에서는 “Safety Layers in Aligned Large Language Models: The Key to LLM Security” 논문을 바탕으로, 정렬된 LLM이 실제 환경에서 안전하게 동작하기 위해 어떤 구조적 장치들이 필요한지를 살펴보는 시간을 가졌습니다. 발표에서는 LLM이 단순히 사전 학습과 정렬만으로는 충분히 안전해지기 어렵고, 다양한 위험 상황을 방지하기 위한 추가적인 안전 계층(safety layers)이 필수적이라는 문제의식이 잘 전달되었습니다. 안전 계층은 크게 입력 필터링, 모델 내부 제어, 출력 검증이라는 단계로 나눠지며, 각 계층이 서로 다른 유형의 위험을 줄이기 위해 협력적으로 작동하도록 설계된다는 점이 인상적이었습니다. 이러한 다층적 안전 설계는 단일 메커니즘에 의존하는 방식보다 훨씬 안정적이라는 설명이 설득력 있게 다가왔습니다. 또한 발표에서는 안전 계층이 단순한 제한 장치가 아니라, LLM을 실제 서비스나 산업 환경에서 신뢰성 있게 활용하기 위한 핵심 요소라는 점을 강조해주셨습니다. 모델의 기능을 손상시키지 않으면서도 위험을 효과적으로 줄이는 균형 잡힌 설계가 필요하다는 논의도 흥미로웠습니다. 이번 발표를 통해 LLM 안전성을 구조적으로 바라볼 수 있는 관점을 얻게 되었고, 실용적인 LLM 시스템을 구축하는 과정에서 어떤 요소들이 반드시 고려되어야 하는지를 생각해볼 수 있는 유익한 시간이었습니다. 좋은 발표 감사합니다!


전체 554
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 14839
관리자 2020.03.12 0 14839
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 13587
관리자 2020.03.12 0 13587
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 14531
관리자 2020.03.12 0 14531
551
[Paper Review] Programming Refusal with Conditional Activation Steering (10)
Sunmin Kim | 2026.03.10 | 추천 0 | 조회 135
Sunmin Kim 2026.03.10 0 135
550
[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (8)
Sunghun Lim | 2026.03.01 | 추천 0 | 조회 197
Sunghun Lim 2026.03.01 0 197
549
[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (8)
Suyeon Shin | 2026.02.25 | 추천 0 | 조회 144
Suyeon Shin 2026.02.25 0 144
548
[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10)
Jaehyuk Heo | 2026.02.12 | 추천 0 | 조회 340
Jaehyuk Heo 2026.02.12 0 340
547
[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (8)
Hyeongwon Kang | 2026.02.10 | 추천 0 | 조회 308
Hyeongwon Kang 2026.02.10 0 308
546
[Paper Review] Introduction to Neural Operator (10)
Hankyeol Kim | 2026.02.03 | 추천 0 | 조회 377
Hankyeol Kim 2026.02.03 0 377
545
[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (12)
Sieon Park | 2026.01.29 | 추천 0 | 조회 439
Sieon Park 2026.01.29 0 439
544
[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (12)
Subeen Cha | 2026.01.28 | 추천 0 | 조회 312
Subeen Cha 2026.01.28 0 312
543
[Paper Review] Model Merging for Continual Learning (11)
Hun Im | 2026.01.24 | 추천 0 | 조회 307
Hun Im 2026.01.24 0 307
542
[Paper Review] Selective Learning for Deep Time Series Forecasting (13)
Jinwoo Park | 2026.01.24 | 추천 0 | 조회 436
Jinwoo Park 2026.01.24 0 436

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호