본문으로 이동

잠재 지식

위키백과, 우리 모두의 백과사전.

잠재 지식(영어: latent knowledge)은 대형 언어 모델)의 임베딩·활성 등 파라미터와 잠재 표현 속에 직접 관찰되지 않는 형태로 내재된 사실·개념 정보를 가리키는 용어이다. 이 개념은 LLM이 학습 데이터로부터 형성한 내부 표현을 바탕으로, 모델이 출력으로 표명하는 내용과는 독립적으로 무엇을 알고 있는지를 계량·복원하려는 연구 맥락에서 사용된다.[1][2] 학계·업계에서 통일된 표준 정의가 확정된 개념은 아니나, 무감독(latent) 추정, 대비쌍 프로빙, 희소 오토인코더(SAE) 기반의 해석가능성 연구 등에서 공통적으로 쓰인다.[3][4]

개요

[편집]

잠재 지식은 LLM의 내부 활성 공간에서 특정 사실·개념이 재현 가능하고 일관된 패턴(방향·피처)으로 표현된다는 가설에 기초한다. 연구자들은 (1) 출력 텍스트를 신뢰하지 않는 상황에서도 내부 표현만으로 참·거짓 신호를 복원하는 무감독 기법,[1] (2) 의도적 오류를 유발하는 컨텍스트에서도 대비쌍 프로브로 내부 지식을 판별하는 기법,[2] (3) 희소 오토인코더로 중첩(superposition)된 피처를 분해해 모노시맨틱(단의미) 피처를 지도화하는 기법 등을 통해 잠재 지식을 탐지·정량화한다.[3][4]

역사

[편집]
2022–2023 - 발견·정식화 단계

무감독 방식으로 내부 활성에서 논리 일관성을 만족하는 방향(진술↔부정 반대성)을 찾아, 라벨이나 출력 없이도 예/아니오 지식을 회수(CCS)하는 방법이 제안되었다.[1] 동일 시기 ‘ELK’ 문제를 실증적으로 다룬 연구는 특정 키워드가 포함될 때 의도적으로 틀리게 답하도록 미세조정한 LLM(‘quirky’ LM)을 공개하고, 선형/로지스틱 대비쌍 프로브가 중간 층에서 특히 강하게 내부 지식을 보고함을 보였다.[2]

2023–2024 - 표현 구조의 해부

토이모델로 superposition을 정식화하고,[3] 사전학습 언어모델의 잔차 스트림·MLP 등에서 SAE로 해석 가능한 피처를 대규모로 추출하는 스케일링 결과가 발표되었다.[4]

2024– - 추론·안전 평가와의 연계

추론형 훈련(o1 계열 등)에서 내부 숙고를 활용해 정책 준수·자기점검을 강화하는 시스템 카드가 공개되었고, 이는 내부 표현–출력 간 정합성 관리와 안전 평가의 연계를 제도화하는 흐름으로 해석된다.[5]

핵심 개념

[편집]
  • 표현 정합성(representational coherence): 동일 개념이 층·토큰 위치 등 맥락 변화에도 안정된 활성 방향/피처로 재현되는 성질.[4]
  • 논리 정합성(logical coherence): 진술과 부정이 내부 공간에서 반대 방향을 이루는 등, 논리 제약을 만족하는 성질.[1]
  • 사실 정합성(factual coherence): 출력이 왜곡된 상황에서도 내부 지식으로 정답을 복원할 수 있는 성질.[2]

연구 방법

[편집]
무감독 일관성 제약(Contrast-Consistent Search 등)

출력을 사용하지 않고 내부 활성에서 논리 제약(진술/부정 반대성)을 만족하는 방향을 학습하여 예/아니오 사실을 회수한다. 제로샷 대비 평균 성능 향상과 프롬프트 민감도 감소가 보고되었다.[1]

대비쌍 프로빙(ELK 맥락)

정상/왜곡(예: 특정 키워드 삽입) 컨텍스트를 대비쌍으로 구성해 선형/로지스틱 프로브를 학습하고, 출력과 무관하게 내부 지식의 신호를 판별한다. 중간 층에서 강한 AUROC, 어려운 문제에서도 유의한 복원률이 보고되었다.[2]

희소 오토인코더(SAE)·사전학습 피처 지도화

superposition으로 중첩된 피처를 희소 부호화로 분해하여 모노시맨틱 피처를 추출·라벨링한다. 대형 상용 모델(예: Claude 3 Sonnet)에서 추출된 피처 중 일부는 안전·정책 관련 신호와도 연관된다.[3][4]

측정 지표

[편집]
  • 코사인 일관성: 진술–부정 활성 방향의 코사인 부호·크기(논리 정합성 지표).[1]
  • 프로빙 AUROC/정확도: 대비쌍 프로브로 측정한 내부 지식 판별 성능(사실 정합성 지표).[2]
  • 희소성·재현성·독립도: SAE 피처의 스파시티, 반복 실험 간 재현율, 피처 간 상관(표현 정합성 지표).[4]

위험과 한계

[편집]
  • 프로브 과적합·스팟라이트 효과로 인해 특정 분포에서만 성능이 높게 측정될 수 있다.[2]
  • superposition 잔여: SAE 분해 후에도 완전한 단의미 보장이 어렵고, 라벨링에 주관이 개입될 수 있다.[3][4]
  • 출력–내부 괴리의 정책 리스크: 모델이 내부적으로 지식을 보유하되, 정책·프롬프트 조건에 따라 겉출력이 달라질 수 있어 시스템 차원의 평가·모니터링이 필요하다.[5]

같이 보기

[편집]

각주

[편집]
  1. Burns, Collin; Ye, Haotian; Klein, Dan; Steinhardt, Jacob (2022년 12월 7일). “Discovering Latent Knowledge in Language Models Without Supervision” (영어). 《arXiv》. doi:10.48550/arXiv.2212.03827. 
  2. Mallen, Alex; Brumley, Madeline; Kharchenko, Julia; Belrose, Nora (2023년 12월 2일). “Eliciting Latent Knowledge from Quirky Language Models” (영어). 《arXiv》. 
  3. Elhage, Nelson; Hume, Tristan; Olsson, Catherine; Schiefer, Nicholas; Henighan, Tom (2022년 9월 21일). “Toy Models of Superposition” (영어). 《arXiv》. doi:10.48550/arXiv.2209.10652. 
  4. “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet” (영어). 《Transformer Circuits》. 2024년 5월 21일. 
  5. “OpenAI o1 System Card” (PDF) (영어). 《OpenAI》. 2024년 12월 5일. 

참고 문헌

[편집]
  • Bengio, Yoshua, Aaron Courville, and Pascal Vincent. “Representation Learning: A Review and New Perspectives.” IEEE Transactions on Pattern Analysis and Machine Intelligence 35, no. 8 (2013): 1798–1828.
  • Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning. Cambridge, MA: MIT Press, 2016.
  • Bricken, Trenton, Jonathan Marcus, Siddharth Mishra-Sharma, et al. “Towards Monosemanticity: Decomposing Language Models with Dictionary Learning.” Transformer Circuits Thread, 2023.