문장수준 임베딩(Transformer)

less than 1 minute read

입력(X)은 기본적으로 행렬 형태를 가지며 그 크기는 입력 문장의 단어x입력 임베딩의 차원수
드디어, 금요일, 이다 -> 이 레이어의 입력 행렬의 크기는 3x768이 된다. (히든 차원 수가 768차원 이라면)

트랜스포머의 Scaled Dot-Product Attention 매커니즘은 쿼리(query), 키(key), 값(value) 세 가지 사이의 다이내믹스가 핵심

Scaled Dot-Product Attention은 어떻게 단어들 사이의 의미적, 문법적 관계를 포착해 낼 수 있는 걸까.

행은 쿼리단어들에 대응하며, 열은 키 단어들에 대응한다. 쿼리 단어들과 키 단어들이 서로 같은걸 확인할 수 있다. 이런 어텐션을 ‘셀프어텐션’ 이라고 한다.
다시말해, 같은 문장내 모든 단어쌍 사이의 의미적, 문법적 관계를 포착해 낸다는 뜻이다.

트랜스포머 블록에서 멀티헤드 어텐션은 Scaled Dot-Product Attention을 여러번 시행하는것을 가리킨다.

멀티헤드 어텐션 레이어의 출력행렬을 행벡터 단위로

[부의 사다리] 한국형 올웨더 포트폴리오