한국어임베딩(1장)

less than 1 minute read

전이학습: 임베딩을 다른 딥러닝 모델의 입력값으로 쓰는 기법
전이학습(transfer learning) = Pre-training + Fine-tuning
품질좋은 임베딩이 고성능 언어처리 모델을 만드는데 중요구성 요소이다.

단어수준의 임베딩
문장수준의 임베딩
1. NPLM 1. LSA
2. Word2Vec 2. Doc2Vec
3. FastText 3. LDA(잠재디리클레할당)
4. LSA(잠재의미분석) 4. ELMO
5. Glove 5. GPT
6. Swivel 6. BERT

임베딩 구축

임베딩 구축 전
임베딩 구축 후
1. 말뭉치 전처리(pre-process) 오픈소스 2. 임베딩 파인 튜닝(fine-tuning)
1) KoNLPy 1)
2) soynlp 2)
3) 구글 센텐스피스(sentencepiece) 3)

단어 수준 임베딩 기법의 단점 -> 동음이의어의 분간 어려움 -> 문장 수준의 임베딩 기법 주목

Leave a comment