한국어임베딩(1장)
전이학습: 임베딩을 다른 딥러닝 모델의 입력값으로 쓰는 기법
전이학습(transfer learning) = Pre-training + Fine-tuning
품질좋은 임베딩이 고성능 언어처리 모델을 만드는데 중요구성 요소이다.
| 1. NPLM | 1. LSA |
| 2. Word2Vec | 2. Doc2Vec |
| 3. FastText | 3. LDA(잠재디리클레할당) |
| 4. LSA(잠재의미분석) | 4. ELMO |
| 5. Glove | 5. GPT |
| 6. Swivel | 6. BERT |
임베딩 구축
| 1. 말뭉치 전처리(pre-process) 오픈소스 | 2. 임베딩 파인 튜닝(fine-tuning) |
| 1) KoNLPy | 1) |
| 2) soynlp | 2) |
| 3) 구글 센텐스피스(sentencepiece) | 3) |
단어 수준 임베딩 기법의 단점 -> 동음이의어의 분간 어려움 -> 문장 수준의 임베딩 기법 주목
Leave a comment