한국어 전처리
데이터 확보
한국어 위키백과 | 한국어 위키백과 |
KorQuAD | 한국어 기계독해를 위한 데이터 셋, 2018년 LG CNS가 구축, 약 7만80건, 질문과 답변 쌍 |
네이버 영화리뷰 | 네이버 영화리뷰, 감성분석, 문서분류 태스크에 제격 |
지도학습기반 형태소 분석
KoNLPy | 은전한닢, 꼬꼬마, 한나눔, Okt, 코모란 등 5개 오픈소스 형태소 분석기를 파이썬 환경에서 사용할 수 있도록 인터페이스를 통일한 한국어 자연어 처리 패키지 |
Khaiii | 2018년 카카오가 공개한 오픈소스 한국어 형태소분석기, CNN with 세종코퍼스 |
비지도학습기반 형태소 분석
soynlp | 형태소분석, 품사판별 등을 지원하는 파이썬 기반 한국어 자연어 처리 패키지 (말뭉치의 통계량을 바탕으로 학습) |
구글 센텐스피스 | 구글에서 공개한 비지도 학습기반 형태소 분석 패키지 (바이트 페이 인코딩:BPE, 말뭉치에서 가장 많이 등장한 문자열을 병합해 문자열을 압축) |
Leave a comment