한국어 전처리

less than 1 minute read

데이터 확보
구분
내용
한국어 위키백과 한국어 위키백과
KorQuAD 한국어 기계독해를 위한 데이터 셋, 2018년 LG CNS가 구축, 약 7만80건, 질문과 답변 쌍
네이버 영화리뷰 네이버 영화리뷰, 감성분석, 문서분류 태스크에 제격
지도학습기반 형태소 분석
구분
내용
KoNLPy 은전한닢, 꼬꼬마, 한나눔, Okt, 코모란 등 5개 오픈소스 형태소 분석기를 파이썬 환경에서 사용할 수 있도록 인터페이스를 통일한 한국어 자연어 처리 패키지
Khaiii 2018년 카카오가 공개한 오픈소스 한국어 형태소분석기, CNN with 세종코퍼스
비지도학습기반 형태소 분석
구분
내용
soynlp 형태소분석, 품사판별 등을 지원하는 파이썬 기반 한국어 자연어 처리 패키지 (말뭉치의 통계량을 바탕으로 학습)
구글 센텐스피스 구글에서 공개한 비지도 학습기반 형태소 분석 패키지 (바이트 페이 인코딩:BPE, 말뭉치에서 가장 많이 등장한 문자열을 병합해 문자열을 압축)

Leave a comment