배경 - 세종 코퍼스에는 수십만 개의 단어가 존재 - `브론스끼`, `내무국장` 등과 같이 현재는 거의 사용되지 않는 단어들이 다수 포함되어 있음 - 코퍼스 내 단어 출현 빈도로 pruning 을 하면 코퍼스 내 출현 빈도가 낮지만 현재도 자주 사용되는 `평정심 (freq. : 1)` 과 같은 단어들이 사라지는 현상 발생 Tasks - [x] 빈도수 n 개 미만인 NNG 리스트 구축 - [ ] 구글에 exact match query를 통해 검색된 문서의 수를 확인 - [ ] 문서의 수에 따라 사전에서 사용할 NNG 추출 후 사전 등록 AC - 세종 코퍼스에서 출현한 단어들 중 현재도 자주 사용되는 단어들의 리스트를 확인할 수 있다.
배경
브론스끼,내무국장등과 같이 현재는 거의 사용되지 않는 단어들이 다수 포함되어 있음평정심 (freq. : 1)과 같은 단어들이 사라지는 현상 발생Tasks
AC