*개인적으로 공부한 내용을 백업한 것으로 설명이 불친절합니다. 위키독스(https://wikidocs.net/21698) 를 보고 공부한 내용입니다. 프로보노 프로젝트에서 머신러닝 엔진을 정한 후 전처리 개발을 맡아 개발하던 중 전처리를 해야 하는 이유와 자연어를 토큰화하고 인덱싱해야하는 근본적인 이유에 대해 의문점이 생겨 개인적으로 공부하게 되었다. 또한 우리가 사용하고자 하는 데이터 셋은 한국어로 된 자연어이기 때문에 기존 영어 파이썬 자연어 처리(Natural Language Processing, NLP) 라이브러리를 사용했을 때 제대로 처리가 되지 않았다. 그 이유도 함께 알아보고자 하였다. 토큰화를 한다는게 뭐지? 토큰화란? 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처..