[NIPA AI 교육/응용] 08. 자연어 처리를 위한 데이터 전처리
1. 오류 교정(Noise Canceling) 자연어 문장의 스펠링 체크 및 띄어쓰기 오류 교정 2. 토큰화(Tokenizing) 문장을 토큰(Token)으로 나눔(수치 변환) 토큰은 어절, 단어 등으로 목적에 따라 다르게 정의 3. 불용어 제거(StopWord Removal) 불필요한 단어를 의미하는 불용어(StopWord) 제거 ex. 아, 휴, 아이고, 아이쿠, 쉿, 그렇지 않으면, 그러나, 그런데, 하지만... 4. Bag of Words 자연어 데이터에 속해있는 단어들의 가방 5. 토큰 시퀀스 Bag of Words에서 단어에 해당되는 인덱스로 변환 모든 문장의 길이를 맞추기 위해 기준보다 짧은 문장에는 패딩을 수행 X_train, y_train, X_test, y_test = data_proc..