klue
-
부스트캠프 ai tech 2기 9주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 10. 1. 23:58
강의 복습 2강 자연어의 전처리 전처리 : 원시 데이터(raw data)를 기계 학습 모델이 학습하는데 적합하도록 수집&가공하는 모든 프로세스. 결국 가장 중요한 것은 데이터이므로 Task의 성능을 가장 확실하게 올릴 수 있는 방법이다. 전처리 예시 : 개행문자 제거, 특수문자 제거, 공백 제거, 중복 표현 제어 (ᄏᄏᄏᄏᄏ, ᅲᅲᅲᅲ, ...), 이메일 제거, 링크 제거, 제목 제거, 불용어 (의미가 없는 용어) 제거 조사 제거, 띄어쓰기, 문장분리 보정... 토큰화(Tokenizing) : 주어진 데이터를 토큰(Token)이라 불리는 단위로 나누는 작업으로, 토큰이 되는 기준은 다를 수 있다. (어절, 단어, 형태소, 음절, 자소 등) 3강 BERT 언어모델 소개 BERT : 트랜스포머 기반의 모델로..