-
부스트캠프 ai tech 2기 9주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 10. 1. 23:58
강의 복습
2강 자연어의 전처리
전처리 : 원시 데이터(raw data)를 기계 학습 모델이 학습하는데 적합하도록 수집&가공하는 모든 프로세스. 결국 가장 중요한 것은 데이터이므로 Task의 성능을 가장 확실하게 올릴 수 있는 방법이다.
전처리 예시 : 개행문자 제거, 특수문자 제거, 공백 제거, 중복 표현 제어 (ᄏᄏᄏᄏᄏ, ᅲᅲᅲᅲ, ...), 이메일 제거, 링크 제거, 제목 제거, 불용어 (의미가 없는 용어) 제거 조사 제거, 띄어쓰기, 문장분리 보정...
토큰화(Tokenizing) : 주어진 데이터를 토큰(Token)이라 불리는 단위로 나누는 작업으로, 토큰이 되는 기준은 다를 수 있다. (어절, 단어, 형태소, 음절, 자소 등)
3강 BERT 언어모델 소개
BERT : 트랜스포머 기반의 모델로, 언어모델 사전학습 과정에서 input sentence의 15% 정도의 단어를 mask 처리하여 학습에 더 어려운 task를 부여한 모델.
4강 한국어 BERT 언어 모델 학습
BERT 학습의 단계 :
1. Tokenizer 만들기
2. 데이터셋 확보
3. Next sentence prediction (NSP)
4. Masking
5강 BERT 기반 단일 문장 분류 모델 학습
KLUE : 한국어 자연어 이해 벤치마크(Korean Language Understanding Evaluation, KLUE)로 문장 분류, 관계 추출, 문장 유사도, 개체명 인식, 품사 태깅, 질의 응답, 목적형 대화, 의존 구문 분석등의 task를 위한 데이터와 리더보드 시스템을 제공한다.
의존 구문 분석 : 단어들 사이의 관계를 분석하는 task. 어순과 생략이 자유로운 한국어와 같은 언어에서 주로 연구된다.
지배소 : 의미의 중심이 되는 요소. 지배소는 후위언어로 항상 의존소보다 뒤에 위치한다.
의존소 : 지배소가 갖는 의미를 보완해주는 요소 (수식). 각 의존소의 지배소는 하나이며, 교차 의존 구조는 없다.
단일 문장 분류 task :
1. 감정분석 (Sentiment Analysis)
• 문장의 긍정 또는 부정 및 중립 등 성향을 분류하는 프로세스
• 문장을 작성한 사람의 느낌, 감정 등을 분석할 수 있기 때문에 기업에서 모니터링, 고객지원, 또는 댓글에 대한 필터링등을 자동화하는 작업에 주로 사용
• 활용방안
1) 혐오 발언 분류 : 댓글, 게임 대화 등 혐오 발언을 분류하여 조치를 취하는 용도로 활용
2) 기업 모니터링 : 소셜,리뷰 등 데이터에 대해 기업 이미지, 브랜드 선호도, 제품 평가 등 긍정 또는 부정적 요인을 분석2. 주제 라벨링(Topic Labeling)
• 문장의 내용을 이해하고 적절한에 범주를 분류하는 프로세스• 주제별로 뉴스 기사를 구성하는 등 데이터 구조화와 구성에 용이 • 활용 방안
• 대용량문서분류:대용량의문서를범주화
• VoC(Voice of Customer) : 고객의 피드백을 제품 가격, 개선점, 디자인 등 적절한 주제로 분류하여 데이터를 구조화3. 언어 감지(Language Detection)
• 문장이 어떤 나라 언어인지를 분류하는 프로세스
• 주로 번역기에서 정확한 번역을 위해 입력 문장이 어떤 나라의 언어인지 타켓팅하는 작업이 가능
• 활용방안
1) 번역기 : 번역할 문장에 대해 적절한 언어를 감지함
2) 데이터 필터링 : 타겟 언어 이외 데이터는 필터링
4. 의도 분류(Intent Classification)
• 문장이 가진 의도를 분류하는 프로세스
• 입력 문장이 질문, 불만, 명령 등 다양한 의도를 가질 수 있기 때문에 적절한 피드백을 줄 수 있는 곳으로 라우팅 작업이 가능
• 활용방안
1) 챗봇 : 문장의 의도인 질문, 명령, 거절 등을 분석하고 적절한 답변을 주기 위해 활용
6강 BERT 기반 두 문장 관계 분류 모델 학습
두 문장 관계 분류 task :
- Natural Language Inference (NLI) : 언어모델이 자연어의 맥락을 이해할 수 있는지 검증하는 task. 전제문장(Premise)과 가설문장(Hypothesis)을 Entailment(함의), Contradiction(모순), Neutral(중립) 으로 분류한다.
- Semantic text pair : 두 문장의 의미가 서로 같은 문장인지 검증하는 task
7강 BERT 언어모델 기반의 문장 토큰 분류
문장 토큰 관계 분류 task : 주어진 문장의 각 token이 어떤 범주에 속하는지 분류하는 task
Named Entity Recognition (NER) : 문맥을 파악해서 인명, 기관명, 지명 등과 같은 문장 또는 문서에서 특정한 의미를 가지고 있는 단어 또는 어구(개체) 등을 인식하는 과정을 의미한다.
Part-of-speech tagging (POS TAGGING) : 품사란 단어를 문법적 성질의 공통성에 따라 언어학자들이 몇 갈래로 묶어 놓은 것으로, 품사 태깅은 주어진 문장의 각 성분에 대하여 가장 알맞는 품사를 태깅하는 것을 의미한다.
과제 수행 과정 및 결과
이번주는 대회에 계속 신경이 가있어 과제와 실습 코드를 제대로 보지 못한 것이 아쉽다. 필요한 부분은 계속해 참고해나가려 하고 있다.
피어 세션
대회의 절반 정도를 달려온 상태인데, 체계적인 팀 활동이 이루어지고 있다는 생각이 든다. 모든 분들의 기량이 너무 뛰어나셔 많은 것을 배우고 있다. 특히 행했던 실험이나 얻은 인사이트들이 빠르게 공유되고 있다는 점이 무척이나 좋다고 생각한다. 이번에도 운 좋게 좋은 팀을 만나게 된 것 같아 기쁘다.
학습 회고
대회를 시작하기 전 팀에 조금이라도 보탬이 되고자 했고, 또 성장을 위해 많은 코드를 짜고 실험을 하고 싶었는데 다행히도 지금까지 잘 나아가고 있는 것 같다. 점수에 너무 과몰입하지 않고 나와 팀 전체를 위해 실험을 해야하는데 당장 눈에 보이는 것이 점수이다 보니 이 점이 참 쉽지 않은 것 같다. 그러나 항상 등수, 점수가 중요한 것이 아님을, 숲을 봐야함을 잊지 말고 남은 대회 기간도 잘 마무리하도록 하자.
'Boostcamp AI Tech 2기' 카테고리의 다른 글
부스트캠프 ai tech 2기 12주차 학습 정리 노트 (2) 2021.10.22 부스트캠프 ai tech 2기 11주차 학습 정리 노트 (0) 2021.10.15 부스트캠프 ai tech 2기 8주차 학습 정리 노트 (0) 2021.09.24 부스트캠프 ai tech 2기 7주차 학습 정리 노트 (0) 2021.09.15 부스트캠프 ai tech 2기 6주차 학습 정리 노트 (4) 2021.09.10