전체 글
-
부스트캠프 ai tech 2기 12주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 10. 22. 23:49
강의 복습 8강 Reducing Training Bias Bias in learning : - 학습할 때 과적합을 막거나 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하는 것 (inductive bias) A Biased World : - 현실 세계가 편향되어 있기 때문에 모델에 원치 않는 속성이 학습되는 것 (historical bias) - 성별과 직업 간 관계 등 표면적인 상관관계 때문에 원치 않는 속성이 학습되는 것 (co-occurence bias) Bias in Data Generation : - 입력과 출력을 정의한 방식 때문에 생기는 편향 (specification bias) - 데이터를 샘플링한 방식 때문에 생기는 편향 (sampling bias) - 어노테이터의 특성 때문에 생기는..
-
부스트캠프 ai tech 2기 11주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 10. 15. 23:08
강의 복습 1강 MRC Intro & Python Basics Machine Reading Comprehension (MRC, 기계독해) : 주어진 지문 (Context)를 이해하고, 주어진 질의 (Query/Question)의 답변을 추론하는 문제 1) Extractive Answer Datasets : 질의 (question)에 대한 답이 항상 주어진 지문 (context)의 segment (or span)으로 존재 ex) SQuAD, KorQuAD, NewsQA, Natural Questions, etc. 2) Descriptive/Narrative Answer Datasets : 답이 지문 내에서 추출한 span이 아니라, 질의를 보고 생성 된 sentence (or free-form)의 형태 e..
-
부스트캠프 ai tech 2기 9주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 10. 1. 23:58
강의 복습 2강 자연어의 전처리 전처리 : 원시 데이터(raw data)를 기계 학습 모델이 학습하는데 적합하도록 수집&가공하는 모든 프로세스. 결국 가장 중요한 것은 데이터이므로 Task의 성능을 가장 확실하게 올릴 수 있는 방법이다. 전처리 예시 : 개행문자 제거, 특수문자 제거, 공백 제거, 중복 표현 제어 (ᄏᄏᄏᄏᄏ, ᅲᅲᅲᅲ, ...), 이메일 제거, 링크 제거, 제목 제거, 불용어 (의미가 없는 용어) 제거 조사 제거, 띄어쓰기, 문장분리 보정... 토큰화(Tokenizing) : 주어진 데이터를 토큰(Token)이라 불리는 단위로 나누는 작업으로, 토큰이 되는 기준은 다를 수 있다. (어절, 단어, 형태소, 음절, 자소 등) 3강 BERT 언어모델 소개 BERT : 트랜스포머 기반의 모델로..
-
부스트캠프 ai tech 2기 8주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 9. 24. 23:51
강의 복습 이번 주는 월, 화, 수요일이 추석 연휴였고, 목요일과 금요일은 각각 4개씩의 특강으로 준비된 한 주였다. 아래는 특강 내용들을 간단히 정리한 것이다. 이활석 님 - 서비스 향 AI 모델 개발하기 서비스향 AI 개발 단계 : 학습 데이터셋 준비 -> 테스트 데이터셋 / 테스트 방법 준비 -> 모델 요구사항 도출 서비스향 AI 모델 개발 기술 팀의 조직 구성 : - AI 모델팀 : AI 모델을 개발하는 인력, 데이터를 준비하고 품질을 관리하는 인력, 효율성을 위한 툴을 개발하는 인력, 전체를 총괄하여 모델의 품질을 관리하는 인력 등이 필요 - AI 모델 서빙팀 : Serving HW향으로 모델을 최적화하는 인력, end device에 맞춰 최종 서빙하는 인력 등이 필요 김상훈 님 - 캐글 그랜드..
-
부스트캠프 ai tech 2기 7주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 9. 15. 14:48
강의 복습 7강 Transformer (1) Transformer : 기존의 seq2seq with attention 모델에서 add-on 모듈로 사용되었던 attention 개념만을 사용해서 RNN 부분을 통째로 대체할 수 있게 만든 모델. Query, Key, Value : seq2seq with attention에서 context 벡터를 만들었던 과정을 떠올려보자. decorder의 특정 time step에서의 hidden state 벡터와 encoder의 hidden state 벡터를 내적한 값들에 sofrmax를 취해 가중치 배열을 만들었고, 이 가중치들을 이용해 encoder의 hidden state 벡터들의 가중평균을 구해 context 벡터로 사용했다. 이와 비슷한 과정을 transform..
-
부스트캠프 ai tech 2기 6주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 9. 10. 19:37
강의 복습 1강 Intro to Natural Language Processing(NLP), Bag-of-Words Natural language processing (major conferences: ACL, EMNLP, NAACL) : • Low-level parsing : - Tokenization : I study math. 와 같은 문장에서 I, study, math와 같은 각 단어들을 token이라고 부르며 주어진 문장을 token 단위로 쪼개는 과정을 Tokenization이라고 한다. - Stemming : 단어의 어미는 다양하게 변할 수 있다. 가령 study는 studying, studed 등으로 변할 수 있는데, 이렇게 어미가 변하더라도 이 단어들은 비슷한 뜻을 가지고 있음을 컴퓨터로..
-
부스트캠프 ai tech 2기 4주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 8. 27. 23:25
강의 복습 3강 Dataset Bounding box : 필요한 부분만 잘라서 더욱 정제된 data를 feed한다. 직사각형의 경우 2개의 좌표만 사용하면 된다. 이번 대회의 경우 대부분 중앙에 인물이 배치되어있기 때문에 큰 필요는 없을 것으로 보인다. Resize : 계산의 효율을 위해 적당한 크기로 사이즈를 변경한다. 화질이 너무 좋은 경우 학습에 굉장히 많은 시간이 걸릴 수 있기 때문에 적절히 줄이는 것이 좋다. Data Augmentation : 주어진 데이터가 가질 수 있는 case, state의 다양성을 키운다. - torchvision.transforms : RandomCrop, Flip... Compose함수를 이용해 일괄 적용해보자! - Albmentations : transforms보다..
-
부스트캠프 ai tech 2기 3주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 8. 20. 23:04
강의 복습 2강 PyTorch Basics Tensor : 다차원 Arrays 를 표현하는 PyTorch 클래스. 사실상 numpy의 ndarray와 동일하다. 그러므로 TensorFlow의 Tensor와도 동일하며, Tensor를 생성하는 함수도 거의 동일하다. Tensor handling : - view : reshape과 동일하게 tensor의 shape을 변환한다. view와 reshape은 contiguity 보장의 차이가 있다.(view가 보장) - squeeze : 차원의 개수가 1인 차원을 삭제 (압축) - unsqueeze : 차원의 개수가 1인 차원을 추가 Tensor operations : 기본적인 tensor의 operations는 numpy와 동일하다. 행렬곱셈 연산은 함수는 do..