Boostcamp AI Tech 2기
-
부스트캠프 ai tech 2기 P-stage + 최종 프로젝트 정리Boostcamp AI Tech 2기 2021. 12. 31. 18:58
P1 : 마스크 착용 상태 이미지 분류 대회 주제 : 카메라로 촬영한 사람 얼굴 이미지의 마스크 착용 여부 / 나이 / 성별을 동시에 판단하여 분류 최종 순위 (Private LB) : 31등 / 38팀 깃헙 링크 (개인/팀 보고서 포함) : https://github.com/danny980521/image-classification-level1-26 GitHub - danny980521/image-classification-level1-26: image-classification-level1-26 created by GitHub Classroom image-classification-level1-26 created by GitHub Classroom - GitHub - danny980521/image-..
-
부스트캠프 ai tech 2기 15주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 11. 13. 21:24
강의 복습 1강 데이터 제작의 A to Z 데이터 구축 과정 : 1. 원시 데이터 선정 및 확보 : 저작권, 태스크 적합성 2. 구축 및 가공 프로세스 확립 : 구축 및 검수 절차, 작업자 선정 3. 구축 및 가공 지침 작성 : 플랫폼 소통 및 작업자 교육 4. 데이터 구축 및 가공 : 파일럿, 작업자 관리 5. 데이터 검수 : 품질 평가 기준, 데이터 규격과 내용 데이터 설계 : - 규모 선정에 필요한 정보 : 확보 가능한 원시 데이터의 규모, 주석 작업 시간 - 구분(split) 방식 : 데이터별 비율과 기준 정하기 (랜덤 vs 특정 조건) 데이터 수집-가공 설계 : 1. 원시 데이터 수집 방식 : 전산화, 스크래핑, 작업자 작성, 모델 생성 2. 작업자 선정 : 주석 작업의 난이도와 구축 규모에 맞..
-
부스트캠프 ai tech 2기 12주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 10. 22. 23:49
강의 복습 8강 Reducing Training Bias Bias in learning : - 학습할 때 과적합을 막거나 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하는 것 (inductive bias) A Biased World : - 현실 세계가 편향되어 있기 때문에 모델에 원치 않는 속성이 학습되는 것 (historical bias) - 성별과 직업 간 관계 등 표면적인 상관관계 때문에 원치 않는 속성이 학습되는 것 (co-occurence bias) Bias in Data Generation : - 입력과 출력을 정의한 방식 때문에 생기는 편향 (specification bias) - 데이터를 샘플링한 방식 때문에 생기는 편향 (sampling bias) - 어노테이터의 특성 때문에 생기는..
-
부스트캠프 ai tech 2기 11주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 10. 15. 23:08
강의 복습 1강 MRC Intro & Python Basics Machine Reading Comprehension (MRC, 기계독해) : 주어진 지문 (Context)를 이해하고, 주어진 질의 (Query/Question)의 답변을 추론하는 문제 1) Extractive Answer Datasets : 질의 (question)에 대한 답이 항상 주어진 지문 (context)의 segment (or span)으로 존재 ex) SQuAD, KorQuAD, NewsQA, Natural Questions, etc. 2) Descriptive/Narrative Answer Datasets : 답이 지문 내에서 추출한 span이 아니라, 질의를 보고 생성 된 sentence (or free-form)의 형태 e..
-
부스트캠프 ai tech 2기 9주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 10. 1. 23:58
강의 복습 2강 자연어의 전처리 전처리 : 원시 데이터(raw data)를 기계 학습 모델이 학습하는데 적합하도록 수집&가공하는 모든 프로세스. 결국 가장 중요한 것은 데이터이므로 Task의 성능을 가장 확실하게 올릴 수 있는 방법이다. 전처리 예시 : 개행문자 제거, 특수문자 제거, 공백 제거, 중복 표현 제어 (ᄏᄏᄏᄏᄏ, ᅲᅲᅲᅲ, ...), 이메일 제거, 링크 제거, 제목 제거, 불용어 (의미가 없는 용어) 제거 조사 제거, 띄어쓰기, 문장분리 보정... 토큰화(Tokenizing) : 주어진 데이터를 토큰(Token)이라 불리는 단위로 나누는 작업으로, 토큰이 되는 기준은 다를 수 있다. (어절, 단어, 형태소, 음절, 자소 등) 3강 BERT 언어모델 소개 BERT : 트랜스포머 기반의 모델로..
-
부스트캠프 ai tech 2기 8주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 9. 24. 23:51
강의 복습 이번 주는 월, 화, 수요일이 추석 연휴였고, 목요일과 금요일은 각각 4개씩의 특강으로 준비된 한 주였다. 아래는 특강 내용들을 간단히 정리한 것이다. 이활석 님 - 서비스 향 AI 모델 개발하기 서비스향 AI 개발 단계 : 학습 데이터셋 준비 -> 테스트 데이터셋 / 테스트 방법 준비 -> 모델 요구사항 도출 서비스향 AI 모델 개발 기술 팀의 조직 구성 : - AI 모델팀 : AI 모델을 개발하는 인력, 데이터를 준비하고 품질을 관리하는 인력, 효율성을 위한 툴을 개발하는 인력, 전체를 총괄하여 모델의 품질을 관리하는 인력 등이 필요 - AI 모델 서빙팀 : Serving HW향으로 모델을 최적화하는 인력, end device에 맞춰 최종 서빙하는 인력 등이 필요 김상훈 님 - 캐글 그랜드..
-
부스트캠프 ai tech 2기 7주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 9. 15. 14:48
강의 복습 7강 Transformer (1) Transformer : 기존의 seq2seq with attention 모델에서 add-on 모듈로 사용되었던 attention 개념만을 사용해서 RNN 부분을 통째로 대체할 수 있게 만든 모델. Query, Key, Value : seq2seq with attention에서 context 벡터를 만들었던 과정을 떠올려보자. decorder의 특정 time step에서의 hidden state 벡터와 encoder의 hidden state 벡터를 내적한 값들에 sofrmax를 취해 가중치 배열을 만들었고, 이 가중치들을 이용해 encoder의 hidden state 벡터들의 가중평균을 구해 context 벡터로 사용했다. 이와 비슷한 과정을 transform..
-
부스트캠프 ai tech 2기 6주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 9. 10. 19:37
강의 복습 1강 Intro to Natural Language Processing(NLP), Bag-of-Words Natural language processing (major conferences: ACL, EMNLP, NAACL) : • Low-level parsing : - Tokenization : I study math. 와 같은 문장에서 I, study, math와 같은 각 단어들을 token이라고 부르며 주어진 문장을 token 단위로 쪼개는 과정을 Tokenization이라고 한다. - Stemming : 단어의 어미는 다양하게 변할 수 있다. 가령 study는 studying, studed 등으로 변할 수 있는데, 이렇게 어미가 변하더라도 이 단어들은 비슷한 뜻을 가지고 있음을 컴퓨터로..