전체 글
-
2022년 회고 (학부 연구생/CLOVA AI RUSH/카카오브레인 인턴)생각 정리 2022. 12. 31. 23:39
올해 또한 많은 고민들을 거치며 한 발자국씩 나아갔던 것 같다. 그리고 그 과정에서 운이 좋게도 좋은 결과들을 얻어낼 수 있었던, 정말 선물 같은 1년을 보냈다. 올해도 나를 되짚어보며 내년을 마주할 준비를 해보려 한다. 1~9월: 자대 NLP 랩 학부 연구생 작년 회고에서 밝힌 것처럼, 대학원이 어떤 곳인지 직접 경험하고 논문을 읽고 구현하는 능력을 기르고 싶어 자대 NLP 랩에 학부 연구생으로 들어가게 되었다. 학부 연구생 생활을 하며 가장 크게 성장한 역량은 바로 논문 리딩 및 발표였다. 처음 들어갈 땐 논문을 읽어본 경험이 거의 없다시피 했었는데, 5번 가량 논문 세미나 발표를 준비하다 보니 자연스레 논문을 깊이 읽는 법과 부족했던 개념을 스스로 채우는 법을 알아갈 수 있었다. 다만 아쉬웠던 점은..
-
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 논문 리뷰논문 리딩 2022. 10. 23. 19:24
https://arxiv.org/abs/1910.13461 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension We present BART, a denoising autoencoder for pretraining sequence-to-sequence models. BART is trained by (1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. It uses a standard Tranformer-b..
-
Restricting the Flow: Information Bottlenecks for Attribution 논문 리뷰논문 리딩 2022. 6. 3. 16:01
1. Introduction XAI 분야에서 Attrubution method는 각각의 인풋에 대해 relevance score를 주는 것을 목표로 하는데, 이미지가 인풋인 경우에는 heatmap의 형식으로 score를 시각화할 수 있다. 이 heatmap에서 두드러지는 부분이 모델의 decision의 크게 관여한 부분인 것이다. 이 원숭이 사진을 예로 보면, 모델이 이 사진을 '원숭이'라고 예측할 때 붉게 표시된 원숭이의 얼굴 부분을 근거로 삼았음을 알 수 있다. 반면에 원숭이가 매달려 있는 줄이나 나무에는 픽셀 당 비트 수가 0에 가깝다. 2. Related Work Attribution을 만드는 기존의 방식에는 Occlusion, Grad-cam 등이 있다. 이 논문은 기존 방식의 문제점을 지적하진..
-
A Review of Text Style Transfer using Deep Learning, TAI, 2021 논문 요약논문 리딩 2022. 1. 26. 11:32
Section 1 : Introduction Text Style Transfer란? 의미 내용은 유지하면서 원래 문장을 새로운 스타일로 다시 작성하여 문장의 스타일을 조정하는 작업 Style Transfer 작업 성능 평가의 2가지 목표 생성된 문장의 의미적 내용이 얼마나 잘 보존되었는가 평가 생성된 문장의 새로운 스타일로의 품질 평가 Text Style Transfer의 2개의 key stages represantation learning sentence generation 아웃풋 센텐스 3가지 생성 기법 간단하게 입력문을 재구성하여 생성하는 모델 인코더-디코더 아키텍처에 추가 스타일 분류기를 통합하는 모델 adversial learning을 채택한 모델 Section 2 : 다양한 텍스트 스타일 소..
-
2021년 회고 (네이버 부스트캠프 AI Tech를 마치며)생각 정리 2021. 12. 31. 20:24
정말 열심히 달려온 2021년이었다. 인생은 선택의 연속이란 말이 있듯, 올해는 정말 많은 선택을 스스로 했으며 그 선택에 최선을 다하며 달려왔다. 그 순간들을 돌아보며 앞으론 또 어떠한 방향으로 나가면 좋을지 생각하는 시간을 가지려 한다. 1~4월 : 군 생활 🪖 1월 1일 첫 아침 점호 때 떠오르는 태양을 바라보며 크게 함성을 질렀던 때가 기억난다. 그때까지도 전역은 남의 일 같았는데 지금 이 순간이 참 꿈만 같다. 난 군대에서 시간이 가기만을 바라며 의미 없이 남은 날만을 세는 것이 마음에 들지 않았다. 그렇다고 남은 날을 안 세었다면 거짓말이지만, (실은 누구보다 열심히 남은 휴가 일수와 미복귀 전역일을 계산했다..ㅎㅎ) 적어도 그 안에서의 시간을 조금이라도 미래의 나를 위해 투자하고 싶었다. 그..
-
부스트캠프 ai tech 2기 P-stage + 최종 프로젝트 정리Boostcamp AI Tech 2기 2021. 12. 31. 18:58
P1 : 마스크 착용 상태 이미지 분류 대회 주제 : 카메라로 촬영한 사람 얼굴 이미지의 마스크 착용 여부 / 나이 / 성별을 동시에 판단하여 분류 최종 순위 (Private LB) : 31등 / 38팀 깃헙 링크 (개인/팀 보고서 포함) : https://github.com/danny980521/image-classification-level1-26 GitHub - danny980521/image-classification-level1-26: image-classification-level1-26 created by GitHub Classroom image-classification-level1-26 created by GitHub Classroom - GitHub - danny980521/image-..
-
(Kaggle) chaii - Hindi and Tamil Question Answering 대회 43등 후기Kaggle 2021. 11. 24. 11:29
대회 진행 및 솔루션 11월 초, 3번째 부스트캠프 ai tech 내부 대회인 odqa가 끝났다. 이 대회를 마치고 남는 GPU 자원을 어떻게 활용하면 좋을지 팀원들과 상의하다가 비슷한 QA 대회인 kaggle의 chaii - Hindi and Tamil Question Answering 대회에 참여해보기로 하였다. 부스트캠프의 odqa 대회는 한국어를 이용했고, retrieval을 거쳤던 반면에 캐글의 chaii 대회는 인도의 힌디어와 타밀어를 이용하고, retrieval 없이 바로 reader만을 활용한다는 것이 두 대회의 큰 차이점이었다. 한국어 대회에 참여할 때는 각종 전처리와 후처리를 시도했었고, 이를 통해 성능 향상을 경험했었는데 이번엔 글자 자체를 이해하지 못하니 이는 과감히 포기해야 했었다..
-
부스트캠프 ai tech 2기 15주차 학습 정리 노트Boostcamp AI Tech 2기 2021. 11. 13. 21:24
강의 복습 1강 데이터 제작의 A to Z 데이터 구축 과정 : 1. 원시 데이터 선정 및 확보 : 저작권, 태스크 적합성 2. 구축 및 가공 프로세스 확립 : 구축 및 검수 절차, 작업자 선정 3. 구축 및 가공 지침 작성 : 플랫폼 소통 및 작업자 교육 4. 데이터 구축 및 가공 : 파일럿, 작업자 관리 5. 데이터 검수 : 품질 평가 기준, 데이터 규격과 내용 데이터 설계 : - 규모 선정에 필요한 정보 : 확보 가능한 원시 데이터의 규모, 주석 작업 시간 - 구분(split) 방식 : 데이터별 비율과 기준 정하기 (랜덤 vs 특정 조건) 데이터 수집-가공 설계 : 1. 원시 데이터 수집 방식 : 전산화, 스크래핑, 작업자 작성, 모델 생성 2. 작업자 선정 : 주석 작업의 난이도와 구축 규모에 맞..