본문 바로가기

AI/NLP

[12/09] 아이펠 리서치 15기 TIL | 미니 논문 작성

반응형

오늘은 GD 마지막 메인 퀘스트를 완료했다.

GD 과정에서 했던 프로젝트 중 하나를 골라서 논문으로 간단하게 작성해보는 시간이었다.

 

논문 완성본

 

AIFFEL_quest_rs/MainQuest/Quest03/온15기_MainQuest3_최원진.pdf at main · choiwonjini/AIFFEL_quest_rs

Contribute to choiwonjini/AIFFEL_quest_rs development by creating an account on GitHub.

github.com

 

처음에 어떤 노드를 고를 지 고민을 많이 했는데, 결론은 Seq2Seq 번역기를 선택했다.

원래는 최신 연구 트렌드인 pretrained + fine-tuning을 진행한 Hugging Face 노드를 선택하려 했지만,

막상 계획을 세워보니 그냥 라이브러리로 모델 가져와서 영화 리뷰 데이터로 파인튜닝 하고, 결과는 무난하게 나온 내용이라 논문에서 다룰 좋은 내용이 딱히 떠오르지 않았다.

 

그래서 선택한 것이 Seq2Seq 번역기 노드인데, 여기선 어텐션부터 모델 구축, 학습, 어텐션 맵으로 시각화까지 모든 과정을 직접 진행하기도 했고, 특히 데이터가 6천개라는 제한이 있었다.

프로젝트를 할 당시 "이 모델이 낮은 성능을 보이는 이유는 적은 데이터 때문이다." 라는 결론을 내렸기 때문에,

이번 논문은 "작은 데이터가 모델 성능에 미치는 영향" 이라는 주제로 하면 좋을 것 같다고 생각이 들어서 선택했다.

 

Seq2Seq 번역기 프로젝트

 

논문의 흐름은 아래와 같다.

 

1. Introduction

  • 통계적 기계 번역(SMT)에서 신경망 기계 번역(NMT)으로 패러다임이 변했다.
  • 근데 NMT는 많은 데이터가 필수적이다. 만약 데이터가 충분하지 않다면 문맥 무시, 특정 단어 반복 등의 문제가 발생한다.
  • 이 논문에서는 6000 문장 쌍이라는 적은 데이터에서 모델 학습이 실패하는 과정을 어텐션 맵을 통해 알아본다. 

2. Related Work

  • 관련 연구 소개 (seq2seq & attention, 적은 데이터 환경에서의 NMT)

3. Methodology & Experimental Setup

  • 6000개의 데이터와 vocab size=2000으로 제한
  • 모델은 Bahdanau Attention을 적용한 Seq2Seq (GRU) 사용
  • Dynamic Teacher Forcing 사용

3. Result

  • 과적합이 발생했다.
  • 같은 글자의 반복적인 출력이 발생했다. -> 문맥은 없고 다음 단어의 확률에만 의존하기 때문
  • attention map에서 대각선 형태의 매핑(alignment)이 보여야 하는데, 그렇지 않은 결과가 발생했다.
    • 그 이유는 데이터가 적어서 제대로 된 학습이 진행되지 못 했고, attention이 제대로 작동하지 않았기 때문이다.

4. Conclusion

  • Attention 메커니즘이 효과적으로 작동하려면 일정 규모 이상의 데이터가 필수적이며, 데이터가 부족하면 정렬 학습 자체가 실패함을 확인했다.
  • 향후 데이터 증강 & Transformer 모델 도입 & Pre-trained 모델 + Fine-tuning이 필요함을 제안한다.

 

 

이게 학회에 게재된 제대로 된 논문은 아니지만, 그래도 아이펠톤을 진행하기 전에 배운 내용을 바탕으로 논문 작성을 연습할 수 있는 좋은 경험이었다. 

반응형