AI4NLP

인공지능 온라인 경진대회 (음성인식) 입상 후기 본문

General

인공지능 온라인 경진대회 (음성인식) 입상 후기

nlp user 2020. 7. 5. 22:37

 

이번에 6월 17일부터 6월 30일까지 진행했던 인공지능 온라인 경진대회에 참여했었습니다.

최종 검증 과정을 거쳐, 어린이 음성인식 1등, 잡음 상황의 음성인식 2등으로 바뀌었습니다.

덩달아 종합 순위도 기존 24위에서 전체 7위로 바뀌었습니다.

등수가 올라서 기분은 좋지만, 1등만을 목표로 했던 대회여서 여전히 아쉽습니다.

 

결과적으로는 총 400팀 중에서 24위를 하였고, 1억 6천만 원의 사업화 지원 대상에는 포함되었습니다.
음성인식에서는 어린이 음성인식 3등, 잡음 상황의 음성인식에서는 2등을 하였습니다.

사업화 대상에 들어서 다행일수도 있고, 아닐 수도 있지만 개인적으로는 아쉬운 점이 있어서 회고하고, 스스로 새겨두고자 글을 쓰게 되었습니다.

TMI 총 3개의 태스크에서 했어야 하는데 음성인식은 2개만 있다보니 2개에만 집중해서 24위라는 결과가..ㅠㅠ

 

 

 

 

자만과 나태

기존 음성인식 task에 대해서는 최근 state-of-the-art (이하 sota) 모델들까지 구현되어 있었습니다. 그래서 대회에서도 무난히 1등을 할 수 있을 거라 생각했었고, 여유롭게 임했었습니다. 그래서 2주일간의 대회 기간동안에도 모두 참여하지는 않았고 중간중간에 대회측에서 제공받은 서버의 환경체크 정도만 하다가 대회 5일 남은 26일부터 참여했었습니다. 회사 일이 바쁘기도 바빳지만 대회 초기부터라도 틈틈히 참여했더라면 무난히 1등 했었을거란 생각이 듭니다. 만약 다음에도 다른 대회에 참여하게 된다면 좀 더 힘내서 열심히 해보면 좋은 결과를 얻지 않을까 하는 생각이 듭니다.

 

기존 sota가 잘 작동하지 않음

현재 딥러닝의 트렌드는 많은 데이터를 이용한 혹은 많은 데이터를 다룰 수 있는 모델인 것 같습니다. 한국에서 열리는 AI 챌린지들은 데이터 크기가 작습니다. 그래서 한국 대회에서는 기존 sota 모델들이 잘 작동하지 않는 것 같습니다. 이러한 AI 챌린지들은 데이터가 작기 때문에, 적은 데이터에서 잘 작동하는 모델(Transformer보다는 RNN)과 적절한 일반화 기법들(Dropout, Normalization, Weight decay), 데이터 증강 기법(Data augmentation)들이 좋은 결과를 만들어줍니다. 

 

대회 기간이 짧았던만큼 글에 적을 내용은 많지는 않습니다. 다만 이번 대회에서의 실패를 토대로 다음에는 더 좋은 결과를 얻어내야겠다는 다짐하게되는 좋은 계기가 되었습니다.

 

Comments