일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Machine Learning
- Cosine annealing
- 네이버커넥트재단
- Lr Scheduler
- 머신러닝
- deep learning
- 딥러닝
- 부스트캠프ai
- 음성인식
- aitech
- 인공지능 그랜드 챌린지
- Learning rate Scheduler
- End-To-End
- VAD
- 부스트캠프
- ai
- 인공지능
- Today
- Total
목록인공지능 (3)
AI4NLP

이번에 IEEE ICASSP 2021에 제출하였던 논문이 accept되어서 논문에 대한 포스팅을 올리게 되었다. 돌이켜보면 2020년, 팀장님과 둘이서 딥러닝 연구 개발을 하면서 힘든 일이 많았는데, 개발에 대한 부분들은 대회 입상(이전 포스트 참고 (1), (2) ), 연구에 대한 부분들은 이번 논문으로 어느정도 해소된 것 같아 기쁘다. 우선 논문을 소개하기에 앞서 Voice Activity Detection 통칭 VAD라고 하는 task에 대해 짚고 가야할 필요가 있다. VAD란 Voice Activity Detection의 약자로서 오디오 파일 내에서 음성이 있는 영역을 찾아주는 task이다. 음성인식의 예를 들어보자면, 음성인식은 상대적으로 짧으면서, 노이즈가 적은 오디오 파일에 대해서 학습하게 ..

이 카테고리는 종단간 자동 음성 인식(End-to-End Automatic Speech Recognition, 이하 E2E ASR)에 대해 작성하는 연작 포스팅입니다. 주요 표기법(Notation)과 내용(Content)은 Speech and Language Processing 2nd Edition(Daniel Jurafsky and James H. Martin) 을 참고하여서 작성하였습니다. 첫 포스팅에서는 자동음성인식( Automatic Speech Recognition, 이하 ASR)의 문제 정의와 접근 방법들의 개요를 작성해보고자 합니다. ASR의 정의 ASR은 사람이 말하는 음성 파형(아날로그)을 컴퓨터가 자동으로 문자 데이터(디지털)로 변환하는 기술입니다. Speech-To-Text, STT라..

End-to-End ASR 작성 계획입니다. HMM은 틈나는대로 작성할 것 같고.. 2 -> 6 순서로 작성할 계획입니다. 0. 개요 1-1. HMM 과 학습과정 1-2. HMM 계산 과정 1-3. 디코딩(Viterbi) 1-4. 파라미터 업데이트(Baum-Welch) 2. CTC 3. RNN-Tranducer 4. Attention 5. Joint CTC/Attention & Decoding 6. Transformer 기반 감사합니다.