일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 머신러닝
- VAD
- Cosine annealing
- Machine Learning
- End-To-End
- aitech
- 딥러닝
- 인공지능 그랜드 챌린지
- ai
- Learning rate Scheduler
- Lr Scheduler
- 네이버커넥트재단
- 부스트캠프ai
- 부스트캠프
- 음성인식
- 인공지능
- deep learning
- Today
- Total
목록분류 전체보기 (33)
AI4NLP
지난 분기에 이어서 이번 분기에도 글또 5기에서 활동하게 되었습니다. 이번 분기에는 저번 분기에 작성하려고 하였던 end-to-end 음성 인식에 대한 내용들을 마무리 짓고, 그래프 기반의 자연어처리에 대해 공부해보고 그 내용들을 블로그에 정리해보려고 합니다. 이전 분기에서 작성하려던 end-to-end 음성 인식의 경우 막상 글로 작성하려고 하니 잘 설명이 되지 않아 글 작성에 어려운 면이 많았습니다. 그 이유가 무엇일까 스스로 피드백을 해보니 머릿속에서 생각이 잘 정리되지 않아서 였습니다. 아무래도... 글또 2주 기한의 시작일 때에부터 무슨 글을 쓸지 고민하고 계속해서 고민했어야 했는데, 마감 3일전부터 고민을 하니 글이 잘 써질리가 없겠죠.... 그래서 이번 분기에는 작성해야할 글 내용들에 대해 ..

이번에 OpenAI에서 발표한 Language Models are Few-Shot Learners, 통칭 GPT-3 Paper를 읽어보았다. 논문이 상당히 길어서 읽기 힘들까 걱정되었지만, 기술적인 내용보다는 모델에 대한 insight에 대해 많이 다루는 편이어서 쉽게 읽혔다. 거대한 모델을 다루는 것에 대한 insight를 얻고 싶었지만, 그에 대한 내용은 상대적으로 적어서 아쉬웠었다. 이번 포스팅은 논문에 대한 재정리라기보단 논문 내용 요약이라고 보는 것이 타당할 것 같다. 1. Introduction Fine tuning 기반의 방법들은 다음과 같은 단점이 있다. 1. 매번 새로운 task를 풀때마다 많은 레이블 데이터가 필요하다. 2. Fine tuning 기반의 방법들은 사전학습 중에는 다량의 ..
이번 포스팅에서는 추천 시스템의 기본이 되는 Collaborative filtering에 대해 기존에 작성했던 코드를 기반으로 다뤄보려고 합니다. Collaborative filtering은 축적해놓은 데이터 (memory)를 이용하기 때문에 memory based method의 한 종류로 분류됩니다. Collaborative filtering의 간단한 Pipeline은 아래와 같습니다. 과거 사용자의 평가를 훈련데이터로 사용합니다. 훈련 데이터의 결측값을 메꾸고, 적절한 행렬로 바꿔줍니다. 쿼리(신규 사용자)에 대해 훈련데이터와 Knn 알고리즘을 이용, 쿼리와 비슷하다고 판단되는 사용자 그룹을 추출합니다. 추출된 사용자 그룹들의 값(Knn 결과물)을 토대로 점수를 예측합니다. 협업 필터링(Collabo..

이번에 6월 17일부터 6월 30일까지 진행했던 인공지능 온라인 경진대회에 참여했었습니다. 최종 검증 과정을 거쳐, 어린이 음성인식 1등, 잡음 상황의 음성인식 2등으로 바뀌었습니다. 덩달아 종합 순위도 기존 24위에서 전체 7위로 바뀌었습니다. 등수가 올라서 기분은 좋지만, 1등만을 목표로 했던 대회여서 여전히 아쉽습니다. 결과적으로는 총 400팀 중에서 24위를 하였고, 1억 6천만 원의 사업화 지원 대상에는 포함되었습니다. 음성인식에서는 어린이 음성인식 3등, 잡음 상황의 음성인식에서는 2등을 하였습니다. 사업화 대상에 들어서 다행일수도 있고, 아닐 수도 있지만 개인적으로는 아쉬운 점이 있어서 회고하고, 스스로 새겨두고자 글을 쓰게 되었습니다. TMI 총 3개의 태스크에서 했어야 하는데 음성인식은 ..
딥러닝, 머신러닝을 사용할 때에 Model이나 Optimizer에는 많은 신경을 쓰지만 Lr Scheduler에는 많은 신경을 쓰지 않는 경우가 많습니다. (제가 그랬습니다...ㅠㅠ) 실제 학습을 할 때에 어떤 Lr Scheduler를 고르느냐, Lr Scheduler의 Hyperparameter로 어떤 값을 고르느냐에 따라 학습 결과에는 큰 차이가 존재합니다. Lr Scheduler는 미리 학습 일정을 정해두고, 그 일정에 따라 학습률을 조정하는 방법입니다. 일반적으로는 warmup이라는 파라미터를 정하고 현재 step이 warmup보다 낮을 경우는 learning rate를 linear하게 증가 시키고, warmup 후에는 각 Lr Scheduler에서 정한 방법대로 learning rate를 upd..

Intro 포스팅을 시작하기에 앞서 시퀀스와 텍스트의 관계에 대해 이야기하고 시작해보려 합니다. 시퀀스(Sequence)의 뜻은 롱맨 영어사전에 따르면 다음과 같습니다. "the order that something happens or exists in, or the order it is supposed to happen or exist in" 해석하자면 "어떤 것이 일어나거나 존재하는 순서 혹은 그것이 일어나거나 존재하게 되어 있는 순서."입니다. 간략하게 말하자면 순서입니다. 순서를 가지고 분석해야할 일상의 문제들은 어떤 것들이 있을까요? 주식, 날씨, 등이 있을 것입니다. 또한 주식, 날씨와 같이 순차적으로 일어나는 것들은 "이전의 상태가 현재 상태에 영향을 주는 경우"라고도 이해할 수 있을 것입니..

이 카테고리는 종단간 자동 음성 인식(End-to-End Automatic Speech Recognition, 이하 E2E ASR)에 대해 작성하는 연작 포스팅입니다. 주요 표기법(Notation)과 내용(Content)은 Speech and Language Processing 2nd Edition(Daniel Jurafsky and James H. Martin) 을 참고하여서 작성하였습니다. 첫 포스팅에서는 자동음성인식( Automatic Speech Recognition, 이하 ASR)의 문제 정의와 접근 방법들의 개요를 작성해보고자 합니다. ASR의 정의 ASR은 사람이 말하는 음성 파형(아날로그)을 컴퓨터가 자동으로 문자 데이터(디지털)로 변환하는 기술입니다. Speech-To-Text, STT라..

End-to-End ASR 작성 계획입니다. HMM은 틈나는대로 작성할 것 같고.. 2 -> 6 순서로 작성할 계획입니다. 0. 개요 1-1. HMM 과 학습과정 1-2. HMM 계산 과정 1-3. 디코딩(Viterbi) 1-4. 파라미터 업데이트(Baum-Welch) 2. CTC 3. RNN-Tranducer 4. Attention 5. Joint CTC/Attention & Decoding 6. Transformer 기반 감사합니다.