음성 대화 시스템은 음성을 처리하는 음성인식, 음성합성과 언어를 이해하여 사용자에게 응답하는 대화 시스템으로 구성된다. 본 강연에서는 음성 대화 시스템에 적용되고 있는 심층 신경망 기반의 seq2seq 기술의 최신 연구 동향에 대해서 소개한다. 전통적인 음성인식과 음성합성 및 대화시스템의 연구는 GMM,HMM ,SVM, CRF 및 MDP 등을 이용한 통계적 패턴인식 방법을 많이 사용해 왔으며, 딥러닝 연구의 초창기에는 각 시스템을 구성하는 개별 모듈의 통계 알고리즘을 심층 신경망으로 대체하는 방식에 대한 연구가 많이 있었다. 최근에는 음성인식, 음성합성, 대화 시스템을 단일의 seq2seq 모델로 대체하는 end2end 기법에 대한 연구가 활발하다. 본 강연에서는 seq2seq 처리에 적합한 심층 신경망에 대한 소개 및 이것을 응용한 다양한 방식의 end2end 음성인식, 음성합성, 대화처리의 기법의 최신 연구 동향에 대해서 소개한다.
경량 디바이스 내에서 deep model 을 돌리기 위한 다양한 테크닉 및 연관된 연구에 대해서 소개하는 시간을 가지려 합니다.
1. 저희 그룹에서 개발한 경량 classification 백본 및 operator 들에 대한 연구
2. Face application으로의 응용
3. Lower-bit quantization을 위한 발전된 학습 및 모델 설계 방법론