In this talk we describe novel computer vision approaches to observe and learn activities from human demonstration videos. We specifically focus on using first-person and close up videos for learning new activities, rather than traditional third-person videos that have static and global fields of view. Since the specific objective of these studies is to build intelligent agents that can interact with people, these types of videos are beneficial for understanding human movements, because first-person and close up videos are generally goal-oriented and have similar viewpoints as those of intelligent agents. We present new Convolutional Neural Network (CNN) based approaches to learn the spatial/temporal structure of the demonstrated human actions, and use the learned structure and models to analyze human behaviors in new videos. We then demonstrate intelligent systems based on the proposed approaches in two contexts: (i) collaborative robot systems to assist users with daily tasks, and (ii) an educational scenario in which a system gives feedback on their movements. Finally, we experimentally evaluate our approach in enabling intelligent systems to observe and learn from human demonstration videos.
Transfer learning 기술은 target task의 데이터 양이 적을 때 딥러닝 기반의 visual recognition 정확도를 향상시킬 수 있는 기법중의 하나이다. 전통적인 방법으로는 ImageNet 등의 대용량 데이터셋으로부터 supervised learning 을 통해 pre-trained model을 생성하고 이를 target task의 데이터로 fine-tuning 하는 기술이 있다. 하지만, 이러한 기법은 대용량 데이터를 annotation 하는 비용이 발생하여, 최근에는 unlabeled data 를 활용하는 방안에 대한 연구가 시도되고 있다. 특히 self-supervised learning 기법은 unlabeled data로부터 의미있는 representation을 학습할 수 있는 방법으로 최근 많은 시도들이 있다. 본 강연에서는 전통적인 방법부터 self-supervised learning 까지 다루어지는 주요한 이슈들에 대해 소개하고, 본 강연자가 수행했었던 연구 사례에 대해 소개한다.
딥러닝을 필두로 발전한 인공지능 기술들로 인해 수많은 영상 처리 기술들의 성능이 매우 향상되었으나, 여전히 실제 생활이나 산업계에 기술들을 적용하기 위해서는 많은 벽이 존재하고 있다. 본 강연에서는 성능적인 문제 외에 인공지능을 실제로 활용하기 위해 해결해야 하는 다양한 영상 처리 분야의 문제들을 소개하고, 이를 인공지능 기술로 해결하기 위한 방안들을 제시한다.
인간은 유아기부터 오감을 활용하여 물리 세계와 상호작용하고 감각 정보를 자율적으로 획득하여 분석함으로써 지능을 구성한다. 최근 딥러닝의 발전으로 인해 인공지능 시대를 개막하였으나, 인간 레벨의 지능 구현 가능성을 판단하기에 앞서, 인공지능의 입력이 되는 기계 지각 능력 연구가 다시 새롭게 조명되고 있다. 본 강연에서는 인간의 감각 기관 중 가장 정보량이 많은 시각을 중심의 딥러닝 기반 지각 능력의 연구에 대해서 소개한다. 그리고 인간은 공감각을 포함, 감각 간 복잡한 상호 작용으로 고해상도의 센싱 능력을 가진다는 점에 착안, 시각 중심 멀티모달 지각 능력 연구로 확장을 다룬다 (예; 시각-소리, 시각-모터). 기계와 사람의 멀티모달 능력의 공통점과 차이를 이해하고 디자인에 적용하는 사례들을 소개하고, 이를 바탕으로 더 향상된 기계 지각 능력 디자인을 위한 데이터, 모델, 학습법에 대해 소개한다.
인공지능 기술이 발전함에 따라 딥러닝을 기반으로 하는 다양한 분야의 영상처리 및 컴퓨터 비전 기술들이 연구되고 있다. 특히, 최근에는 적대적 생성 신경망 (Generative adversarial network, GAN)이 새로운 영상을 만드는 것뿐만 아니라 다양한 영상처리 및 컴퓨터 비전 기술들에 적용 되면서 많은 주목을 받고 있다. 본 강연에서는 전반적인 GAN 기술에 대해 소개하고, 더 향상 된 성능을 위한 모델 및 학습법을 제시한다. 또한, GAN 기술이 영상처리/컴퓨터비전 분야에 적용 된 사례들을 소개한다.