네이버, ‘인터스피치 2020’ 역대 최고 성과로 마무리
네이버, ‘인터스피치 2020’ 역대 최고 성과로 마무리
- 클로바 중심 논문 10개 채택 … 국내 학계 및 기업 중 가장 많은 논문 채택되며 음성 AI 분야 기술력 입증
- 네이버-연세대 협력 논문, 최고학생논문(Best Student Paper) 수상…글로벌 최고 수준 음성인식 연구력 확인
- 국내 AI분야 리더로서 소스코드와 데이터 공개를 통해 AI 연구 저변 확대에 기여
2020.11.02
네이버㈜(대표 한성숙)는 지난 29일 막을 내린 세계 최고 음성신호처리 학회 ‘Interspeech 2020 (인터스피치 2020)’에 총 10개의 논문을 발표하며 이례적 성과를 거두었다고 밝혔다.
네이버는 지난 2018년 처음 인터스피치에 논문을 발표한 이래, 꾸준히 주목받아 왔다. 올해는 국내 어느 기업 및 학계보다 더 많은 논문이 채택되며 AI 기술 리더임을 다시 한번 증명했다.
회사 측은, 특히 이번 인터스피치에서 음성인식 음성합성 데이터셋 모델 성능 평가 지표 등 다양한 음성 신호 관련 분야에 걸친 연구 결과가 채택되는 등, 지난 수 년 간 꾸준히 진행한 대규모 인공지능 분야 연구 투자가 가시적인 성과로 드러나고 있다고 전했다.
특히 음성인식 연구 결과는 <클로바 AI 스피커>, <네이버 음성검색> 등 관련 서비스에 적용되고 있으며 음성합성 관련 기술은 <뉴스 본문 읽기> 및 <클로바 더빙> 등 서비스를 구성하는 핵심 기술로 적용되고 있다. 또한, 소상공인들이 활용할 수 있는 매장 전화를 대신 받아주는 AI 서비스인 AiCall 을 개발하는데 사용된 데이터인 ‘ClovaCall(클로바콜)’도 논문으로 채택되었다.
또한 네이버 정준선, 최소연 연구원과 연세대학교 강홍구 교수, 정수환 연구원이 협력 연구로 진행한 결과를 담은 ‘FaceFilter: Audio-visual speech separation using still images (페이스필터: 단일 이미지 활용 음성 분리 기능)’ 논문은 이번 인터스피치의 최고 학생 논문(Best Student Paper)으로 선정되는 쾌거를 이루었다.
위 연구 성과들은 클로바 AI 깃허브(https://github.com/clovaai)에 소스코드와 함께 공개되어 AI 생태계 확장에도 기여하고 있다. 특히 그 중 클로바콜에 대한 논문은 한국어 목적 지향형 대화 음성 데이터를 함께 공개함으로써, 국내 AI연구 저변 확대에 크게 기여했다는 평가를 받고 있다.
네이버 AI랩 하정우 리더는, “네이버가 보유한 자유롭게 중장기 선행 연구에 집중할 수 있는 문화와 AI 기술에 대한 지속적인 대규모 투자 확대가 국제 무대에서도 주목받는 연구 결과로 이어지고 있다”며, “최근 AI랩 개설 및 국내 기업 최초 슈퍼 컴퓨팅 도입 등 더욱 대규모 AI 기술 투자를 진행하고 있으며, 혁신적인 기술을 연구개발을 통해 서비스를 더욱 고도화하는 한편, 한국을 넘어서 글로벌 AI 생태계 확장에도 기여할 수 있도록 할 것” 이라 밝혔다. (이상)
네이버 Interspeech 2020 논문 리스트
1. In defence of metric learning for speaker recognition.
정준선, 허재성, 문성규, 이민재, 허희수, 최소연, 함치헌, 정성환, 이봉진, 한익상
- 화자인식에서 metric learning 기반 학습방법이 classification 보다 효율적임을 인증
https://github.com/clovaai/voxceleb_trainer
2. Self-supervised Pre-training with Acoustic Configurations for Replay Spoofing Detection.
심혜진(서울시립대), 허희수, 정지원(서울시립대), 유하진(서울시립대)
- Self-supervised learning 기법을 활용해 소량의 데이터만으로 기만 검출 성능 향상
3. FaceFilter: Audio-visual speech separation using still images
정수환(연세대), 최소연, 정준선, 강홍구(연세대)
- 얼굴 단일 이미지를 활용해서 해당 화자 음성 분리 성능 개선.
- 최우수 학생 논문상 (Best Student Paper) 수상
4. Spot the conversation: speaker diarisation in the wild.
정준선, 허재성, Arsha Nagrani(University of Oxford), Triantafyllos Afouras(University of Oxford), Andrew Zisserman(University of Oxford)
- 멀티모달 화자분리를 통해서 만든 화자분리 데이터셋을 공개.
5. Seeing voices and hearing voices: learning discriminative embeddings using cross-modal self-supervision.
정수환(연세대), 강홍구(연세대), 정준선
- 비디오 데이터에서 Within-modality, cross-modality 데이터를 비교해서 멀티모달 학습을 더 효과적으로 하는 방법 제안
6. Now you're speaking my language: Visual language identification.
T. Afouras, 정준선, A. Zisserman
- 입 모양만 보고 하는 언어인식 기술 연구
7. Neural Text-to-Speech with a Modeling-by-Generation Excitation Vocoder
송은우, 황민제, Ryuichi Yamamoto , 김진섭, 권오성, 김재민
- 음성합성에서 HDTS 모델과 보코더 사이의 exposure bias 문제를 해결하기 위한 Modeling-by-generation 학습 방법을 제안. TTS MOS 4.57 달성 (녹음 MOS 4.66 기준).
8. Speech to Text Adaptation: Towards an Efficient Cross-Modal Distillation.
조원익(서울대), 곽동현, 윤지원(서울대), 김남수(서울대)
- 대규모 언어모델인 BERT를 활용하여 발화음성으로 부터 사용자 의도 파악 정확도를 향상시키는 기술 제안
9. ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic Speech Recognition of Contact Centers
하정우, 남기현(한국외대), 강진구, 이상우, 양소희, 정현훈, 김혜지, 김은미, 김수진, 김현아, 도경태, 이찬규, 성낙호, 김성훈
- 고객센터의 AI 대화 모델 개발을 위한 식당예약 서비스 시나리오에서의 한국어 목적지향형 대화 코퍼스 공개
10. End-to-End Task-oriented Dialog System through Template Slot Value Generation
홍택규, 권오욱(ETRI), 김영길(ETRI)
- 템플릿기반 슬롯 생성 기법을 활용하는 새로운 형태의 end-to-end 목적지향형 대화 시스템 제안