Research 2024.12.03
- Joint Appearance and Motion Model with Temporal Transformer for Multiple Object Tracking
- (English Only) The problem of multi-object tracking (MOT) in the real world poses several challenging tasks, such as similar appearance, occlusion, and extreme articulation motion.
Blog 2024.09.02
- Active Learning을 통한 지속적인 모델 성능 개선
- 42dot에서는 실시간으로 작동하는 고성능 3차원 인지 모델을 개발하기 위해 지속적으로 데이터를 수집하고, 모델의 성능을 추적하여 자율주행 기술을 발전시키고 있습니다.
Research 2024.05.20
- Towards Understanding the Relationship between In-context Learning and Compositional Generalization
- 본 논문에서는 in-context learning을 모델에 강제하는 것이 구성적 일반화를 촉진하는 귀납적 편향(inductive bias)을 제공할 수 있다는 가설을 제시합니다.
Research 2024.04.24
- Learning Contextualized Representation On Discrete Space Via Hierarchical Product Quantization
- 자기지도 학습(Self-supervised learning)은 최근 다양한 음성 처리 응용 분야에서 큰 성공을 거두고 있습니다. 최근 연구들은 연속 공간에서의 타겟(continuous targets)을 활용한 사전 학습이 음성 관련 다운스트림 작업의 성능을 개선하는 데 중요한 역할을 한다고 보고하고 있습니다. 하지만 연속공간에서의 타겟과는 달리, 불안정한 학습으로 인해 이산 공간(discrete space)에서 문맥화된 타겟(contextualized targets)을 생성하는 것은 도전적인 과제입니다. 이를 해결하기 위해, 우리는 계층적 양자화기(hierarchical product quantizer)를 새롭게 도입하였습니다. 이는 양자화된 타겟의 가능한 경우의 수를 줄이고, 모든 코드북(codebook)에 대해 다양성 손실(diversity loss)을 적용하여 모드 붕괴(mode collapse)를 방지함으로써 복수 레이어의 특징(multi-layer features)을 완전히 활용할 수 있도록 합니다. 분석을 통해서 제안된 양자화기와 문맥화된 이산 타겟의 효과를 확인했습니다. 감독 학습 기반 음성인식에서, 제안된 모델은 wav2vec2를 능가했으며 data2vec과 유사한 결과를 보였습니다.
Research 2024.04.04
- Voxtlm: Unified Decoder-only Models for Consolidating Speech Recognition/Synthesis and Speech/Text Continuation Tasks
- VoxtLM은 음성 인식, 음성 합성, 텍스트 생성, 음성 생성 등 다양한 작업을 수행할 수 있는 디코더 기반 언어 모델입니다. 텍스트 어휘와 이산(discrete) 음성 토큰을 통합하여 멀티태스킹 학습을 가능하게 했으며, 이를 통해 단일 작업 모델(single-task model) 대비 뛰어난 성능 향상을 입증했습니다. 본 논문의 연구 결과와 함께 코드 및 모델을 공개하여, 음성을 포함한 멀티모달 언어 모델 연구의 발전에 기여하고자 합니다. VoxtLM은 관련 연구자들에게 중요한 참고 자료로 자리 잡고 있습니다.
Research 2024.04.04
- Boosting Unknown-number Speaker Separation With Transformer Decoder-based Attractor
- 화자의 수를 알지 못하는 상황에서의 혼합음을 분리할 수 있는 새로운 음성 분리 모델을 제안합니다. 제안하는 모델은 1) 입력 신호의 spectro-temporal 패턴을 분석할 수 있는 dual-path 처리 블록, 2) 미지의 수의 화자들을 처리할 수 있는 Transformer Decoder-based Attractor (TDA) 계산 모듈, 그리고 3) 화자 간 관계를 모델링 할 수 있는 triple-path 처리 블록을 쌓은 구조로 이루어져 있습니다. 제안하는 모델은 기존 문헌에서 보고된 최고의 성능을 능가하며, 단일 모델로 2명 및 3명의 화자 혼합음을 분리할 때 각각 WSJ0-2mix와 3mix에서 24.0 dB와 23.8 dB의 ∆SI-SDR을 달성하였습니다. 또한, 제안하는 모델은 최대 5명의 화자가 포함된 혼합음의 분리와 화자 수 예측에서 뛰어난 성능 및 일반화 능력을 보여줍니다.
Blog 2024.03.29
- 42dot LLM 1.3B
- 42dot에서는 지난 가을, 자체 개발한 초거대 언어 모델인 42dot LLM을 공개한 바 있습니다. 42dot LLM은 국내 최초의 한영 통합 언어 모델로서 직접 구축한 데이터와 자체 학습 인프라를 활용해, 비슷한 규모의 다른 언어 모델 대비 월등한 성능을 달성하며 좋은 품질을 보여줬습니다.
Blog 2024.03.28
- 42dot at CES 2024: Software-Defined Vehicle Technology
- CES 2024에서 현대자동차그룹이 발표한 ‘software-defined everything’ 전략에 맞춰 그룹의 글로벌 소프트웨어 센터인 42dot이 공개한 새로운 SDV 전기・전자 아키텍처와 핵심 기술들을 소개합니다.
Research 2023.10.31
- TF-GridNet: Integrating Full- and Sub-Band Modeling for Speech Separation
- 이 연구는 기존 TF-GridNet 모델을 확장하여 다중 마이크 환경에서도 동작할 수 있도록 설계되었습니다. 이를 위해, 다중 프레임 Wiener 필터를 새롭게 제안하고 이를 빔포머와 결합하여 다중 채널 음성 처리의 성능을 획기적으로 향상시켰습니다. 이 확장된 모델은 울림 제거, 잡음 제거와 같은 다양한 음성 처리 작업에서도 최고 수준의 성능(SOTA)을 갱신했으며, 이를 통해 음성 처리 기술의 새로운 기준을 제시했습니다. 또한, 연구 성과와 함께 공개된 코드와 모델은 많은 연구자들에게 참고되고 인용되며 음성 처리 연구의 발전에 기여하고 있습니다.
Research 2023.10.30
- That's What Said: Fully-Controllable Talking Face Generation
- 이 논문의 목표는 얼굴 생성기(face generator)의 잠재 공간(latent space)을 조작하여 제어 가능한 얼굴 동작(controllable facial motions)을 가진 말하는 얼굴(talking faces)을 합성하는 것입니다. 이를 달성하기 위해 두 가지 핵심 아이디어를 제안합니다.
Research 2023.10.24
- SpeedFormer: Learning Speed Profiles with Upper and Lower Boundary Constraints Based on Transformer
- (English Only) This paper presents a new method for generating speed profiles for autonomous vehicles using a Transformer-based network that predicts the coefficients of quintic polynomials.
Research 2023.10.02
- SlaBins: Fisheye Depth Estimation using Slanted Bins on Road Environments
- (English Only) Although 3D perception for autonomous vehicles has focused on frontal-view information, more than half of fatal accidents occur due to side impacts in practice (e.g., T-bone crash).
Research 2023.10.02
- Luminance-aware Color Transform for Multiple Exposure Correction
- (English Only) Images captured with irregular exposures inevitably present unsatisfactory visual effects, such as distorted hue and color tone.
Open Dataset 2023.09.22
- 42dot LLM-SFT
- 42dot LLM-SFT는 42dot에서 개발한 LLM(거대 언어 모델)으로 자연어 instruction을 따르도록 학습되었습니다. 42dot LLM-SFT는 42dot LLM의 일부이며 supervised fine-tuning (SFT)을 통해 42dot LLM-PLM에서 파생되었습니다. 이 저장소에는 1.3B parameter 버전이 포함되어 있습니다.
Open Dataset 2023.09.13
- 42dot LLM-PLM
- 42dot-PLM은 42dot에서 개발한 PLM (pre-trained language model)으로 42dot LLM(거대 언어 모델)의 일부입니다. 42dot LLM-PLM은 한국어 및 영어 text corpus를 사용하여 사전 학습되었으며 여러 자연어 처리 태스크 작업의 기초 언어 모델로 사용할 수 있습니다. 이 저장소에는 모델의 1.3B-parameter 버전이 포함되어 있습니다.
Blog 2023.09.12
- 영지식 증명과 블록체인 그리고 SDV, 모빌리티
- 42dot에서는 모빌리티 사용자에게 새로운 유형의 모틸리티 경험을 제공하기 위한 블록체인 플랫폼을 개발하고 있습니다. 영지식 증명은 42dot이 생각하고 있는 블록체인의 중요한 기술적인 기반 중 하나 입니다.
Research 2023.08.24
- Factspeech: Speaking a Foreign Language Pronunciation Using Only Your Native Characters
- 최근 음성합성 기술에서는 현실 세계에서 자주 사용되는 혼합 언어 문장을 자연스럽게 음성으로 변환하는 기능이 요구되고 있습니다. 그러나 대부분의 기존 모델은 음역(Transliteration)된 단어를 제대로 처리하지 못하는 경우가 많습니다. 특히, 노래 제목과 같은 음역된 텍스트를 음성으로 변환할 때 단어를 그대로 읽는 방식은 부자연스러운 결과를 초래할 수 있습니다. 이 문제를 해결하기 위해 저희는 FACTSpeech 라는 모델을 개발했습니다. 이 모델은 음역된 텍스트에서도 자연스럽고 원어에 가까운 음성을 생성할 수 있으며, 사용자가 원어 발음과 문자 그대로의 발음 중 원하는 방식으로 선택할 수 있는 기능을 제공합니다.
Open Dataset 2023.07.04
- MCMOT: multi-camera multi-object tracking
- 자율주행 시스템은 여러 대의 카메라를 활용해 주변 환경을 인식합니다. 따라서 카메라 시점을 가로질러 움직이는 객체를 인식하려면 동일한 트랙 ID를 유지하는 것이 중요합니다. 우리는 3개의 전면 카메라로 캡처한 객체에 고유한 트랙 ID를 할당하는 주석이 달린 데이터 세트를 제공합니다.
Blog 2023.06.30
- Team 42dot Wins 2nd Place in the Autonomous Driving Challenge at CVPR 2023
- (English Only) 42dot Inc. has presented the solution referred to as MiLO which won the 2nd place (honorable runner-up) in the fiercely contested 3D Occupancy Prediction Challenge for autonomous driving at the Computer Vision and Pattern Recognition Conference (CVPR) 2023; in Vancouver, Canada.
Research 2023.06.19
- BAAM: Monocular 3D pose and shape reconstruction with bi-contextual attention module and attention-guided modeling
- (English Only) A novel monocular 3D pose and shape reconstruction algorithm, based on bi-contextual attention and attention-guided modeling (BAAM), is proposed in this work.
Research 2023.06.19
- RUFI: Reducing Uncertainty in behavior prediction with Future Information
- (English Only) Autonomous driving has shown significant progress in recent years, but accurately predicting the movements of surrounding traffic agents remains a challenge for ensuring safety. Previous studies have focused on behavior prediction using large-scale data with diverse information like lane and agent information.
Research 2023.06.19
- MiLO: Multi-task Learning with Localization Ambiguity Suppression for Occupancy Prediction
- (English Only) We present Multi-task Learning with Localization Ambiguity Suppression for Occupancy Prediction (MiLO) as our solution for camera-based 3D Occupancy Prediction Challenge at CVPR 2023.
Research 2023.06.06
- Masked Token Similarity Transfer for Compressing Transformer-Based ASR Models
- 최근 transformers 기반의 자기 지도 학습(self-supervised) 음성 인식 (ASR) 모델들이 최고의 성능을 보이고 있지만, 이들의 크기는 하드웨어 자원이 부족한 환경에서 훈련하거나 엣지 디바이스에 배포하기에는 너무 큽니다. 물론 Knowledge distillation (KD)을 사용하여 모델 크기를 줄일 수 있습니다.
Research 2023.06.05
- Joint unsupervised and supervised learning for context-aware language identification
- Language Identification (LID)은 발화된 음성의 언어를 자동으로 인식하는 기술입니다. ASR 모델을 학습시키기 위해서는 추가적인 text 레이블이 필요하며, 이러한 레이블을 획득하는 데 높은 비용이 소요됩니다. 이 문제를 해결하기 위해, 우리는 text 레이블 없이 unsupervied learning 과 supervised learning을 결합한 context-aware LID 방법을 제안합니다. 제안된 방법은 Masked Language Modeling (MLM) loss를 통해 음성의 문맥을 학습하고, 동시에 supervised learning loss를 통해 발화의 언어를 판별하도록 모델을 훈련합니다.
Research 2023.06.05
- Neural Speech Enhancement with Very Low Algorithmic Latency and Complexity via Integrated Full- and Sub-Band Modeling
- 본 연구는 저지연(low latency) 음성 향상을 목표로 설계된 모델입니다. 이 모델은 LSTM을 기반으로 하여 전체 대역(Full-band)과 하위 대역(Sub-band) 모델링을 결합한 방식으로 STFT(단기 푸리에 변환) 영역에서 음성을 향상시킵니다. 낮은 알고리즘 복잡도와 작은 실행 버퍼를 유지하면서, 2ms 이내의 속도로 소음과 잔향이 있는 환경에서 음성을 실시간으로 향상시킬 수 있어 실시간 음성 처리가 필요한 환경에 최적화된 알고리즘입니다.
Research 2023.06.05
- TF-GridNet: Making Time-Frequency Domain Models Great Again for Monaural Speaker Separation
- TF-GridNet은 단일 마이크 환경에서 두 화자의 목소리를 효과적으로 분리하기 위해 설계된 모델입니다. 이 모델은 시간-주파수 영역에서 다중 경로 학습 구조를 채택하여, 프레임 내 스펙트럼 정보, 하위 대역 시간 정보, 전체 대역의 자기-어텐션을 결합함으로써 성능을 대폭 향상시켰습니다. 학습 과정에서는 SI-SDR 손실 함수에 더해 새로운 손실 항을 도입하여, 분리된 신호의 합이 원본 신호와 일치하도록 유도했습니다. 이를 통해 WSJ0-2mix 데이터셋에서 23.4 dB SI-SDR 성능을 달성하며 기존 최고 기록을 크게 상회하는 성과를 거두었습니다.
Research 2023.06.05
- CrossSpeech: Speaker-independent Acoustic Representation for Cross-lingual Speech Synthesis
- 최근 음성합성(TTS) 기술은 인간 수준의 품질에 가까운 성능을 보여주며 큰 발전을 이루고 있지만, 다국어 TTS에서는 여전히 단일 언어 TTS에 비해 성능 차이가 큽니다. 이러한 격차는 주로 다국어 TTS에서 발생하는 화자-언어 얽힘 문제(speaker-language entanglement)에서 비롯됩니다. 이 문제를 해결하기 위해 저희는 CrossSpeech라는 새로운 접근 방식을 제안합니다. CrossSpeech는 음향 특징 공간(acoustic feature space)에서 화자 정보와 언어 정보를 효과적으로 분리하여 다국어 음성 품질을 개선하는 데 초점을 맞추고 있습니다.
Research 2023.06.05
- Metric Learning for User-defined Keyword Spotting
- 본 연구의 목표는 사용자가 정의한 새로운 키워드(keyword)를 탐지하는 것입니다. 사용자 정의 키워드를 정의하는 능력은 사용자 경험 측면에서 이점을 제공합니다. 본 논문에 사용자 정의 keyword spotting을 위한 metric learning 기반의 훈련 전략을 제안합니다.
Blog 2023.04.19
- Joint Unsupervised and Supervised Learning for Context-aware Language Identification
- Language Identification (LID)은 발화된 음성의 언어를 자동으로 인식하는 기술입니다. ASR 모델을 학습시키기 위해서는 추가적인 text 레이블이 필요하며, 이러한 레이블을 획득하는 데 높은 비용이 소요됩니다. 이 문제를 해결하기 위해, 우리는 text 레이블 없이 unsupervied learning 과 supervised learning을 결합한 context-aware LID 방법을 제안합니다. 제안된 방법은 Masked Language Modeling (MLM) loss를 통해 음성의 문맥을 학습하고, 동시에 supervised learning loss를 통해 발화의 언어를 판별하도록 모델을 훈련합니다.
Research 2023.01.09
- ASBERT: ASR-Specific Self-Supervised Learning with Self-Training
- 자기지도학습(Self-supervised learning)의 사전학습(pre-training)은 다양한 음성처리 작업에서 우수한 성능을 보이는 것으로 알려져 있습니다. 하지만 이러한 사전학습 방식은 특정 작업, 예를 들어 음성 인식(ASR)과 같은 작업의 미세 조정을 위해서는 최적의 솔루션이 아닐 수 있습니다. ASR에 보다 최적화된 사전 학습 모델을 제공하기 위해, 우리는 자기 학습(Self-Training) 기법을 활용한 ASBERT를 소개합니다. 자기 학습에서 영감을 받아, 미세 조정된 모델에서 언어적 관련성을 가진 수도 레이블(pseudo label)을 추출하고, 이를 다음 사전 학습 절차에 사용합니다. LibriSpeech test-clean 및 test-other 데이터셋에 대한 실험 결과에 따르면, 언어 모델(LM)을 사용하지 않은 ASBERT는 기존 SSL 및 자기 학습 모델보다 뛰어난 성능을 보여, 각각 6.3/2.0% 및 15.4/13.2%의 상대 단어 오류율 감소(Relative Word Error Rate Reduction)를 달성했습니다. 더욱이, 수도 전사(pseudo-transcription)를 사용하지 않고도 ASBERT는 기존 자기 학습 방식과 유사한 성능을 보였습니다.
Blog 2023.01.05
- AWS IoT Core Resource Deployment via CDK
- AWS Cloud Development Kit(이하 AWS CDK)는 익숙한 프로그래밍 언어를 사용하여 클라우드 애플리케이션 리소스를 정의할 수 있는 오픈 소스 소프트웨어 개발 프레임워크입니다. 이러한 코드를 통해 인프라를 관리하는 방식을 Infrastructure as Code, 줄여서 IaC라고 부릅니다.
Blog 2022.12.16
- ML Data Platform for Continuous Learning
- 42dot에서는 자율주행기술 개발을 위해 머신러닝 기술을 적극적으로 활용하고 있습니다. 머신러닝 개발의 경우 고도의 알고리즘, 대량의 데이터 그리고 복잡한 컴퓨팅 연산이 필요하고 이를 수행하기 위해서는 software 및 hardware의 효율적인 지원이 필요합니다. 이를 위에 42dot에서는 다양한 기술을 이용하여 machine learning과 data platform을 개발하여 운영하고 있습니다.
Research 2022.11.28
- Self-supervised surround-view depth estimation with volumetric feature fusion
- (English Only) We present a self-supervised depth estimation approach using a unified volumetric feature fusion for surround-view images. Given a set of surround-view images, our method constructs a volumetric feature map by extracting image feature maps from surround-view images and fuse the feature maps into a shared, unified 3D voxel space.
Blog 2022.11.25
- 속도와 보안이 강화된 OTA 업데이트
- 42dot에서는 모든 것들이 스스로 움직이게 하기 위해서 자율 주행 제어 장치를 개발하고 있습니다. 이 장치는 다양한 센서(카메라, 레이더 등)를 활용해서 주변 상황을 인지/판단하고 지도/측위 기술 등을 조합해서 주행 경로에 따라 장치 스스로 조향 각과 가감속과 같은 다양한 이동 과정의 제어를 수행합니다.
Research 2022.11.07
- An Empirical Study of Training Mixture Generation Strategies on Speech Separation: Dynamic Mixing and Augmentation
- 본 연구는 음성 분리 모델의 성능 향상을 위한 효율적인 훈련 전략에 대해 다룹니다. 특히, 훈련 전략이 모델의 일반화 능력을 개선하는 데 중요한 역할을 한다는 점에 주목하였습니다. 기존의 미리 생성한 음성 mixture를 사용하는 대신, 동적 혼합(Dynamic Mixing, DM)이라는 데이터 증강 방법을 사용하여 훈련 데이터셋을 생성하는 방법을 기반으로 심도있는 분석을 진행했습니다. 그 결과, 학습 데이터가 제한된 상황에서 DM과 데이터 증강을 결합한 전략이 성능 향상에 매우 효과적임을 확인했습니다. 이 연구는 음성 분리의 실제 응용에서 훈련 모델의 일반화 성능을 크게 개선할 수 있는 학습 방법론을 제시합니다.
Research 2022.10.24
- Character decomposition to resolve class imbalance problem in Hangul OCR
- (English Only) We present a novel approach to OCR(Optical Character Recognition) of Korean character, Hangul. As a phonogram, Hangul can represent 11,172 different characters with only 52 graphemes, by describing each character with a combination of the graphemes.
Blog 2022.10.14
- Foros : 자동차에 합의 알고리즘을?
- 미래 기술이라 생각했던 자율주행차를 정식 교통수단으로 이용할 수 있는 시대가 되었습니다. 이에 따라 42dot 은 자율주행 안정성을 높이기 위한 연구 개발을 진행하고 있으며, 그중 ‘합의 알고리즘 기반 애플리케이션 다중화 기술’에 대해서 이야기하려고 합니다.
Blog 2022.09.20
- 42dot MCMOT(Multi-Camera Multi-Object Tracking) 챌린지
- 42dot이 자율주행 연구 개발을 위한 생태계 조성의 일환으로 공개한 자율주행 데이터 ‘42dot Open Dataset’을 토대로 진행한 MCMOT 챌린지 결과와 그 내용을 공개합니다.
Blog 2022.09.16
- 42dot이 그리는 미래 모빌리티 세상
- 자율주행이 가져올 우리 삶의 변화, 어떤 모습일지 상상해 본 적 있나요? 42dot이 미션인 ‘autonomous and frictionless'의 가치를 담아 모빌리티의 미래 모습을 영상으로 만들었습니다. 42dot이 기대하는 모빌리티의 미래, 함께 살펴보겠습니다.
Research 2022.06.20
- Eigenlanes: Data-driven lane descriptors for structurally diverse lanes
- (English Only) A novel algorithm to detect road lanes in the eigenlane space is proposed in this paper. First, we introduce the notion of eigenlanes, which are data-driven descriptors for structurally diverse lanes, including curved, as well as straight, lanes.
Open Dataset 2022.06.02
- 42dot releases Open Dataset, SDLane
- SDLane dataset은 자율주행을 위한 새로운 차선 dataset입니다. Dataset은 고속도로와 도심의 복잡한 시나리오를 담은 1920 X 1208 픽셀의 고해상도 이미지를 제공합니다. SD Lane dataset는 정확한 실측 라벨이 포함된 39K 훈련 이미지와 4K 테스트 이미지로 구성됩니다.
Research 2021.07.19
- Harmonious semantic line detection via maximal weight clique selection
- (English Only) A novel algorithm to detect an optimal set of semantic lines is proposed in this work. We develop two networks: selection network (S-Net) and harmonization network (H-Net). First, S-Net computes the probabilities and offsets of line candidates.
Research 2019.11.25
- Anchor Loss: Modulating Loss Scale based on Prediction Difficulty
- (English Only) We propose a novel loss function that dynamically re-scales the cross entropy based on prediction difficulty regarding a sample. Deep neural network architectures in image classification tasks struggle to disambiguate visually similar objects.
Research 2019.10.29
- Instance-level future motion estimation in a single image based on ordinal regression
- (English Only) A novel algorithm to estimate instance-level future motion in a single image is proposed in this paper. We first represent the future motion of an instance with its direction, speed, and action classes. Then, we develop a deep neural network that exploits different levels of semantic information to perform the future motion estimation.
Research 2019.10.28
- Drop to Adapt: Learning Discriminative Features for Unsupervised Domain Adaptation
- (English Only) Domain adversarial methods render suboptimal performances since they attempt to match the distributions among the domains without considering the task at hand. We propose Drop to Adapt (DTA), which leverages adversarial dropout to learn strongly discriminative features by enforcing the cluster assumption.