오디오 신호 처리부터 음성 인식 생성까지 한번에 끝내기
Audio Signal Processing to Speech Recognition and Generation

Online Book
오디오 신호 처리부터 음성 인식 생성까지 한번에 끝내기
Audio Signal Processing to Speech Recognition and Generation
이수안
2024-07-01
소개
오디오 신호 처리는 소리 데이터를 분석하고 변환하는 기술입니다. 기본적인 신호 처리부터 최신 딥러닝 기반 음성 인식과 생성까지 체계적으로 학습합니다.
목차
1장: 오디오 신호 기초
- 소리의 물리적 특성
- 샘플링과 양자화
- 오디오 파일 형식 (WAV, MP3, FLAC)
- Python 오디오 라이브러리 (librosa, soundfile)
- 오디오 읽기, 쓰기, 재생
2장: 시간 영역 분석
- 파형 시각화
- 진폭과 에너지
- Zero Crossing Rate
- 오디오 분할과 세그멘테이션
- 노이즈 제거 기초
3장: 주파수 영역 분석
- 푸리에 변환 (DFT, FFT)
- 스펙트럼 분석
- 단시간 푸리에 변환 (STFT)
- 스펙트로그램
- 멜 스케일과 멜 스펙트로그램
4장: 오디오 특징 추출
- MFCC (Mel-Frequency Cepstral Coefficients)
- 크로마 특징
- 스펙트럴 특징 (Centroid, Bandwidth, Rolloff)
- 템포와 비트 추출
- 특징 정규화
5장: 음성 신호 처리
- 음성 생성 모델
- 포먼트와 피치 분석
- 음성 활동 탐지 (VAD)
- 화자 분리 (Speaker Diarization)
- 음성 향상과 노이즈 제거
6장: 전통적 음성 인식
- 히든 마르코프 모델 (HMM)
- 가우시안 혼합 모델 (GMM)
- 음향 모델과 언어 모델
- 디코딩과 빔 서치
- Kaldi 프레임워크
7장: 딥러닝 음성 인식
- RNN/LSTM 기반 모델
- CTC (Connectionist Temporal Classification)
- Attention 메커니즘
- Transformer 기반 모델
- Whisper 모델 활용
8장: End-to-End 음성 인식
- Wav2Vec 2.0
- HuBERT
- 한국어 음성 인식 모델
- 실시간 음성 인식
- 다국어 음성 인식
9장: 음성 합성 (TTS)
- 음성 합성의 기초
- Tacotron 시리즈
- FastSpeech
- VITS
- 한국어 TTS 구현
10장: 음성 생성과 변환
- 보코더 (WaveNet, HiFi-GAN)
- 음성 변환 (Voice Conversion)
- 음성 복제 (Voice Cloning)
- 감정 음성 합성
- 실시간 음성 변환
11장: 오디오 분류와 태깅
- 환경음 분류
- 음악 장르 분류
- 오디오 이벤트 탐지
- 음악 정보 검색
- 오디오 캡셔닝
12장: 실전 프로젝트
- 음성 명령 인식 시스템
- 실시간 자막 생성
- AI 음성 비서
- 음악 추천 시스템
- 오디오북 생성
