Python 音声信号処理

Pythonでの音声信号処理に学ぶために以下の項目を解説していきます。

音声信号処理

  • wavファイルの詳細情報の表示
  • wavファイルの読み出し/書き出し
  • 音声ファイルの波形表示
  • サンプリング周波数の変更
  • ステレオ信号の生成
  • スルー
  • ディレイ
  • ローパスフィルタ
  • ハイパスフィルタ
  • バンドパスフィルタ
  • インパルス応答
  • FIRフィルタ
  • IIRフィルタ
  • 離散フーリエ変換(DFT)
  • 高速フーリエ変換(FFT)
  • 短時間フーリエ変換(STFT)
  • オーバーラップ
  • スペクトログラム
  • 周波数マスク
  • 最大振幅とピーク周波数
  • ケプストラム変換
  • 線形予測分析
  • 再生速度の変更
  • 逆再生
  • ボイスチェンジャー
  • 話速変換
  • 音声抽出

音声合成

  • 線形予測による音声合成
  • 統計的音声合成

音響信号処理

  • ボーカルキャンセラ
  • ディストーション
  • クリッピング
  • コンプレッサ
  • ノイズゲート
  • トレモロ、ビブラート
  • エコー、リバーブ

音声強調

  • スペクトルサブトラクション
  • ウィナーフィルタ
  • 位相復元(Grifin-and-Lim)
  • ビームフォーマ

音源定位

  • MUSIC法
  • CSP法(GCC-PHAT)
  • PD(Phase Difference)
  • GCC-PHAT

音源分離

  • バイナリマスキング
  • DUET
  • 独立成分分析
  • 非負値行列因子分解

音声区間検出(VAD)

  • ゼロクロス数を用いたVAD
  • 尤度を用いたVAD