タグ

機械学習と音声に関するskypenguinsのブックマーク (7)

  • litagin/moe-speech · Datasets at Hugging Face

    Not-For-All-Audiences This repository has been marked as containing sensitive content and may contain potentially harmful and sensitive information. View content

    litagin/moe-speech · Datasets at Hugging Face
  • Neural text to speech のメモ(2020 年 3 月 28 日時点) - Qiita

    テキストから, 自然な(人間が話しているっぽい)スピーチを生成し, LibTorch, TensorFlow C++ でモバイル(オフライン)でリアルタイム or インタラクィブに動く(動かしやすそう)な手法に注力しています. 英語に限っています. 人気がありそう(いろいろな人がトライしていて知見や実装があるもの)なやりやた Tacotron2 -> [Mel spectrogram(wav)] -> WaveRNN -> [audio(wav)] 最近のトレンド? Tacotron2 の部分を Transformer 系のものを使う(e.g. FastSpeech), WaveRNN の部分を WaveGlow, WaveFlow を使う. Mel spectroguram(メル スペクトログラム) 中間のデータ表現. 誤差を計算したりいろいろ処理がしやすいのでこの Mel spectr

    Neural text to speech のメモ(2020 年 3 月 28 日時点) - Qiita
  • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

    はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

    skypenguins
    skypenguins 2019/09/29
    ヒューリスティックな遅延対策だけど、割と効果ありそう
  • 変換と高精細化の2段階に分けた声質変換 - Dwango Media Village

    概要 研究では,少数のパラレルデータで学習可能な声質変換モデルと,多数のノンパラレルデータで学習可能な高品質化モデルに分けることで, 必要なパラレルデータ数を抑えつつ高品質な声質変換を行う手法を提案する。 1段目のモデルでは,時間方向に1次元畳み込み層を持つ畳込みニューラルネットワーク (CNN) を用いて, 時間的な依存関係を考慮しつつ,入力話者の基周波数と低次のメルケプストラム系列を目標話者のものに変換する. 2段目のモデルでは,GANを用いて,過剰に平滑化された変換時の音響特徴を高精細化する. 実験結果から,従来手法と比べ,提案手法は同程度の自然性と高い個人性を持つ声質変換が可能であることを示した. 実験結果 主観評価実験により,変換音声の自然性と個人性をそれぞれ比較した. 自然性は音声が自然に聞こえるか,個人性は音声が目標話者らしく聞こえるかを表した指標である.

    変換と高精細化の2段階に分けた声質変換 - Dwango Media Village
  • キズナアイとねこますの声を入れ替える機械学習をした - Qiita

    最近バーチャルユーチュ-バーが人気ですよね。自分もこの流れに乗って何か作りたいと思い、開発をしました。 モーションキャプチャー等を使って見た目を変えるのは かなり普及しているっぽいので、自分は声を変えられるようにしようと開発しました。 やったこと キズナアイさんとねこますさんの、それぞれの声を入れ替えられるようにしました。これによって、ねこますさんのしゃべった内容を、キズナアイさんの声でしゃべらせることができます。(逆も) 機械学習手法の一つであるCycleGANを用いて、変換するためのネットワークを学習しました。 パラレルデータ(話者Aと話者Bが、同時に同じ内容を話した音声)が必要ありません 。YouTubeから拾った音声でも変換ができます。 当然ですが、一度学習すれば、利用時には何度でも繰り返し利用できます。 期待できる効果 見た目だけでなく、声まで美少女になれます。やったね。 他にも

    キズナアイとねこますの声を入れ替える機械学習をした - Qiita
    skypenguins
    skypenguins 2018/05/16
    CycleGANっぽいなと思ったら言及されてた
  • 深層学習を使って楽曲のアーティスト分類をやってみた! - Platinum Data Blog by BrainPad

    深層学習を使った音声データによる楽曲分類を実施しました!楽曲の特徴を表すメル周波数スペクトログラムを用いて、その楽曲のアーティストを推定します。 こんにちは、アナリティクスサービス部の井出です。 今回のブログは、音声データをテーマとして取り上げ、 音声データの特徴量 深層学習による楽曲のアーティスト分類 についてご紹介します。 ブレインパッドでは、深層学習の技術を駆使した活用事例が増えてきています。特に、画像認識の分野における活用事例は多く、当社の公開されている事例だけでも以下のようなものがあります。 ブレインパッド、キユーピーの品工場における不良品の検知をディープラーニングによる画像解析で支援 八千代エンジニヤリングとブレインパッド、洪水を安全に流す役割を担う河川のコンクリート護岸の劣化をAIで自動判定するサービス「GoganGo」を共同開発 一方で、音声データを扱う事例はなかなか珍

    深層学習を使って楽曲のアーティスト分類をやってみた! - Platinum Data Blog by BrainPad
    skypenguins
    skypenguins 2018/04/18
    スペクトログラムって画像だから、音声認識と画像認識を同時にやってることになるのかな
  • 音楽と機械学習 前処理編 MFCC ~ メル周波数ケプストラム係数 - Qiita

    最近音楽機械学習で扱うことに興味があって色々と調べているのですが、せっかくなので備忘録と理解促進を兼ねて記事にしてみます。 機械学習に限らず、音楽をデジタル情報として扱う際には楽譜や調、歌詞など、メタな情報を扱う方法と、オーディオデータそのものを扱う方法とに大別されますが、今回はオーディオデータそのものを扱う方法の一つとして、MFCCについてまとめます。 お急ぎの方向け mp3 を wav にして MFCC して現実的に扱えそうな次元に落とす # ffmpegのインストール $ brew install ffmpeg # ffmpegmp3 を サンプリングレート 44.1kHz wavに変換 $ ffmpeg -i hoge.mp3 -ar 44100 hoge.wav # 必要なPythonパッケージのインストール $ pip install --upgrade sklearn

    音楽と機械学習 前処理編 MFCC ~ メル周波数ケプストラム係数 - Qiita
  • 1