[B! 機械学習][音声] skypenguinsのブックマーク

litagin/moe-speech · Datasets at Hugging Face

Not-For-All-Audiences This repository has been marked as containing sensitive content and may contain potentially harmful and sensitive information. View content

skypenguins 2024/01/24

リンク

Neural text to speech のメモ(2020 年 3 月 28 日時点) - Qiita

テキストから, 自然な(人間が話しているっぽい)スピーチを生成し, LibTorch, TensorFlow C++ でモバイル(オフライン)でリアルタイム or インタラクィブに動く(動かしやすそう)な手法に注力しています. 英語に限っています. 人気がありそう(いろいろな人がトライしていて知見や実装があるもの)なやりやた Tacotron2 -> [Mel spectrogram(wav)] -> WaveRNN -> [audio(wav)] 最近のトレンド? Tacotron2 の部分を Transf ormer 系のものを使う(e.g. FastSpeech), WaveRNN の部分を WaveGlow, WaveFlow を使う. Mel spectroguram(メルスペクトログラム) 中間のデータ表現. 誤差を計算したりいろいろ処理がしやすいのでこの Mel spectr

skypenguins 2020/02/25

リンク

リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS（オープンソースソフトウェア）として公開しました。ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

skypenguins 2019/09/29

ヒューリスティックな遅延対策だけど、割と効果ありそう

リンク

変換と高精細化の2段階に分けた声質変換 - Dwango Media Village

概要本研究では，少数のパラレルデータで学習可能な声質変換モデルと，多数のノンパラレルデータで学習可能な高品質化モデルに分けることで，必要なパラレルデータ数を抑えつつ高品質な声質変換を行う手法を提案する。 1段目のモデルでは，時間方向に1次元畳み込み層を持つ畳込みニューラルネットワーク (CNN) を用いて，時間的な依存関係を考慮しつつ，入力話者の基本周波数と低次のメルケプストラム系列を目標話者のものに変換する． 2段目のモデルでは，GANを用いて，過剰に平滑化された変換時の音響特徴を高精細化する．実験結果から，従来手法と比べ，提案手法は同程度の自然性と高い個人性を持つ声質変換が可能であることを示した．実験結果主観評価実験により，変換音声の自然性と個人性をそれぞれ比較した．自然性は音声が自然に聞こえるか，個人性は音声が目標話者らしく聞こえるかを表した指標である．

skypenguins 2018/10/16

リンク

キズナアイとねこますの声を入れ替える機械学習をした - Qiita

最近バーチャルユーチュ－バーが人気ですよね。自分もこの流れに乗って何か作りたいと思い、開発をしました。モーションキャプチャー等を使って見た目を変えるのはかなり普及しているっぽいので、自分は声を変えられるようにしようと開発しました。やったことキズナアイさんとねこますさんの、それぞれの声を入れ替えられるようにしました。これによって、ねこますさんのしゃべった内容を、キズナアイさんの声でしゃべらせることができます。(逆も) 機械学習手法の一つであるCycleGANを用いて、変換するためのネットワークを学習しました。パラレルデータ(話者Aと話者Bが、同時に同じ内容を話した音声)が必要ありません。YouTubeから拾った音声でも変換ができます。当然ですが、一度学習すれば、利用時には何度でも繰り返し利用できます。期待できる効果見た目だけでなく、声まで美少女になれます。やったね。他にも

skypenguins 2018/05/16

CycleGANっぽいなと思ったら言及されてた

リンク

深層学習を使って楽曲のアーティスト分類をやってみた！ - Platinum Data Blog by BrainPad

深層学習を使った音声データによる楽曲分類を実施しました！楽曲の特徴を表すメル周波数スペクトログラムを用いて、その楽曲のアーティストを推定します。こんにちは、アナリティクスサービス本部の井出です。今回のブログは、音声データをテーマとして取り上げ、音声データの特徴量深層学習による楽曲のアーティスト分類についてご紹介します。ブレインパッドでは、深層学習の技術を駆使した活用事例が増えてきています。特に、画像認識の分野における活用事例は多く、当社の公開されている事例だけでも以下のようなものがあります。ブレインパッド、キユーピーの食品工場における不良品の検知をディープラーニングによる画像解析で支援八千代エンジニヤリングとブレインパッド、洪水を安全に流す役割を担う河川のコンクリート護岸の劣化をAIで自動判定するサービス「GoganGo」を共同開発一方で、音声データを扱う事例はなかなか珍

skypenguins 2018/04/18

スペクトログラムって画像だから、音声認識と画像認識を同時にやってることになるのかな

リンク

音楽と機械学習前処理編 MFCC ~ メル周波数ケプストラム係数 - Qiita

最近音楽を機械学習で扱うことに興味があって色々と調べているのですが、せっかくなので備忘録と理解促進を兼ねて記事にしてみます。機械学習に限らず、音楽をデジタル情報として扱う際には楽譜や調、歌詞など、メタな情報を扱う方法と、オーディオデータそのものを扱う方法とに大別されますが、今回はオーディオデータそのものを扱う方法の一つとして、MFCCについてまとめます。お急ぎの方向け mp3 を wav にして MFCC して現実的に扱えそうな次元に落とす # ffmpegのインストール $ brew install ffmpeg # ffmpegで mp3 をサンプリングレート 44.1kHz wavに変換 $ ffmpeg -i hoge.mp3 -ar 44100 hoge.wav # 必要なPythonパッケージのインストール $ pip install --upgrade sklearn

skypenguins 2018/02/13

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

機械学習と音声に関するskypenguinsのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス