学習方法

メンター情報

料金

対応時間帯

返信スピード

学習方法

メンター情報

料金

対応時間帯

返信スピード

募集をシェアしてメンターを探そう
シェア

※ この募集は締め切られました。

フルスタック

自作TTSクローン音声APIの構築・運用について相談したいです

31日前
単発
予算
10,000円
提案数
2人が提案中
応募期限
終了

【教えてもらいたいこと】
プログラミング/フルスタック

【具体的な相談内容】
「人気インフルエンサー風の男性VTuberキャラと、リアルタイムで音声会話できるAIアプリ」を開発したいと考えています。


■やりたいこと(目的)

SynClubのようなAI会話アプリの開発
https://www.synclubaichat.com/home

ユーザーが音声で話しかけると、AIがクローン音声で返答し“彼氏っぽいAI会話体験”を提供することが目標です。

このアプリでは、こちらで収録した特定キャラの音声を学習データとして使用し、TTSクローンエンジンを自社構築する方向で検討しています。


■概要(アプリ構成)

1. ユーザーがスマホで話す(音声入力)
2. STTで音声をテキスト化
3. 自然な返答文が生成される
4. 返答テキストをインフルエンサーの声でTTS合成(クローン音声)
5. VTuberアバターが口パク連動で再生

---

■ 現状の希望・想定技術

・ 既存のTTSサービスを使用した場合、ユーザーが増えるほどコストが高くなる、安価の既存サービスもあるがクローン音声を使えないものが多くTTSエンジンの開発を考えている
・ 音声素材(30分〜60分)はこちらで準備済/収録可能
・ Web API化し、アプリやブラウザから利用したい
・ 将来的にランニングコスト削減/自由度向上のためTTS内製化を目指す

---

■ご相談したいこと(質問)

1. 自作TTSエンジンの実装可否について

・ 日本語クローン音声を生成し、リアルタイム合成するにはどのような構成であれば実現可能なのか?

2. TTSエンジンのAPI化と運用について

・ FlaskやFastAPIでTTSをAPIとして動かすことは可能か?
・ レスポンス速度を許容範囲に保つには、どういったGPU環境が必要ですか?

3. クラウド運用における最小構成と費用

・ GPUサーバーでのホスティングにおすすめのVPSやクラウドはありますか?
・ 月間コスト(GPU付き、軽量構成)は最低どれくらいでしょうか?

4. MVP段階での代替策のご提案

・ 自作TTSが難しい場合、API型のTTS(Google Cloudなど)と併用した構成の実績やアイデアがあれば伺いたいです
【目安予算】
10000円

募集をシェアしてメンターを探そう
シェア