用語集
トーキングアバターに関するあらゆる疑問への分かりやすい答え。
AI動画を作り始めると登場する用語 — リップシンク、ニューラル音声、写真から動画など — の手早い定義。
トーキングアバター
通常は一枚の写真から作られ、選んだ音声やスクリプトに合わせて唇・顎・表情をAIがアニメーションさせるデジタルキャラクター。
詳しく見る →リップシンク
顔の口の動きを目標音声に1フレーム単位で合わせ、話者が正しい音を視覚的に発音しているように見せること。
詳しく見る →テキストから動画 (text-to-video)
書かれた台本を完成した動画に変換するワークフロー。通常は音声生成、顔またはシーンのアニメーション、最終的な組み立てを自動で行います。
詳しく見る →写真から動画 (photo-to-video)
1枚の静止写真から動画を生成すること — 多くの場合、被写体の顔を話すようにアニメーションさせます。
詳しく見る →AIプレゼンター
AIが生成する仮想のオンカメラ・スポークスパーソン。説明動画、製品デモ、コース、社内コミュニケーションに使われます。
詳しく見る →ボイスクローン
通常は短い音声サンプルから、特定の実在人物に似た新しい声を合成すること。
詳しく見る →ニューラル音声
ディープニューラルネットワークで生成されるTTS音声。古い連結合成やフォルマント合成より自然なイントネーションと感情を出せます。
詳しく見る →AIダビング (吹き替え)
動画を新しい言語に自動で再吹き替えすること。理想的には口形を合わせ、元の話者の声の特徴も維持します。
詳しく見る →ディープフェイク
AIによって人物の顔や声を入れ替えたりアニメーションさせたりした合成メディア。本人の同意を得て自分の写真から作るトーキングアバターは、同じ技術の合法的・倫理的な活用です。
詳しく見る →テキスト読み上げ(TTS)
テキストを音声に変換する技術。現代のニューラルTTSは人間の録音と区別がつかない声を生成し、ほとんどのトーキングアバターの音声エンジンとなっています。
詳しく見る →AI動画ジェネレーター
テキストプロンプト、スクリプト、写真、音声などの入力から完成動画ファイルを生成するツール。トーキングアバター生成は最も実用的なサブカテゴリの一つです。
詳しく見る →トーキングヘッド動画
1人の人物(またはアバター)がカメラに向かって話す動画フォーマット — チュートリアル、セールス、コース、SNS解説の主流形式。
詳しく見る →