【DomoAI】新しい動画モデル「Seedance 2.0」を検証する

「DomoAI(ドーモAI)」のアップデートで、新たな動画生成モデル「Seedance」が追加されました。

この記事では現時点での最新版「2.0」の使い方や、これまでのモデルとの差異などの詳細をご説明します。

※当記事はDomoAIさまよりデモアカウントの提供を受けていますが、特に修正指示等は受けておりません、正直な感想ベースで書いています。

「Seedance」とは

Seedanceは、TikTokやCapCutを手がけるByteDanceが開発したAI動画生成モデルです。
テキストや画像を入力するだけで、なめらかな動きと映画のような映像美を備えた高画質動画を自動で生成できるモデルとなります。

最大の特徴は、テキスト・画像・音声・動画といった複数の入力を組み合わせられるマルチモーダル対応です。
複数のショットをつないだ物語性のある動画を、被写体や映像スタイルの一貫性を保ちながら作れるうえ、映像と同期した音声も同時に生成できます。

「Seedance」の使い方とできること

動画生成時にモデルの一つとして選択して使う

「Seedance」はこれまでの動画モデルと同様に、動画生成時の使用モデルとして選択が可能です。

利用可能な方法としては以下の通りです。

  • 画像からの動画生成
  • フレームからの動画生成
  • キャラクターからの動画生成
  • テキストからの動画生成

それぞれの生成方法の説明は以下のページをご覧ください。

生成可能な秒数と解像度

生成できるのは4秒~15秒の動画です。
フレームからの動画生成でも、現時点ではマルチフレーム機能が使用できないため、生成可能な秒数の上限は同じです。

解像度については480P/720P/1080Pの三種類が選択可能です。
(1080Pが選択可能なのは「Seedance 2.0」のみ。「Seedance 2.0 Fast」では選択不可)

複数画像からの生成が可能

これまではキーフレーム指定の動画生成以外では、一枚の画像からしか動画が生成できませんでしたが、「Seedance」では複数の画像から動画が作成できます(最大9枚)。

例えばこんなことが可能です。
複数組み合わせることも可能ですので色々試してみましょう。

  • 背景の指定
    例)一枚目のキャラクターが、二枚目の場所で踊る
  • 服装の変更
    例)一枚目のキャラクターが、二枚目の服装で踊る
  • 表情・ポーズ・体型の変更
    例)一枚目のキャラクターが、二枚目のポーズをする
  • キャラクターやオブジェクトの追加
    例)一枚目と二枚目のキャラクターが一緒に踊る

音声入りの動画を生成可能

これまでのモデルでは動画に音もセットで生成できるモデルはほとんどありませんでしたが「Seedance」では可能です。

SEやBGMのみでなく、セリフの読み上げや歌わせることも可能です。

生成される音の品質は?

あくまで主観になりますがそれぞれの評価を記載します。

  • SE
    かなり高品質。動画と合わない音はほぼ出てきませんでした。
  • BGM
    問題なく聞けるレベル。ただし曲調等をプロンプトで指定するので、思い通りのものを生成するのは難しいのと、再現も困難です。
  • 声(リアクション系)
    かなり高品質。吐息や悲鳴、喘ぎなどは違和感を感じませんでした。
  • 声(会話)
    質はそこそこでまあ聞けるレベル。たまに片言に聞こえたりします。
  • 声(歌声)
    質はそこそこだが使いこなすのが難しい。歌っているようには聞こえるが、歌い方や調子をプロンプトで指定するので、思い通りのものを生成するのは難しいのと、再現も困難です。

これまでのモデルとの比較

実際に並べてみると違いが分かりやすいので見て見ましょう。
同じ画像から同じプロンプトで出力しています。

音声出力のある「Seedance 2.0」と「DomoAI 2.5」を並べたものです。
動画は2回流れ、一回目は「Seedance 2.0」、次に「DomoAI 2.5」の音声が流れます。

映像も音もかなり差があるのがわかります。
正直これを見て、Seedanceを選ばない理由はないと思います。

これまでのモデルでは映像が溶けている個所が多いですが、「Seedance」の方はほぼありません。

比較動画の生成条件

どのモデルでもこのイラスト一枚から生成しました。
「Seedance」の場合は複数の画像から生成可能ですが、条件をそろえるため一枚だけにしています。

使用したプロンプトは以下の通りです。

プロンプト

雨の中二人の女性が三味線を弾きながら歌っているライブ動画。
三味線を使っているが曲調は激しいロックで、二人も叫ぶように歌っている。
定点カメラではなく、ミュージックビデオのようにいろいろな角度からカメラの切り替えが行われる。

曲の歌詞は以下。
「ぎおんしょうじゃのかねの声、しょぎょうむじょうのひびきあり。
さらそうじゅの花の色、じょうしゃひっすいのことわりをあらわす。
おごれる人もひさしからず、ただ春の夜のゆめのごとし。
たけき者もついにはほろびぬ、ひとえに風の前のちりにおなじ。」

音は二人の引く三味線と歌声のみで、雨の音は入れない。

このプロンプトでそれぞれ一回のみ生成した動画を比較しました。

各モデルでの生成結果

それぞれのモデルでの生成結果です。
どのモデルも生成は一発勝負で行いました。

Seedance 2.0
Seedance 2.0 Fast
DomoAI 2.5
DomoAI 2.4.1 Advanced
DomoAI 2.4.1 Fast

生成に必要なクレジット

生成に必要なクレジットはこれまでのモデルに比べ、かなり高めに設定されています。
それぞれ代表的な秒数での消費クレジットをまとめました。

Seedance 2.0

480P

クレジット
4秒48
5秒60
10秒120
15秒180

720P

クレジット
4秒96
5秒120
10秒240
15秒360

1080P

クレジット
4秒224
5秒280
10秒560
15秒840

高画質の生成の消費クレジットはかなり大きいです。
アップスケールツールをうまく使うことをおすすめします。

Seedance 2.0 Fast

480P

クレジット
4秒15
5秒50
10秒100
15秒150

480P 4秒のみ、他と比べて時間当たりのクレジット消費が極端に低いです。
本番動画生成前のプロンプトの検証でうまく使いましょう。

720P

クレジット
4秒80
5秒100
10秒200
15秒300

以前のモデルとの比較

480P 5秒の消費クレジットを比較しました。
Seedance以前のモデルは解像度を選択できないため自動解像度でのクレジット消費です。

クレジット
Seedance 2.0
480P 5秒
60
Seedance 2.0 Fast
480P 5秒
50
DomoAI 2.5
自動 5秒
10
DomoAI 2.4.1 Advanced
自動 5秒
20
DomoAI 2.4.1 Fast
自動 5秒
7

まとめ

この記事では「DomoAI(ドーモAI)」に新たに追加された動画モデル「Seedance」について説明させていただきました。

新動画モデル「Seedance」のまとめ
  • 生成動画の品質は以前のモデルよりもかなり良い
  • 音声入りの動画が生成できる
  • 複数画像からの動画生成が可能
  • 消費クレジットは以前のモデルと比べて高い
  • Seedance 2.0 Fast / 480P 4秒だけがクレジット消費が非常に少ない

「Seedance」は以前のモデルよりも非常に品質が良く、プロンプトの反映もしっかりされます。
クレジット消費は大きいですが、品質的に動画生成の最初の選択肢になると思います。
色々作って遊んでみましょう。

DomoAIに関する記事は以下にまとめています。