は基本的にBlueSkyでやってたAICFASのごあいさつでしたけど、先日生成をしてて「お?」と思うことがあったので。
プロンプトはこれ。
chibi, round eyes, big eyes,
The school classroom has a blackboard and desk in the back,
a pink bento box placed on the desk,
and rice and various side dishes in the bento box.
A girl holding chopsticks and eating a bento with a big smile on her face.単なる学校の教室の黒板を背に、お弁当を食べる女の子ですけど、以前であればほぼ描画不可能なプロンプトでした。
中でも
bento box
chopsticks
そりゃスプーンとかフォークを持たせることはなんてことないお話でしたけど、お弁当箱と箸がほぼ不可能な領域。
箸とかも「はぁ?」みたいな感じだったしお弁当箱はバスケットが描画されるのが常。
なのでほぼ期待せずに簡易なプロンプトにしてみたんですね。
various side dishes
としたのはそのためで、つまりテキトー。
ところができあがって来たのを見てちょっと嬉しくなって。
「そこそこお弁当してるぢゃん💞」
それがちちぷいのおは画で使ったこれでした。

ところがそこでふと疑問が。
このプロンプト、ほかのモデルでやったらどーなるんだろ・・?
思い立ったら即おためし。
SDモデル
さてまずSD行ってみましょー。
PixAIといえばこのモデル、Moonbeam。



雰囲気はわかるんだけど・・・やっぱコレジャナイ感で箸が理解できてないから手づかみになるし、3枚目にいたっては「なに食べてんの?寄生獣?」みたいな感じになっちゃう💦
言いかたは悪いですけど、前時代のシロモノってことになります。
SDXLモデル
じゃ一現在の主流で、なおかつ少し前にわたしが頻繁に使ってたSDXL系のモデルで。



悪くはない🎵
おは画で使ったLILACもここに属しますね(お弁当の描画がここにいちばん近い)。
でも・・・Harukaはおもち食べてんのかしら・・😁
DiT系モデル
最後はDiT系含んで現行モデル。



Hoshino v2はナゲットかコロッケか手に持ってるとはいえ、お弁当箱と箸はほぼカンペキ。
おかずとごはんもきっちり分けられているのと、どれも指定すらしてないのにご飯に梅干し🌟
やっぱDiT系の強みが完全に出てる感じしますね・・。
こーやって並べるとDiT(Transformer系拡散モデル)がリリースされてからものすごい進化をしているのが手に取るよーにわかります。
わたしもAICFASのプロンプト書いてて気がついたんですけど、これまでは各ディティールを単語として書いてきたんですね。
1girl,
holding chopsticks,
eating a bento,
big smile,でも、今回のプロンプトではこれを文章としてまとめてます。
A girl holding chopsticks and eating a bento with a big smile on her face.なので極端なお話、これまでがプロンプトの「精度」に頼っていた部分が「理解度」に変わった感じ。
SDだと完全に精度重視でしたけど、SDXLで精度+理解度になってきて、DiTで理解度になるみたいな印象です。
だからDiT系だとお弁当の中身を記載しなくても、文章を理解したモデルが勝手に補完してきれーなお弁当ができあがるんですね。
逆に考えると、AIがそんだけ力をつけてきてるってことなのかなーと思うです。
先月だっけ・・・愛用ユーザーが多いillustriousがSDXLを捨ててDiT系に移行することを正式に発表しました。
もともとプロンプト反映には激強のillustriousでしたけどこれが文脈理解のDiT系で適用されると恐ろしく精度の高いモデルになって行くことになると思うですね、開発に期待です。
そのillustriousの開発名は「Z」。
Zか・・神にも悪魔にもなれるモデル(そりわ違)。
さて、お昼食べようw