gemini が、新しく2.5 pro になったという事で、子供の小さい時の画像を元に、世の中で前に話題になったジブリ風画像を作成してみようと思いたちました。
前は、チャットに質問しても変な画像しか出力されなくて、すごく悲しい思いをしてましたので、新しくなってどう変わったのかを確認してみます。
元ねたは、子供の写真です。
撮影日時:2014/12/27 18:47 (今から11年前位になりますね)
iPhone 6 で撮影した写真を使っています。
CHATGPT(無料版)
「この画像を元にジブリ風のイラスト画像をお願い致します」と依頼しました。
背景も服装も写真に写っている内容をそのまま、ジブリ風に変換してくれています。
最初の1回で依頼しただけでこの仕上がり。
CHATGPTは間違いなく実用として使える生成AIです。
(まずはこれを基準といたます。)

GEMINI 2.5PRO(有料版)
このイメージのような画像をGEMINIがどのように生成してくれるのか、
おなじように、
「この画像を元にジブリ風のイラスト画像をお願い致します」と依頼しました。
すると結果は以下の通り。

特定の種類の画像を生成する方法についてはまだ学習中のため、皆さんが求めているような画像を作成できないか、作成した画像がガイドライン に反する可能性があります。他に何かご要望がありましたら、お知らせください。
昔はIMAGEN3でイメージを生成できていたはずなんですが、
バージョンアップしてできなくなったのか、わかりません。
COPILOT(無料版)
COPILOTではどうなっているのか気になったので試してみる事にしました。
おなじように、
「この画像を元にジブリ風のイラスト画像をお願い致します」と依頼しました。
その結果は以下の通りです。

CHATGPT同様、画像生成が写真のままうまく変換できておりました。
よりジブリらしさを感じる画像の出来に驚きましたが、細かく見ると、やっぱりCHATGPTの方が背景が正確に描画されていました。
またピースマークも、左ができてないですので、何回かリトライしないと
思ったイメージができないとわかりました。
画像生成は難しいGEMINI
YOUTUBEでは、GEMINIの動画生成(VAO3)に驚いたという話題が
ひとめだちして、画像生成については見劣りしてしまうことは
あまり知られていないのではないのでしょうか。
私個人としては、動画より、画像に力を入れて欲しい所ですが、なぜか、ここには力が入っていないように思います。
それでは、GEMINIは何が強いのか、、、それは、情報を収集して、分析しまとめあげる事。
それは、すごく役立つ機能です。
GW中は、休みを利用してずっとGEMINIが先生となって学びました。
GOOGLE先生に聞くのではなく、GEMINIに教わっていたのです。
(改めてブログにしようと思いますので、ここまでにします。)
GEMINIの日本語を理解する力
GEMINIは、静止画生成においては、まだまだ日本語を正しくしていないのでないかと疑っています。内容を理解していないからです。
また、生成した画像に日本語があると、おかしな文字に変換されてほんとどうしようもない状態になります。
(まぁINKSCAPEを使用して画像に文字を挿入するのが良いとは思いますが。)
改めて、試しに以下内容を各生成AIに依頼いたしました。
「晴れた朝、すがすがしい空気に、窓から見える景色には、青い空と青い海がきらめくように光って、のどかな雰囲気を感じます。
浜辺付近を走る蒸気機関車は、2両編成で、車体は上部はエンジ色、下部は濃い紫色のレトロな感じで、単線を右から左へ走っていくような感じです。
このような画像を作ってください。」
よく質問をするには、英語じゃないとダメ、細かく指示しないとダメ、指示の仕方はこうした方が良いという話があり、参考にしようと思いますが、生成AIを比較する場合は、このような適当な内容で良いと思います。
この内容で、どこまで依頼者の希望を叶えてくれるのか、日本人が使う生成AIとして現時点での見極め材料になるのではと考えます。
さて、どれほど私のイメージした内容を、生成AIさんは汲み取ってくれたのか
確認していきます。
CHATGPT 合格です!
CHATGPTは、安定した生成能力です。
残念な点は、窓からみた場合、右から左なので、走行が逆な事でしょうか。
ブログで生成した画像を使うなら、CHATGPTが良いとほんと思います。

COPILOT 及第点です。
COPILOTも、安定した生成能力がありました。
でも、CHATGPTと同様に、走行が逆になっていたり、車体の色が対応できていなかったりしてますが、ちゃんと意図したイメージに合っています。

GEMINI 落第だよ(-_-;)
GEMINIは、期待外れ過ぎて、もう、なんと言ってよいのかわかりません。
画像生成においては、GEMINIを使うべきではありません。
CHATGPTを使うのがBESTです。
GEMINIを使うのは無駄な時間を費やすことになりますね。
この画像に添えて以下の内容がかえってきました。
「晴れた朝のすがすがしい空気の中、窓からは青い空とキラキラ光る青い海が見えます。浜辺の近くでは、えんじ色と濃い紫色の2両編成のレトロな蒸気機関車が、右から左へと単線を走っており、のどかな雰囲気が漂っています。」

原因が、日本語で依頼していることが問題ではないか?
という疑問を持って、今回は、英語で依頼してみることにしました。
GOOGLE 翻訳で翻訳したものです。
「On a clear morning, with crisp air and the view from the window,
the blue sky and blue sea sparkle, creating a tranquil atmosphere.
The steam locomotive running near the beach is a two-car train with a retro feel, with the upper part being maroon and the lower part being deep purple, running from right to left on a single track.
Please create an image like this.」
結果は以下の通り、うーん、、何も改善されていないです。

日本語を理解できていないだけの問題かと思っていたら他に問題がありそう。
依頼している内容を正しく理解できない根本的な原因はわかりません。
依頼内容が悪いのであれば、GEMINI以外も変なイメージになるはず、原因はそこでなく、GEMINI特有のものだと考えています。また、「作成した画像がガイドライン に反する」可能性でもなさそうですよね。
imagen3のバージョンアップ以降から画像生成がダメダメになった気がしています。
(昔の画像生成の方が優れていたような記憶があるのです)
結論(画像はGEMINIはダメ)
画像生成において、現在、日本人が普通に使えるのはCHATGPTとCOPILOTです。
残念ですが、GEMINIはまだまだ未到達領域のようです。
私の場合、CHATGPTは無料版なので使用制限があり充分に使えないのですが、今後、ブログで活用したいと思っておりました。その際、風景の再現性が高いイメージが作れるのであれば、プライバシー的な面を考慮したうえで画像を公開できるので利用価値が高いのです。
これは有料版を使うべきなのではと考えてしまいます。
最後に、試行錯誤を繰り返して、GEMINIで作成できた画像を公開しますね。

時間ばかりかかって、この内容が精一杯の現状です。
これは、ピースマークはしてますが、服装も背景も似て非な画像が、リトライを繰り返してようやくできたという状況です。
適材適所で、生成AIを使っていく時代なのでしょうね。
GEMINIの試用期限まで、後1か月、元々GoogleOne を使っている私としては、クラウドサービスを手放すことはできません。
CHATGPT Plusは、$20/月となっていますが税別なので$22/月です。
5/31時点では、1ドル143円なので3174円です。
これまでやってしまうと、トータル6000円になってしまいます。
よって、選択肢はGEMINIのみなんです。
GEMINIさん、画像生成について今後の改善を強く希望します。
実現できていない、機能を要望としてついでに書いときます。
1.画像生成で、日本語を正しく表示できるようにして下さい。
日本語を正しく認識していないために発生している事と思います。
CHATGPTでは、広告画像を作ることができるのでかなり実用的ですよね。
2.CHATGPTのカスタムGPTのように、ユーザが特定の目的やタスクに合わせて独自のGEMモデルを作成して、共有・利用できる機能を実装してください。
CHATGPTでは、LINEスタンプ作成用カスタムGPTがあって良いですよ~。
(参考)

コメントを残す