生成ＡＩの優劣を比べてみた－生成能力のランキング

2025年夏の時点で、生成ＡＩは、ＩＴ大手企業に限らず新興企業も多数参入して激戦区げきせんくだ。利用者目線では、どの生成ＡＩを使うのが得策か悩なやましい。
そこで代表的な生成ＡＩに同じ指示（プロンプト）を与え、出力を比べて性能を調査した。指示したテーマは「ＡＩ入門の教育講座」の設計で、講座テキストや演習問題の考案こうあんなど高度な判断を求めた。その結果、生成ＡＩによる教育講座の生成能力ランキングは以下となった。

2025年8月：生成ＡＩの生成能力ランキング
順位	生成ＡＩ名	評価値	コメント
1	Geminiジェミニ	83%	Geminiが最も優秀で、教育学的理論と実践的設計能力を両立している
2	Manusマナス	82%	AIエージェント型は実用性では最高レベルだが、独創性に課題
3	ChatGPT-5	77%	実務的で具体的だが、教育的深さが不足
4	ChatGPT-4	68%	実用的だが情報量と完成度に限界
5	Copilotコ・パイロット	32%	現時点では教育設計用途には不適
6	DeepSeek	19%	現時点では教育設計用途には不適

生成ＡＩを比べてみた－生成能力ランキング		松浦公政	2025年
対象読者	どの生成ＡＩを使うのが得策か、興味がある方
	これから生成ＡＩを利用したいと考えている方
	生成ＡＩに作らせる「講座テキスト」や「演習問題」に興味がある方

記事の音声解説付き（下のプレイボタンで解説開始）

本記事末に、各生成ＡＩの調査結果へのリンク集があります。

生成ＡＩのサービスとは
乱立する生成ＡＩの、どれを使うべきか
生成ＡＩの性能評価方法
各生成ＡＩが生成した文書の評価結果
1. 総合評価
2. 詳細項目別評価
人間視点で考察　－　生成ＡＩの性能評価の妥当性
関連リンク集

生成ＡＩのサービスとは

生成ＡＩは、利用者がコトバ（作文）で要求すると、「文書」「画像」「音声」「音楽」など様々な情報を生み出すソフトウエアだ。
生成ＡＩは、Webサービスの形態で提供され、パソコン・スマホなどのインターネットに繋がる端末で生成ＡＩサービスを提供する。サイトを訪問すれば、誰でも利用できる。
ほとんどの生成ＡＩに有償と無償のサービスがあり、小規模な利用なら無償、本格的に利用するなら有償契約した方がよい。
ちなみに本記事の作成に当たり複数の生成ＡＩを利用したが、どの生成ＡＩサービスも無償の範囲内で利用した。

乱立する生成ＡＩの、どれを使うべきか

どうやら対話型の生成ＡＩのサービスを開発する技術ハードルは、それほど高くないらしく、2022年初冬に「ChatGPT」が発表されて以降、続々と後続の生成ＡＩが発表されてきた。
だが、それだけに各生成ＡＩの情報生成能力は『玉石混交ぎょくせきこんこう』－つまり、優秀なＡＩも、とんでもないＡＩも混ざっているし、各生成ＡＩが得意な分野も様々だ。
乱立する生成ＡＩを目の前にして、利用者は「どの生成ＡＩを使うとよいか」に興味がある（有償の生成ＡＩサービスを使う意思があれば尚更なおさら）だろう。
そこで、いくつかの代表的な生成ＡＩに「ＡＩ入門の教育講座設計」というテーマ（具体的には、講座プランの企画と、講座テキストや演習問題などの教材設計）を与え、生成ＡＩの中核ちゅうかく機能である「文書生成」能力を比べて、生成ＡＩの優劣評価を試みた。

（生成ＡＩの性能評価で与えたプロンプトに興味がある方は、この枠をクリックすると概要を表示）

一般人がＡＩの利用能力を身につける上で必要な事項の仮説を立て、その仮説の妥当性を生成ＡＩに評価させた
そして、仮説を実現する教育講座の企画（教育目標や講義構成など）と、その企画に基づく講義用教材の設計を生成ＡＩに求めた

文書生成の性能を比較した生成ＡＩ
名称	特徴	サービス提供者
ChatGPT	生成ＡＩの存在を世の中に知らしめた草分けの生成ＡＩで、”ChatGPT” は生成ＡＩの代名詞 ※2025-8-7 にリリースされたモデル5と、旧版のモデル4も性能を比較した	OpenAI
Gemini	2010年代以降はＡＩ研究の中核にいたGoogle が、対話型生成ＡＩの隆盛を見て対応した生成ＡＩ（初期の名称は “Bert”）	Google
Manus	ＡＩエージェント（既存の生成ＡＩを複数操作して自律的に動作する）型のシンガポール製（実態は中国製とも言われている）の統合ＡＩ	Manus AI
DeepSeek	「少ないコンピュータ資源で動作するエコ型ＡＩ」を売り文句とする中国製ＡＩ	杭州深度求索人工智能基础技术研究有限公司
Copilot	Microsoft社のOfficeなどとの連携を売り文句とする生成ＡＩ（初期の名称は “Bing Chat”）	Microsoft

本記事の優劣評価は、2025年6～8月に実測したデータに基づいている。
なお生成ＡＩの頭脳部分のデータベースは刻々と更新され、どの生成ＡＩも日々成長している点は留意いただきたい。

生成ＡＩの性能評価方法

生成ＡＩの基盤テクノロジーは「文書生成」能力なので、出力する文書の品質が生成ＡＩの性能を表す。
この考えに基づき、出力文書を比較して品質を評価した。

（評価の考え方に興味がある方は、この枠をクリックすると詳しい説明を表示）

評価の考え方

画像生成が得意な生成ＡＩであれ、音声生成が得意な生成ＡＩであれ、基盤は「文書生成」能力なので、出力する文書の品質が生成ＡＩの性能を表す
代表的な生成ＡＩをピックアップし、同じプロンプト（＝生成ＡＩに与える命令を書いた作文）を与え、各生成ＡＩが出力した「情報」（＝成果の文書）の違い（≒生成ＡＩの品質）を評価した

評価用ＡＩの導入

生成ＡＩが出力した文書の品質評価は、本質的には人間が行うべき作業だ
しかし、人力作業での評価は、恣意的（たとえば知名度が高い生成ＡＩの出力を高く評価してしまう）になったり、脳の疲労状況で判定基準がブレるリスクがある

そういうリスクを回避するため、人力作業で「評価基準をなるべく定量的かつ詳細に設計」し、評価の実作業は別の生成ＡＩ（以降は評価用ＡＩと呼ぶ）に実行させる方針とした

評価基準が「なるべく」定量的で済む理由は、評価用ＡＩの内部で統計処理を用いて定性的なコトバの情報を定量的（＝数値での比較が可能）なデータに変換するからだ
ただし、定性的な評価基準を精度よく定量的な評価基準に変換させるには、①評価項目を細分化し、②判定条件を具体的に示した方が、評価用ＡＩが「働く精度」は上がる

評価用ＡＩには「Claude」という別の生成ＡＩを利用し、Claude に評価手順を指示するプロンプトを与えて評価作業を実行させた

評価基準を用いた相対評価

評価用ＡＩには、あらかじめ評価対象の生成ＡＩに与えるものと同じプロンプトを与えて文書を出力させる
評価用ＡＩが出力した文書を「標準成果」と名付け、評価対象の生成ＡＩの出力文書の品質評価に使う評価基準に位置付ける

評価対象の生成ＡＩが出力した文書の評価値を、標準成果を基準とする相対値で示すように設計した

標準成果の「品質」を “70%” に設定し、評価対象文書と比較して「品質」の評価値を評価用ＡＩに算出させる
評価対象文書の方が、標準成果より優れているほど評価値は上がる（上限は100%）

品質の評価値は得点幅でランクを設け、評価用ＡＩに各ランクの記号（◎、○、△、…）で表現させた。

評価記号	意味	評価値域
◎	優秀	80％以上
○	標準	60%～80%未満
△	劣	20%～60%未満
×	不適格	20%未満
－	評価対象外	－

（設計した評価項目に興味がある方は、この枠をクリックすると詳細を表示）

■出力成果全般に共通の評価項目

分類	評価分類	評価項目	評価内容の説明
共通	プロンプト忠実度	目的理解度	プロンプトに記述された課題の解釈・理解は妥当か
	プロンプト忠実度	視座	期待した視座から設計・評価・提案しているか
	情報品質	正確性	文法・文言および情報は正確か
		規範性	社会的に有益な情報を含む内容か
		反社会性	社会的に有害な情報が混入してないか
		信頼性	記述内容の情報源が信頼できる（公開論文など）と判別できるか
		量的有用性	記載内容の文字数が有用だと判断できるか
	説得力	一貫性	文脈にズレがなく、説明が一貫しているか
		論理性	出力全体を見渡した時に論理的矛盾がないか
		根拠性	提案・設計・評価内容の根拠を示しているか
		記述明瞭性	文面・文言が誤解なく一意に解釈できるか
		リアリティ	設計・評価・提案の内容が現実乖離してないか
	表現品質	視認性	1文ごとの内容量と視認性は妥当か
		文長	1文が長すぎないか
		図解	視覚的に図、表、グラフを使って理解促進に取り組んでいるか
			図解のスタイルと視認性に一貫性があるか
			図解の補足説明の量は妥当か
		箇条書き	箇条書きに整理できる内容を文章だけで表現してないか
		箇条書き	箇条書きがある場合、内容の偏りや過不足がないか
		表現	強調表現がある場合、箇所の選択は適切か／不足がないか
		表現	強調表現がある場合、文字サイズ・文字色選択は見やすさを重視しているか

■教育評論家の立場での意見への評価項目

分類	評価分類	評価項目	評価内容の説明
要求仕様	評価品質	普遍性	普遍的な視点で演繹的に評価しているか
要求仕様	評価品質	蓋然性	経験や観察を基盤とした信頼できる理由で評価しているか

■講座企画・設計した教材への評価項目

分類	評価分類	評価項目	評価内容の説明
講座企画力	企画提案力	目的整合性	解決すべき課題と講座目的は整合するか
		合目的性	学習目標設定が解決すべき課題の克服に効果があるか
		網羅性	解決すべき課題に対し、単元の構成に不足がないか
		オリジナリティ	設計・評価・提案の内容に既視感（既存の講座との類似性）がないか
講座設計力	カリキュラム	段階的詳細化	単元構成が段階的に説明を詳細化しているか
		入出力定義	各単元の入力情報と出力情報は明確か
		情報抽象度	全体構成を考慮した上で、各単元の、入力情報と比較して出力情報の抽象度または具体度は妥当か
		理解促進性	各単元で、説明の効果を上げる図・表・グラフの仕様を設計しているか
		理解促進性	単元ごとに受講者の理解度を確認する構成か
		時間配分	単元ごとの時間配分は、図解を読み解く所要時間を考慮しているか
		使用性	教材・設備の準備コストの最小化を考慮しているか
教材	テキスト	網羅性	カリキュラムに対し、説明内容に不足がないか
		導入品質	単元の冒頭にイントロ（学習要旨の説明）を記載しているか
		説明構造	単元の説明が「課題（具体）→説明（抽象的な解）→具体例示」の構造か
		情報抽象度	カリキュラムで設計した情報抽象度と適合するか
		例示効果性	理解を促進するために例示を活用しているか
		例示効果性	受講者の知識水準に合う具体例で説明しているか
		比喩活用性	受講者の知識水準に合う比喩を加えて理解を促しているか
		理解促進性	カリキュラムで設計された図・表・グラフを実装しているか
		規範性	リテラシー（知識や理解力、それを活用する能力）を含むか
		信頼性	情報を参照する（公開論文・サイトなど）場合、出展を明示したか
		時間配分	カリキュラムで設計した単元の所要時間と適合するか
	演習	機能適合性	単元の説明内容の理解度を確認する問題内容か
		設定現実性	問題の題材が、イメージしやすいリアリティがあるか
		記述一意性	設問文面が誤解なく一意に解釈できるか
		理解促進性	演習のスタイル（個人ワーク／グループワークなど）が理解促進に効果的か
		時間配分	カリキュラムで設計した演習の所要時間と適合するか
効果測定	到達度テスト	機能適合性	問題の内容が学習目標達成を評価するか
		設定現実性	問題の題材が、イメージしやすいリアリティがあるか
		記述一意性	設問文面が誤解なく一意に解釈できるか
		時間配分	カリキュラムで設計した到達度テストの所要時間と適合するか

各生成ＡＩが生成した文書の評価結果

評価用ＡＩに判定させた評価結果を対比表形式にまとめる。

総合評価

	ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
出力文書群	ChatGPT-4が出力した企画・教材	ChatGPT-5が出力した企画・教材	Geminiが出力した企画・教材	Manusが出力した企画・教材	DeepSeekが出力した企画・教材	Copilotが出力した企画・教材
評価 (得点率)	68%	77%	83%	82%	19%	32%

（総合評価の根拠に興味がある方は、この枠をクリックすると根拠説明を表示）

	ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
強み	基本的な講座設計能力、実用的な演習作成能力、現実的な企画提案力を持つ。取り組みやすい内容で幅広い受講者に対応可能。	具体的で実用的な講座設計能力、定量的な目標設定、体系的なカリキュラム構成力を持つ。実務的な観点から有効な提案ができる。	教育学的理論に基づいた体系的な講座設計能力、高品質なテキスト作成力、優れた演習問題設計力を持つ。教育評論家としての深い洞察と実践的な設計者としての能力を両立している。	非常に完成度の高い実用的な教材作成能力、バランスの取れた講座設計力、優れた演習問題作成能力を持つ。実際に使える講座として最も完成度が高い。	基本的な課題認識はできており、社会的に有益な方向性は理解している。	教育現場への応用という観点では良い視点を持っており、基本的な講座構想は妥当である。
弱み	情報量が不足しており、テキストが第2章のみなど完成度に問題がある。深みのある教材開発には限界がある。	表面的な理解に留まりがちで、教育的な深さや理論的根拠が不足している。	想定受講者層がやや高学歴寄りで、一般的な受講者には敷居が高い可能性がある。	Geminiと比較してオリジナリティがやや不足し、既存講座からの流用を懸念する部分がある。	教育講座設計に必要な具体的能力が全般的に不足しており、成果物として使用できるレベルに達していない。	設計から実装までの能力が著しく不足しており、具体的な成果物の完成度が極めて低い。実用には適さない。
得意領域	基礎的な講座企画、一般向けの演習設計、実践的なアプローチ	実務重視の講座企画、具体的な演習設計、定量的な評価設計	高度な教育プログラム設計、理論的根拠に基づく教材開発、知的エリート向け講座企画	実用的な教育プログラム設計、完成度の高い教材開発、実践重視のカリキュラム構築	基本的な課題認識、概念レベルの理解	教育政策レベルの議論、概念的な講座構想
苦手領域	包括的な教材開発、高度な教育設計、詳細な理論展開	教育理論の活用、深い概念的理解、創造的なアプローチ	大衆向けの平易な教材作成、短時間での簡易講座設計	理論的な深さ、革新的なアプローチの提案	具体的な設計作業、実践的な教材開発、詳細な企画立案、演習問題作成	具体的な教材作成、実践的な演習設計、詳細な実装作業

詳細項目別評価

	ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
	ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
共通項目	○	○	◎	○	×	×
共通項目	実用的だが表面的	具体的だが深みなし	高品質で体系的	完成度高く実用的	抽象的で不完全	構想のみで未完成
情報品質	○	○	◎	◎	×	×
情報品質	正確だが量不足	正確で実用的	高品質で信頼性高	非常に完成度高い	情報不足で不正確	断片的で不十分
説得力	○	○	◎	◎	×	△
説得力	論理的だが簡潔すぎ	実用的で一貫性あり	高度な論理構成	説得力ある構成	論理性に欠ける	構想は良いが実装不足
表現品質	△	○	◎	◎	×	×
表現品質	見やすいが情報不足	実用的な表現	高品質な表現技術	非常に見やすい構成	表現に問題多数	表現が不十分
評価品質	○	○	◎	◎	△	△
評価品質	適切な評価視点	実用的な評価	高度な評価能力	優れた評価視点	評価が表面的	評価が不十分
企画提案力	○	○	◎	◎	×	△
企画提案力	実用的な企画	具体的な企画	高度な企画力	優秀な企画	企画が不十分	企画は良いが実装不足
講座設計力	○	◎	◎	◎	×	△
講座設計力	実用的設計	優秀な設計	高度な設計力	非常に優秀	設計が不適切	設計が不十分
教材設計力	△	○	◎	◎	×	×
教材設計力	部分的で不足	実用的教材	高品質教材	非常に高品質	教材として不適格	教材未完成
演習設計力	○	◎	◎	◎	×	×
演習設計力	良質な演習	優秀な演習設計	高品質演習	非常に優秀	演習として不適格	演習が不適切
教育効果測定力	○	◎	◎	◎	×	×
教育効果測定力	適切な測定	優秀な測定設計	高度な測定力	非常に優秀な設計	測定として不適格	測定が不適切

（詳細項目別評価の根拠に興味がある方は、この枠をクリックすると根拠説明を表示）

■出力成果全般に共通の評価項目

		ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
共通項目		○	○	◎	○	×	×
共通項目		実用的だが表面的	具体的だが深みなし	高品質で体系的	完成度高く実用的	抽象的で不完全	構想のみで未完成
	プロンプト忠実度	○	○	◎	○	△	△
	プロンプト忠実度	要求を理解し設計実装	要求理解し具体実装	完全理解と高度実装	要求を適切に実装	理解不足で実装不完全	理解したが実装不足
	目的理解度	○	○	◎	○	△	△
	目的理解度	課題を理解し対応	課題理解し具体化	深く理解し体系化	適切に理解し設計	表面的理解に留まる	理解したが実装不十分
	視座	○	○	◎	○	△	△
	視座	教育設計者として対応	実務重視の視座	教育評論家と設計者	バランス良い視座	設計者視座が不明確	評論重視で設計薄い
		ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
情報品質		○	○	◎	◎	×	×
情報品質		正確だが量不足	正確で実用的	高品質で信頼性高	非常に完成度高い	情報不足で不正確	断片的で不十分
	正確性	○	○	◎	◎	△	△
	正確性	文法・内容ともに正確	正確で具体的	非常に正確で詳細	正確性が高い	一部に不正確さ	記述に不正確性
	規範性	○	○	◎	◎	○	○
	規範性	社会的に有益な内容	実用性重視で有益	高い社会的価値	教育価値が高い	基本的に有益	基本的に有益
	反社会性	○	○	◎	◎	○	○
	反社会性	有害な情報なし	有害情報なし	全く問題なし	全く問題なし	問題なし	問題なし
	信頼性	△	△	○	○	△	×
	信頼性	情報源の明示なし	情報源の明示なし	一般的信頼性あり	適度な根拠提示	根拠が不明確	根拠の提示なし
	量的有用性	△	○	◎	◎	×	×
	量的有用性	第2章のみで不足	全体カバーで充実	全単元で豊富	読破24分で充実	内容がほぼなし	内容がほぼなし
		ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
説得力		○	○	◎	◎	×	△
説得力		論理的だが簡潔すぎ	実用的で一貫性あり	高度な論理構成	説得力ある構成	論理性に欠ける	構想は良いが実装不足
	一貫性	○	○	◎	◎	△	△
	一貫性	文脈にズレなし	一貫した設計	高い一貫性	非常に一貫している	一部に矛盾あり	部分的な一貫性
	論理性	○	○	◎	◎	△	△
	論理性	論理的矛盾なし	論理的で実用的	非常に論理的	論理性が高い	論理の飛躍あり	論理の詰めが甘い
	根拠性	△	○	◎	○	×	△
	根拠性	根拠の提示不足	実用例で根拠提示	理論的根拠が豊富	適切な根拠提示	根拠がほぼなし	根拠が不十分
	記述明瞭性	○	○	◎	◎	△	△
	記述明瞭性	明瞭だが簡潔すぎ	明瞭で実用的	非常に明瞭	明瞭で理解しやすい	曖昧な部分あり	不明瞭な記述あり
	リアリティ	○	○	○	◎	△	△
	リアリティ	現実的だが表面的	実用的で現実的	現実的で実現可能	高いリアリティ	現実性に欠ける	構想は現実的
		ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
表現品質		△	○	◎	◎	×	×
表現品質		見やすいが情報不足	実用的な表現	高品質な表現技術	非常に見やすい構成	表現に問題多数	表現が不十分
	視認性	○	○	◎	◎	×	×
	視認性	1文の内容量は妥当	適切な情報量	最適な情報配分	非常に見やすい	視認性に問題	視認性が悪い
	文長	○	○	○	○	○	△
	文長	適切な文の長さ	文長は適切	適切な文長	適切な文長	文長は問題なし	一部に冗長な文
	図解	×	○	○	○	×	×
	図解	図解の活用なし	表での整理活用	体系的な図解	効果的な表の活用	図解なし	図解なし
	箇条書き	○	○	◎	◎	△	△
	箇条書き	適切な箇条書き	効果的な箇条書き	非常に効果的	優れた箇条書き	箇条書きが不適切	箇条書きが不十分
	強調表現	△	○	◎	◎	×	×
	強調表現	強調が単調	適切な強調	優れた強調表現	効果的な強調	強調表現なし	強調表現なし

■教育評論家の立場での意見への評価項目

		ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
評価品質		○	○	◎	◎	△	△
評価品質		適切な評価視点	実用的な評価	高度な評価能力	優れた評価視点	評価が表面的	評価が不十分
	普遍性	○	○	◎	◎	△	△
	普遍性	普遍的視点で評価	実用的な普遍性	深い普遍的洞察	優れた普遍性	表面的な評価	部分的な視点
	蓋然性	○	○	◎	◎	△	△
	蓋然性	経験に基づく評価	現実的な根拠	豊富な根拠	充実した根拠	根拠が薄い	根拠不足

■講座企画への評価項目

		ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
企画提案力		○	○	◎	◎	×	△
企画提案力		実用的な企画	具体的な企画	高度な企画力	優秀な企画	企画が不十分	企画は良いが実装不足
	目的整合性	○	○	◎	◎	△	○
	目的整合性	課題と整合	目的が明確	高い整合性	完全な整合性	整合性が低い	基本的に整合
	合目的性	○	○	◎	◎	×	○
	合目的性	効果的な目標	目標が具体的	優れた目標設定	効果的な目標	目標が不明確	目標は妥当
	網羅性	○	○	◎	◎	×	△
	網羅性	適切な構成	網羅性あり	十分な網羅性	十分な網羅性	網羅性不足	部分的網羅
	オリジナリティ	○	△	◎	○	×	△
	オリジナリティ	独自の視点	やや一般的	高いオリジナリティ	独自性あり	オリジナリティなし	一般的内容

■設計した教材（カリキュラム）への評価項目

		ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
講座設計力		○	◎	◎	◎	×	△
講座設計力		実用的設計	優秀な設計	高度な設計力	非常に優秀	設計が不適切	設計が不十分
	段階的詳細化	○	◎	◎	◎	×	△
	段階的詳細化	段階的構成	非常に段階的	優れた段階化	完璧な段階化	段階化なし	部分的段階化
	入出力定義	△	○	◎	◎	×	×
	入出力定義	一部不明確	明確な定義	明確な入出力	明確な入出力	定義不明確	定義不明確
	情報抽象度	○	◎	◎	◎	×	△
	情報抽象度	適切な抽象度	最適な抽象度	最適な抽象度	最適な抽象度	抽象度不適切	抽象度に問題
	理解促進性	○	◎	◎	◎	×	×
	理解促進性	理解促進あり	高い促進効果	優れた促進性	高い促進効果	促進効果なし	促進効果不足
	時間配分	○	○	○	○	×	△
	時間配分	妥当な配分	適切な配分	適切な時間設計	妥当な配分	時間配分不明	配分不適切
	使用性	○	◎	○	◎	×	×
	使用性	実用的	高い使用性	実用的設計	高い使用性	使用困難	使用性低い

■設計した教材（テキスト）への評価項目

		ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
教材設計力		△	○	◎	◎	×	×
教材設計力		部分的で不足	実用的教材	高品質教材	非常に高品質	教材として不適格	教材未完成
	網羅性	×	○	◎	◎	×	×
	網羅性	第2章のみ	全体カバー	完全網羅	完全網羅	内容なし	内容不足
	導入品質	○	○	◎	◎	×	×
	導入品質	導入あり	導入あり	優秀な導入	優秀な導入	導入なし	導入不足
	説明構造	○	○	◎	◎	×	×
	説明構造	構造は適切	良い構造	優れた構造	完璧な構造	構造なし	構造不明
	情報抽象度	○	○	◎	◎	×	×
	情報抽象度	適切	適切	最適	最適	不適切	不適切
	例示効果性	○	○	◎	◎	×	×
	例示効果性	例示活用	効果的例示	非常に効果的	非常に効果的	例示なし	例示不足
	比喩活用性	△	△	○	◎	×	×
	比喩活用性	比喩不足	比喩限定	比喩活用	優れた比喩	比喩なし	比喩なし
	理解促進性	△	○	◎	◎	×	×
	理解促進性	限定的	促進効果	高い促進性	高い促進性	促進効果なし	促進効果なし
	規範性	○	○	◎	◎	×	△
	規範性	規範的	規範的	高い規範性	高い規範性	規範性低い	基本的規範性
	信頼性	△	△	○	○	×	×
	信頼性	出典なし	出典不足	一般的信頼性	適度な信頼性	信頼性なし	信頼性なし
	時間配分	×	○	○	○	×	×
	時間配分	時間不適合	適合	適合	適合	不適合	不適合

■設計した教材（演習問題）への評価項目

		ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
演習設計力		○	◎	◎	◎	×	×
演習設計力		良質な演習	優秀な演習設計	高品質演習	非常に優秀	演習として不適格	演習が不適切
	機能適合性	○	◎	◎	◎	×	×
	機能適合性	理解度確認可能	高い適合性	完全な適合性	完全適合	適合性なし	適合性低い
	設定現実性	○	◎	◎	◎	×	×
	設定現実性	リアリティあり	高いリアリティ	優れたリアリティ	高いリアリティ	リアリティなし	リアリティ不足
	記述一意性	○	◎	◎	◎	×	×
	記述一意性	明確な設問	非常に明確	完全に明確	非常に明確	不明確	非常に不明確
	理解促進性	○	◎	◎	◎	×	×
	理解促進性	促進効果あり	高い促進効果	優れた促進性	高い促進効果	促進効果なし	促進効果なし
	時間配分	○	○	○	○	×	×
	時間配分	適切な配分	適切な配分	適切な時間	適切な配分	時間不明	時間配分不適切

■設計した教材（達成度評価テスト）への評価項目

		ChatGPT-4	ChatGPT-5	Gemini	Manus	DeepSeek	Copilot
教育効果測定力		○	◎	◎	◎	×	×
教育効果測定力		適切な測定	優秀な測定設計	高度な測定力	非常に優秀な設計	測定として不適格	測定が不適切
	機能適合性	○	◎	◎	◎	×	×
	機能適合性	目標達成評価可能	完全な適合性	完全適合	完全適合	適合性なし	適合性不十分
	設定現実性	○	◎	◎	◎	×	×
	設定現実性	現実的な設定	高いリアリティ	優れたリアリティ	高いリアリティ	リアリティなし	リアリティ不足
	記述一意性	○	◎	◎	◎	×	×
	記述一意性	明確な設問	非常に明確	完全に明確	非常に明確	極めて不明確	不明確
	時間配分	○	○	○	○	×	×
	時間配分	妥当な時間	適切な時間	適切な時間設計	妥当な配分	時間不明	時間配分不明

人間視点で考察　－　生成ＡＩの性能評価の妥当性

前述の評価値は、各生成ＡＩの出力文書を、評価基準に基づいて別の生成ＡＩ（評価用ＡＩ）に性能評価させた結果だ。
本章では、評価用ＡＩによる評価結果について筆者の視点で妥当性を判断し、生成ＡＩが持つ課題を示す。

本件の評価方法は、相対的に性能を評価できる

「多くの人がＡＩを活用する能力を高められる教育講座」の開発を仮想テーマとして、果たして生成ＡＩが『教育企画』『教材開発』できるかを試した。
本記事からリンクした「どうすればＡＩに乗り遅れないで済むの？」シリーズの各記事に、生成ＡＩの出力結果を公開している。
この記事群を評価用ＡＩに読ませて比較させ、各生成ＡＩの品質・性能を評価した。
このため同じプロンプトに対する各生成ＡＩの「相対的能力差」を示している。

各生成ＡＩのプロンプト解釈性能の差は大きいので、これから生成ＡＩの淘汰が進む

今回の評価結果を見ると「プロンプト」を解釈する生成ＡＩの能力差は大きく、その結果で出力する『教育企画』『教材』で大差がつくように見える。
人間側でプロンプトの記述を具体的で詳細な（＝生成ＡＩにとって分かりやすい）内容に強化すれば、プロンプト解釈能力の差が減り、出力する成果物の差は縮まるかもしれない。
見方を変えれば、プロンプト解釈性能を上げられない生成ＡＩは淘汰されるだろう。

評価用ＡＩの性能評価結果の正当性にはリスクがある

「どうすればＡＩに乗り遅れないで済むの？」シリーズの各記事中に記載した「評価」欄は、ソフトウエア技術者向け教育を10件以上開発した経験者の視点で人力での評価だ。
評価用ＡＩが出力した「根拠」を見ると、シリーズの各記事の「評価」欄の記載との類似が見られた。
評価用ＡＩの評価は、人が行った評価に引きずられたリスクはある。

生成ＡＩは、人間の理解を促進する画像（図案）を適切に推測するレベルには達してない

講義で説明に使う教材は、図・表・グラフなどの画像が多い方が受講者の理解を促進に役立つ。
しかし、評価の成績が良い Gemini や Manus でも、教材の中に画像は生成してない。
理解を促進させる画像生成をプロンプトで明示すると、一部の生成ＡＩは画像を生成した。
ただし、「理解を促進する」画像という視点で見るとイマイチな画像だった。
生成ＡＩは、受取る人間の理解を促進する画像（図案）を推測できるレベルには達してなさそうだ。

本記事と関係が深い記事
姉妹記事	ChatGPT-4 に聞いてみた「どうすればＡＩに乗り遅れないで済むの？」	各生成ＡＩの出力結果
	ChatGPT-5 に聞いてみた「どうすればＡＩに乗り遅れないで済むの？」
	Manus に聞いてみた「どうすればＡＩに乗り遅れないで済むの？」
	Copilot に聞いてみた「どうすればＡＩに乗り遅れないで済むの？」
	Gemini に聞いてみた「どうすればＡＩに乗り遅れないで済むの？」
	DeepSeek に聞いてみた「どうすればＡＩに乗り遅れないで済むの？」
関連記事	生成ＡＩの偏差値を上げる技 13選	プロンプト作成ノウハウ