データセットの方法論
迅速なデータセット方法論
GPT Image Hub パブリック プロンプト データセットの方法論 (フィールド、来歴、更新頻度、機械可読ディストリビューションなど)。
データセットの範囲
パブリック データセットには、GPT Image Hub ライブラリで表示され、検出、取得、再利用を目的としたプロンプト テンプレートが含まれています。
- 各レコードには、完全なプロンプト テキストと正規の URL が含まれています。
- 各レコードには、カテゴリ、タグ、モデルのデフォルト、アスペクト比、および属性フィールドが含まれます。
- 利用可能な場合は翻訳が含まれるため、エージェントはローカライズされたプロンプトの意図をマッピングできます。
フォーマットと検出
このデータセットは、検索エンジン、AI エージェント、データ パイプライン用に、複数の機械可読形式で利用できます。
- JSONL は、一括取り込みに推奨される形式です。
- CSV はスプレッドシートと BI ツールで使用できます。
- JSON Schema とマニフェストは、フィールドのセマンティクスと分布を記述します。
産地と鮮度
レコードは既知の場合はソース フィールドを公開し、タイムスタンプが含まれるため、エージェントは鮮度と出所を評価できます。
- マニフェストには、version、generated_at、provenance、および Same_as フィールドが含まれます。
- データセット ルートの応答には、ETag ヘッダーと Last-Modified ヘッダーが含まれます。
- カテゴリ レベルの配布により、対象を絞ったクロールをより小規模に行うことができます。