Datensatzmethodik
Prompt-Dataset-Methodik
Methodik für den öffentlichen Eingabeaufforderungsdatensatz GPT Image Hub, einschließlich Felder, Herkunft, Aktualisierungsrhythmus und maschinenlesbare Verteilungen.
Datensatzumfang
Der öffentliche Datensatz enthält Eingabeaufforderungsvorlagen, die in der GPT Image Hub-Bibliothek sichtbar sind und zum Erkennen, Abrufen und Wiederverwenden bestimmt sind.
- Jeder Datensatz enthält den vollständigen Eingabeaufforderungstext und den kanonischen URL.
- Jeder Datensatz enthält Kategorien, Tags, Modellstandards, Seitenverhältnisse und Zuordnungsfelder.
- Übersetzungen sind enthalten, sofern verfügbar, damit Agenten die lokalisierte Absicht der Eingabeaufforderung abbilden können.
Formate und Entdeckung
Der Datensatz ist in mehreren maschinenlesbaren Formaten für Suchmaschinen, KI-Agenten und Datenpipelines verfügbar.
- JSONL ist das empfohlene Format für die Massenaufnahme.
- CSV ist für Tabellenkalkulationen und BI-Tools verfügbar.
- Ein JSON Schema und ein Manifest beschreiben Feldsemantik und -verteilungen.
Herkunft und Frische
Aufzeichnungen legen Quellfelder offen, wenn sie bekannt sind, und enthalten Zeitstempel, damit Agenten Frische und Herkunft beurteilen können.
- Das Manifest enthält die Felder „version“, „generated_at“, „provenance“ und „same_as“.
- Die Antworten auf die Datensatzroute umfassen die Header ETag und Last-Modified.
- Verteilungen auf Kategorieebene ermöglichen kleinere gezielte Crawls.