Méthodologie des ensembles de données

Méthodologie d'ensemble de données rapide

Méthodologie pour l'ensemble de données d'invite publique GPT Image Hub, y compris les champs, la provenance, la cadence de mise à jour et les distributions lisibles par machine.

GPT Image Hub2026-04-30 mis à jour

Portée de l'ensemble de données

L'ensemble de données public contient des modèles d'invite visibles dans la bibliothèque GPT Image Hub et destinés à la découverte, à la récupération et à la réutilisation.

Chaque enregistrement comprend un texte d'invite complet et un URL canonique.
Chaque enregistrement comprend la catégorie, les balises, les valeurs par défaut du modèle, les proportions et les champs d'attribution.
Les traductions sont incluses lorsqu'elles sont disponibles afin que les agents puissent cartographier l'intention d'invite localisée.

Formats et découverte

L'ensemble de données est disponible dans plusieurs formats lisibles par machine pour les moteurs de recherche, les agents d'IA et les pipelines de données.

JSONL est le format recommandé pour l’ingestion groupée.
CSV est disponible pour les feuilles de calcul et les outils BI.
Un JSON Schema et un manifeste décrivent la sémantique et les distributions des champs.

Provenance et fraîcheur

Les enregistrements exposent les champs sources lorsqu'ils sont connus et incluent des horodatages afin que les agents puissent évaluer la fraîcheur et la provenance.

Le manifeste comprend les champs version, generate_at, provenance et same_as.
Les réponses d’itinéraire de l’ensemble de données incluent les en-têtes ETag et Last-Modified.
Les distributions au niveau des catégories permettent des analyses ciblées plus petites.