Metodologia del set di dati
Metodologia del set di dati rapido
Metodologia per il set di dati del prompt pubblico GPT Image Hub, inclusi campi, provenienza, cadenza di aggiornamento e distribuzioni leggibili dalla macchina.
Ambito del set di dati
Il set di dati pubblico contiene modelli di prompt visibili nella libreria GPT Image Hub e destinati all'individuazione, al recupero e al riutilizzo.
- Ogni record include il testo completo del prompt e il testo canonico URL.
- Ogni record include categoria, tag, impostazioni predefinite del modello, proporzioni e campi di attribuzione.
- Le traduzioni vengono incluse quando disponibili in modo che gli agenti possano mappare l'intento del prompt localizzato.
Formati e scoperta
Il set di dati è disponibile in più formati leggibili dalle macchine per motori di ricerca, agenti AI e pipeline di dati.
- JSONL è il formato consigliato per l'importazione collettiva.
- CSV è disponibile per fogli di calcolo e strumenti BI.
- Un JSON Schema e un manifest descrivono la semantica e le distribuzioni dei campi.
Provenienza e freschezza
I record espongono i campi di origine quando noti e includono timestamp in modo che gli agenti possano valutare freschezza e provenienza.
- Il manifest include i campi versione, generate_at, provenienza e same_as.
- Le risposte al percorso del set di dati includono le intestazioni ETag e Last-Modified.
- Le distribuzioni a livello di categoria consentono scansioni mirate più piccole.