데이터세트 방법론
프롬프트 데이터세트 방법론
필드, 출처, 업데이트 주기 및 기계 판독 가능 분포를 포함한 GPT Image Hub 공개 프롬프트 데이터 세트에 대한 방법론입니다.
데이터 세트 범위
공개 데이터 세트에는 GPT Image Hub 라이브러리에 표시되고 검색, 검색 및 재사용을 위한 프롬프트 템플릿이 포함되어 있습니다.
- 각 레코드에는 전체 프롬프트 텍스트와 정식 URL이 포함됩니다.
- 각 레코드에는 카테고리, 태그, 모델 기본값, 종횡비 및 속성 필드가 포함됩니다.
- 가능한 경우 번역이 포함되므로 상담원이 현지화된 프롬프트 의도를 매핑할 수 있습니다.
형식 및 검색
데이터 세트는 검색 엔진, AI 에이전트 및 데이터 파이프라인을 위해 기계가 읽을 수 있는 다양한 형식으로 제공됩니다.
- JSONL은 대량 수집에 권장되는 형식입니다.
- CSV은 스프레드시트 및 BI 도구에 사용할 수 있습니다.
- JSON Schema 및 매니페스트는 필드 의미와 분포를 설명합니다.
출처와 신선도
기록은 알려진 경우 소스 필드를 노출하고 에이전트가 최신성과 출처를 평가할 수 있도록 타임스탬프를 포함합니다.
- 매니페스트에는 버전, generate_at, 출처 및 same_as 필드가 포함됩니다.
- 데이터 세트 경로 응답에는 ETag 및 Last-Modified 헤더가 포함됩니다.
- 카테고리 수준 배포를 사용하면 더 작은 대상 크롤링이 가능합니다.