Prompt Engineering
Denne artikkelen treng referansar for verifikasjon. |
Prompt Engineering (norsk: instruksjonsutforming) er eit omgrep innan kunstig intelligens (KI), spesielt innan naturleg språkprosessering (engelsk: natural language processing, NLP) (datalingvistikk). Det inneber at ein prompt, altså oppgåva som KI-en skal utføre, blir skriven inn i inndatafeltet, til dømes som eit spørsmål, i staden for å bli implisitt spesifisert. Prompt Engineering fungerer typisk ved å omforme ei eller fleire oppgåver til eit prompt-basert datasett og trene ein språkmodell med det såkalla «prompt-baserte læringa».
Språkmodellane GPT-2 og GPT-3 var viktige steg innan Prompt Engineering. I 2021 viste Multitask Prompt Engineering ved bruk av fleire NLP-datasett gode resultat på nye oppgåver.[1]
Den breie tilgjengelegheita av desse verktøya vart fremja gjennom publiseringa av fleire open-kjelde-prosjekt og samfunnsdrivne prosjekt innan biletgenerering.[2]
I 2022 vart modellar for maskinlæring (ML) som DALL-E 2, Stable Diffusion og Midjourney gjort tilgjengelege for allmenta. Desse modellane brukar tekstbaserte instruksjonar som inndata for å generere bilete, noko som skapte ein ny kategori av design via tekst i samanheng med tekst-til-bilete-generering.
Typar av Prompts
[endre | endre wikiteksten]Avhengig av systemet skil ein mellom ulike typar prompts:
- Ein systemprompt (engelsk: system prompt) inneheld instruksjonar for ein spesifikk KI-agent. Systemprompten blir ikkje vist til brukaren.
- Ein brukarprompt (engelsk: user prompt) inneheld instruksjonar frå ein brukar til systemet.
- Ein agentprompt (engelsk: agent prompt) refererer til utdata frå ein KI-agent.
Ei rekkje av prompts blir samla til ein konversasjon (engelsk: chat). Avhengig av systemet kan fleire brukarar og KI-agentar vere involverte i ein konversasjon, der kvar brukar eller agent har ulike oppgåver.
Til dømes kan ein samtale i eit system for reisebestilling inkludere følgjande aktørar:
- Ein eller fleire personar i ei reisegruppe som ønskjer å bestille ei spesifikk reise.
- Ein rådgjevar frå reisebyrået som leiar samtalen.
- Spesialiserte KI-assistentar som gir tilleggsinformasjon:
- Informasjon om hotell (lokasjon, kostnad osv.)
- Informasjon om reiseruter (fly, tog osv.)
- Vêrvarslingar
- Informasjon om attraksjonar og kulturelle arrangement på reisemålet
Vidare skil ein mellom prompts basert på modalitet (tekst, bilete, lyd, video), der ein prompt også kan innehalde fleire modalitetar.
Prompt Caching
[endre | endre wikiteksten]Systemprompts og agentprompts blir ofte brukte gjentekne gongar. Difor er det mogleg å kode desse prompts som token-vektorar ved hjelp av ein tokenizer berre éin gong og lagre resultatet i ein cache eller database. Ved gjenteken bruk gir dette betre ytelse, sidan prompten ikkje treng å bli kodet på nytt.
Brukargrensesnitt
[endre | endre wikiteksten]Bruken av prompts for å styre KI endrar, ifølgje Jakob Nielsen, for tredje gong i datamaskinhistoria måten ein tenkjer på datainndata: Etter batch-prosessering og kommandobasert interaksjon følgjer no intensjonsbasert resultatspecificering, der brukarar fortel datamaskina kva dei ønskjer, ikkje korleis ho skal gjere det.
Tekst-Prompting
[endre | endre wikiteksten]Bestanddelar av ein tekst-prompt
[endre | endre wikiteksten]Typiske element i ein tekst-prompt omfattar rolle, tonalitet, kontekst, oppgåve og utdataformat. Det finst rettleiingar for utforming av tekst-prompts.
Døme:
Rolle: Du er ein reiseguide. Tonalitet: Ver vennleg og entusiastisk. Kontekst: Ein familie ønskjer å tilbringe sommarferien i Europa og treng tilrådingar. Oppgåve: Lag ein detaljert 7-dagars reiseplan for ein familieferie i Wien, Austerrike. Gje tilrådingar for familievenlege aktivitetar, spiseplassar og kulturelle opplevingar. Utdataformat: Lag ei liste sortert etter vekedag og tidspunkt på dagen, med dei aktuelle aktivitetane.
Ein effektiv prompt består av ei målretta kombinasjon av ulike prompt-mønster. Vanlege mønster inkluderer persona-mønsteret, det uendelege generasjonsmønsteret og mal-mønsteret. Desse mønstra blir brukte for å optimalisere dei generative evnene til ein modell, spesielt ved autoregressive språkmodellar.
Ved autoregressiv tekstgenerering påverkar kvart genererte token (ord eller teikn) direkte alle påfølgjande token. Dette betyr at sjølv det å leggje til ein spesifikk term eller rolle, som til dømes «advokat», kan ha stor innverknad på kvaliteten til det genererte svaret. Termen «advokat» aktiverer under inferensprosessen til språkmodellen relaterte token, som brukaren kanskje ikkje er kjend med, men som er avgjerande for den faglege presisjonen og samanhengen i svaret.
Gjennom målretta val av prompt-mønster og termar kan ein auke ytinga til språkmodellar monaleg, sidan modellen betre kan identifisere og utnytte kontekstuelle assosiasjonar.
Zero-Shot-Prompting
[endre | endre wikiteksten]Zero-Shot-Prompting refererer til tilfelle der ein KI-agent genererer eit svar på ei brukarførespurnad utan tidlegare døme eller spesifikk trening på den aktuelle oppgåva. Ideelt sett kan agenten direkte svare på eller utføre brukaren sin førespurnad basert på generell kunnskap.
Few-Shot-Prompting
[endre | endre wikiteksten]Few-Shot-Prompting skjer når ein KI-agent ikkje kan svare fullstendig på brukarens førespurnad basert på den første prompten. Brukaren gir derfor tilleggsinformasjon og instruksjonar for å styre agentens svar i ei bestemt retning.
Ikkje-tekstuell Prompting
[endre | endre wikiteksten]Tekst-til-bilete
[endre | endre wikiteksten]Modellar for maskinlæring (ML) som DALL-E 2, Stable Diffusion og Midjourney brukar tekstbaserte prompts for å generere bilete, noko som introduserte ein ny kategori av prompting-teknikk i samanheng med tekst-til-bilete-generering.
Ein tekst-til-bilete-prompt kan innehalde skildringa av det kunstnariske motivet (til dømes lysande oransje valmueblomar), det føretrekte mediet (til dømes digital måling eller fotografi), den valde stilen (til dømes hyperrealistisk eller popkunst), typen belysning (som kantbelysning eller skumringslys), samt farge og tekstur. Dette gjer det mogleg å oppnå meir presise resultat.
Kombinasjon av tekst og grafisk brukargrensesnitt (GUI)
[endre | endre wikiteksten]KI-forskinga frå Meta, Segment Anything, publiserte i 2023 ein modell som kan utføre biletsegmentering basert på prompts. Han stør tre former for prompting: punkt som skal inkluderast og ekskluderast, avgrensingsrammer og val.
Med funksjonen «Vary (Variere)» kan brukarar av Midjourney velje spesifikke delar av eit bilete og endre dei ved hjelp av tekstbaserte prompts. Brukarar kan til dømes velje ein del av biletet dei ikkje liker, og transformere det ved hjelp av ein prompt. Verktøyet gir også moglegheit til å leggje til element, som å leggje til tilbehør til eit portrett. Denne prosessen blir i andre verktøy kalla «Inpainting». Nokre verktøy tilbyr også «Outpainting», der eit bilete blir utvida ved kantane og supplert med fiktive element.
Referansar
[endre | endre wikiteksten]- Første versjon av denne artikkelen var baset på «Prompt Engineering» frå Wikipedia på tysk, 6. mars 2025
- ↑ Sanh, Victor; Webson, Albert; Raffel, Colin; Bach, Stephen H; Sutawika, Lintang; Alyafeai, Zaid; Chaffin, Antoine; Stiegler, Arnaud; Scao, Teven Le; Raja, Arun (2021). «Multitask prompted training enables zero-shot task generalization». arXiv preprint arXiv:2110.08207.
- ↑ Vivian Liu; Lydia B. Chilton (29. april 2022). «Design Guidelines for Prompt Engineering Text-to-Image Generative Models». ACM Digital Library (på engelsk). Association for Computing Machinery. doi:10.1145/3491102.3501825.