Hvad er API'er til billedgenkendelse, og hvad kan de gøre for dig? Denne artikel vil rydde op for, hvad billedgenkendelse er, hvad en API gør, og hvordan det kan hjælpe dig eller din virksomhed med at få mere ud af internettet. Billedgenkendelse har et enormt potentiale for virksomheder og for individuelle synshæmmede internetbrugere.
Hvad er et billedgenkendelses-API?
Billedgenkendelse er det sted, hvor et stykke software registrerer egenskaberne ved et billede og kategoriserer det nøjagtigt. For eksempel, hvis du uploader et billede af en Ferrari 458 til et API til billedgenkendelse, skal det erkende, at det er en bil, og at det er (eller bør være) rødt. Afhængigt af API'et kan det være muligt at klassificere yderligere afhængigt af hvilken type billede du bruger.
Dette kan virke virkelig simpelt - mennesker kan se på et billede og fortælle dig, hvad det er et billede af uden at prøve det, for det meste - men dette har været et svært problem at lære computere at løse. Der er arbejdet meget på at finde ud af, hvordan en computer kan forstå, hvordan ting ser ud, og vi har gjort store fremskridt, fra muligheden for at foretage omvendt billedsøgning til Googles berømte Deep Dream-netværk.
En API er en applikationsprogramgrænseflade. Det er i det væsentlige en mellemmand mellem programrutiner, der fortæller et element, hvordan man arbejder med et andet, eller leverer de værktøjer, de har brug for for at udføre en funktion. Der er snesevis af typer af API, der kan nå alle mulige mål ved hjælp af en række programmeringssprog. I denne sammenhæng er et billedgenkendelses-API det værktøj, du kan bruge til at få adgang til den dybe læringskraft i nogle kommercielle billedgenkendelsessystemer.
Du har brug for meget computerkraft for at udføre billedgenkendelse. Du har brug for masser af data og styrken til at fortolke det hele. De fleste brugere har simpelthen ikke de enorme ressourcer til at bygge deres egen dyb læringsmaskine. Store navne som Googles Vision API, Microsofts Face API, ImageNet og andre har sådanne maskiner og giver adgang til dem gennem API'er, enten gratis eller mod et gebyr. Dette giver virksomheder i alle størrelser adgang til denne magt, og brugerne får nye oplevelser som et resultat.
Hvordan ændrer billedgenkendelse vores internetoplevelse?
Forskellige internetbrugere får forskellige fordele ved billedgenkendelse. Lad os se på en hypotetisk ejer og en hypotetisk bruger for at se, hvordan begge sider kan drage fordel.
De forretningsmæssige fordele ved billedgenkendelse
Lad os som et eksempel sige, at du driver en selvsælgende portal, der ligner Etsy eller et datingwebsted. Du vil administrere kvaliteten og egnetheden af alle billeder uploadet af brugere. Du vil blokere alle voksne eller uegnede billeder og sortere dem i de relevante kategorier, men du kan umuligt gøre det hele for hånd.
Gå ind i billedgenkendelses-API'et. Du kan bruge API'en sammen med en passende billedgenkendelsesmaskine til at scanne hvert enkelt billede og definere det efter indstillede kriterier. Så du kan scanne biblioteket med billeder for usømmelige billeder og slette dem. Du kan scanne billederne og sortere dem, der indeholder mad i kategorien "mad" og strikvarer i kategorien "uld". Når du fortæller API’en, hvad man skal gøre, automatiseres processen.
Her er der også muligheder for augmented reality og interaktiv billede og video. Du kan bruge billedgenkendelse til at få et program til at genkende objekter i den virkelige verden. For eksempel kan du tage et billede af et par sneakers, som nogen har på gaden. Hvis programmet genkender sneakersne, kan billedet forbedres med et link for at købe dem til dig selv. Dette gavner forretningen (det giver en øjeblikkelig salgsmulighed) og gavner brugeren (de får, hvad de vil lige nu).
Brugeren har fordelene ved billedgenkendelse
Eksempel på sneaker herover er kun en åbenlys måde, som brugere kan drage fordel af billedgenkendelse på. Udvidet virkelighed betyder, at vi øjeblikkeligt kunne få adgang til anmeldelser, prisoplysninger og masser af data ved blot at tage et billede af et produkt. Det giver brugerne enorme mængder data for at hjælpe dem med at tage en købsbeslutning.
Mark Zuckerberg opsummerede en ofte overset fordel for billedgenkendelse i sin tale om AI tidligere på året. Han så for sig et API til billedgenkendelse, der arbejdede med blinde eller svaksynede mennesker, der kunne "læse" et billede og beskrive, hvad det ser højt. Dette kan have massive følger for handicappede internetbrugere - eller med den øgede virkelighed ud i den virkelige verden et stykke tid nede.
Billedgenkendelse spiller også en rolle i køretøjets sikkerhed. De nye autonome bremser og kollisionsundgåelsesteknologier, der introduceres, fungerer på samme måde som de API'er, vi har talt om. De scanner og vurderer billeder mange gange i sekundet for at beskytte dig og din bil, mens du er på farten. Denne teknologi, der fortæller autonome biler, hvad der er omkring dem også.
Billedgenkendelses-API'er vil ikke revolutionere vores internetoplevelse på egen hånd. De arbejder sammen med eksisterende teknologi for at tilføje et lag af interaktion og nedsænkning til den verden, vi ser. Selvom eksemplerne på denne artikel er begrænsede, er der et enormt potentiale for spil, film, bilindustrien, detailhandel, underholdning og enhver teknologisk aktiveret industri. Dette er bare begyndelsen på, hvad intelligente systemer kan opnå!
