@eobet Många dataset som används av "AI"-produkterna är faktiskt inte genomgångna på et...

@eobet Många dataset som används av "AI"-produkterna är faktiskt inte genomgångna på ett systematiskt sätt. Och det är inte ens meningen att de ska användas av "AI"-produkter, de är framtagna för forskarvärlden sedan många år. Dataset som LAION-5b (där en oberoende forskargrupp från Stanford Observatory hittade bilder på övergrepp mot barn) säger uttryckligen att man inte ska använda det för produkter riktade mot allmänhet. "AI"-tillverkarna skiter i det och tankar in alla bilder i sin mjukvara ändå.

Det här är bra läsning:
https://oldbytes.space/@eobet/115422063226916064

Såklart har bilderna från dessa dataset använts i många studier, och har på det sättet “gåtts igenom” till viss del. Men “AI”-tillverkarna drivs nog framför allt mycket av att inte behöva betala, eller vänta på, arbetskraft som går igenom innehållet. Man ser dem som “färdiga att använda”.

Den dolda exploaterade arbetskraften är förstås i allra högsta grad också ett problem. Och i många fall ett övergrepp i sig. De får bland annat testa utdatan från “AI”-produkterna och anmäla om det är våld som porträtteras. Men såklart också utvärdera och tagga bilder som företagen själva suger in från diverse oredovisade källor. Men då handlar det inte om officiella dataset tänker jag. Jag har inte sett någon studie kring hur ofta man kan säga att dessa taggningar blir fel, men jag vet nog inte heller om det ens är något som företagen skulle kunna redovisa.