Tack för den här bloggterminen!

I upphovsrättens träskmarker




De stora teknikjättarna - Open Ai, Google och Meta - tar stora genvägar och trampar ogenererat i  upphovsrättens landområden.

Det börjar bli ont om data till de stora språkmodellerna.  En jakt på digitala data har inletts eftersom företagen glufsar i sig datan snabbare än den produceras. Företagens handlingar belyser hur informationen på internet - inklusive nyheter, skönlitterära verk, forum, Wikipedia-artiklar, programvara, bilder, podcasts och videoklipp - i allt större utsträckning utgör ryggraden i den växande AI-industrin. Att utveckla innovativa system är i hög grad beroende av tillgång till tillräckligt med data för att träna tekniken att skapa text, bilder, ljud och videor som liknar mänsklig skapelse.

OpenAI och de andra två bolagen, har forskare under flera år samlat in data, rensat den och matat den i omfattande textmängder för att träna företagets språkmodeller. De har utforskat GitHub för koddata, skannat databaser för schackdrag, och hämtat information om prov och  annat studiematerial  från olika webbplatser.

I slutet av  2021 befann sig OpenAI i en desperat jakt på mer data för att utveckla sin nästa generations AI-modell, GPT-4. Därför diskuterade de anställda möjligheten att transkribera podcasts, ljudböcker och YouTube-videor, berättade dessa personer. De övervägde också att skapa data från grunden med hjälp av AI-system och till och med att förvärva nystartade företag som hade samlat in stora datamängder.

Till sist utvecklade OpenAI Whisper, ett taligenkänningsverktyg, för att transkribera YouTube-videor och podcasts. Men YouTube förbjuder inte bara användning av deras videor för "oberoende" applikationer, utan också åtkomsten till deras videor på automatiserade sätt (t ex robotar, botnät m m).

De gränser som skiljer mänsklig kreativitet från den som kommer från artificiell intelligens blir allt mer suddiga, vilket leder till komplicerade upphovsrättsliga frågor. Kreationer som integrerar både mänskliga och AI-insatser kan bara vara föremål för upphovsrättskydd för de delar som utförs uteslutande av människan. Hur detta ska urskiljas är en svårfångad fråga.

Dessutom börjar det växa upp ett digitalt sopberg med lågkvalitativt AI-producerat material som bygger på detta AI.s egna undermåliga träningsmaterial. Konsekvenser som riskerar att förstärka fel och stereotyper och gör det än svårare för våra elever att kunna sortera och granska i detta digitala sopberg! 

Många frågeställningar att ta upp tillsammans med våra elever!


Ahlström, K. (2024, May 6). AI-skräpet tränger undan det som skapats av människor. DN.se; Dagens Nyheter. https://www.dn.se/kultur/ai-skrapet-tranger-undan-det-som-skapats-av-manniskor/

Metz, C. (2024). How Tech Giants Cut Corners to Harvest Data for A.I. The New York Times. https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?unlocked_article_code=1.iU0.KJt9.d0tmwzNIo-PS&smid=nytcore-ios-share&referringSource=articleShare&ugrp=m&sgrp=c-cb

Kommentarer