heise Developer
91 subscribers
8.09K links
Informationen für Entwickler

Powered by @DerNewsChannel
Download Telegram
Blick in die Blackbox: KI-Trainingsdatensatz C4 schöpft auch aus trüben Quellen
#C4 #Datenschutz #KISicherheit #KünstlicheIntelligenz #LLM #MachineLearning #Webscraping

Colossal Clean Crawled Corpus (C4) dient Sprachmodellen als Trainingsgrundlage․ Die Washington Post hat den Datensatz untersucht – er enthält Ungereimtheiten․