Hochwertige Daten und der Zugang dazu spielen eine zentrale Rolle bei der Bereitstellung von Strukturen und für die Sicherstellung der Leistung vieler KI-Systeme, insbesondere wenn Techniken eingesetzt werden, bei denen Modelle mit Daten trainiert werden, um sicherzustellen, dass das Hochrisiko-KI-System bestimmungsgemäß und sicher funktioniert und nicht zur Ursache für Diskriminierung wird, die nach dem Unionsrecht verboten ist. Hochwertige Trainings-, Validierungs- und Testdatensätze erfordern geeignete Daten-Governance- und Datenverwaltungsverfahren. Die Trainings-, Validierungs- und Testdatensätze, einschließlich der Kennzeichnungen, sollten im Hinblick auf die Zweckbestimmung des Systems relevant, hinreichend repräsentativ und so weit wie möglich fehlerfrei und vollständig sein. Um die Einhaltung des Datenschutzrechts der Union, wie der Verordnung (EU) 2016/679, zu erleichtern, sollten Daten-Governance- und Datenverwaltungsverfahren bei personenbezogenen Daten Transparenz in Bezug auf den ursprünglichen Zweck der Datenerhebung umfassen. Die Datensätze sollten auch die geeigneten statistischen Merkmale haben, auch bezüglich der Personen oder Personengruppen, auf die das Hochrisiko-KI-System bestimmungsgemäß angewandt werden soll, unter besonderer Berücksichtigung der Minderung möglicher Verzerrungen in den Datensätzen, die die Gesundheit und Sicherheit von Personen beeinträchtigen, sich negativ auf die Grundrechte auswirken oder zu einer nach dem Unionsrecht verbotenen Diskriminierung führen könnten, insbesondere wenn die Datenausgaben die Eingaben für künftige Operationen beeinflussen (Rückkopplungsschleifen). Verzerrungen können zum Beispiel — insbesondere bei Verwendung historischer Daten — den zugrunde liegenden Datensätzen innewohnen oder bei der Implementierung der Systeme in der realen Welt generiert werden. Die von einem KI-System ausgegebenen Ergebnisse könnten durch solche inhärenten Verzerrungen beeinflusst werden, die tendenziell allmählich zunehmen und dadurch bestehende Diskriminierungen fortschreiben und verstärken, insbesondere in Bezug auf Personen, die bestimmten schutzbedürftigen Gruppen wie aufgrund von Rassismus benachteiligten oder ethnischen Gruppen angehören. Die Anforderung, dass die Datensätze so weit wie möglich vollständig und fehlerfrei sein müssen, sollte sich nicht auf den Einsatz von Techniken zur Wahrung der Privatsphäre im Zusammenhang mit der Entwicklung und dem Testen von KI-Systemen auswirken. Insbesondere sollten die Datensätze, soweit dies für die Zweckbestimmung erforderlich ist, den Eigenschaften, Merkmalen oder Elementen entsprechen, die für die besonderen geografischen, kontextuellen, verhaltensbezogenen oder funktionalen Rahmenbedingungen, unter denen das Hochrisiko-KI-System bestimmungsgemäß verwendet werden soll, typisch sind. Die Anforderungen an die Daten-Governance können durch die Inanspruchnahme Dritter erfüllt werden, die zertifizierte Compliance-Dienste anbieten, einschließlich der Überprüfung der Daten-Governance, der Datensatzintegrität und der Datenschulungs-, Validierungs- und Testverfahren, sofern die Einhaltung der Datenanforderungen dieser Verordnung gewährleistet ist.