Journal des citations pour l'incident 729

Description: OpenAI's GPT-4o was found to have its Chinese token training data compromised by spam and pornographic phrases due to inadequate data cleaning. Tianle Cai, a Ph.D. student at Princeton University, identified that most of the longest Chinese tokens were irrelevant and inappropriate, primarily originating from spam and pornography websites. The polluted tokens could lead to hallucinations, poor performance, and potential misuse, undermining the chatbot's reliability and safety measures.

Outils

Nouveau rapport Nouvelle Réponse DécouvrirVoir l'historique

Entités

Voir toutes les entités

Présumé : un système d'IA développé par OpenAI et mis en œuvre par OpenAI and GPT-4o, endommagé OpenAI , Chinese-speaking users of ChatGPT , Researchers and OpenAI users.

Statistiques d'incidents

729

Nombre de rapports

Date de l'incident

2024-05-14

Editeurs

Rapports d'incidents

Chronologie du rapport

translated-fr-GPT-4o’s Chinese token-training data is polluted by spam and porn websites

technologyreview.com

technologyreview.com · 2024

Traduit par IA

translated-fr-Soon after OpenAI released GPT-4o on Monday, May 13, some Chinese speakers started to notice that something seemed off about this newest version of the chatbot: the tokens it uses to parse text were full of spam and porn phras…

Variantes

Une "Variante" est un incident qui partage les mêmes facteurs de causalité, produit des dommages similaires et implique les mêmes systèmes intelligents qu'un incident d'IA connu. Plutôt que d'indexer les variantes comme des incidents entièrement distincts, nous listons les variations d'incidents sous le premier incident similaire soumis à la base de données. Contrairement aux autres types de soumission à la base de données des incidents, les variantes ne sont pas tenues d'avoir des rapports en preuve externes à la base de données des incidents. En savoir plus sur le document de recherche.