Détecter un texte écrit par ChatGPT

Juil 29, 2024 | Business, Intelligence Artificielle

i 3 Sommaire

Salut l’équipe👋

Avec l’essor des intelligences artificielles génératives telles que ChatGPT ou Mistral, il devient de plus en plus important de pouvoir distinguer un contenu généré par une IA de celui produit par un humain. Dans cet article nous vous proposons d’explorer les signes distinctifs d’un texte généré par une IA: d’ailleurs la suite de l’article a été rédigé avec ChatGPT pour justement servir de support au sujet du jour, c’est pour cela que vous allez voir des mots ou expressions en bleu ou souligné.

L’Importance de Détecter le Contenu Généré par IA

Avant de plonger dans les détails techniques, il est important de comprendre pourquoi la détection de contenu généré par IA est si cruciale. Avec la montée en puissance des outils de génération de texte automatique, il existe plusieurs risques associés :

Intégrité de l’Information : Les contenus générés par IA peuvent être utilisés pour diffuser de la désinformation ou des fake news. Identifier ces contenus aide à maintenir l’intégrité des informations diffusées au public.
Propriété Intellectuelle : Les créateurs de contenu humain peuvent se voir dévalorisés par la prolifération de textes générés par IA, posant des questions sur la propriété intellectuelle et la reconnaissance du travail créatif.
Éthique Académique : Dans le domaine académique, l’utilisation de contenus générés par IA peut constituer une forme de tricherie ou de plagiat, compromettant l’éthique de la recherche et de l’apprentissage.
Transparence : Pour des raisons de transparence et de confiance, les lecteurs doivent savoir si le contenu qu’ils consomment a été créé par un humain ou une machine.

Principaux Indices de Contenu Généré par ChatGPT

Identifions maintenant les principaux indices qui permettent de détecter un texte généré par une IA comme ChatGPT.

1. Style d’Écriture Cohérent et Neutre

L’un des indices les plus notables d’un texte généré par ChatGPT est le style d’écriture très cohérent et souvent neutre. L’IA tend à éviter les variations de ton et les nuances émotionnelles marquées, ce qui peut rendre le texte lisse mais parfois monotone.

Exemple : « La technologie moderne a un impact significatif sur notre vie quotidienne. Les progrès technologiques facilitent de nombreuses tâches et améliorent notre qualité de vie. »

Analyse : Le ton est constant, sans variations significatives. Il manque de profondeur émotionnelle ou de changements de style qui caractérisent souvent l’écriture humaine.

2. Répétition de Phrases et de Structures (violet)

Une autre caractéristique notable est la répétition de phrases et de structures grammaticales, ici tout les passages surlignés en vert. L’IA peut générer des expressions redondantes ou utiliser des constructions grammaticales identiques sur plusieurs paragraphes, rendant le texte prévisible et parfois ennuyeux.

Exemple : « La technologie moderne est partout, des smartphones aux voitures autonomes. La technologie moderne permet une meilleure connectivité et des innovations continues. »

Analyse : La phrase « La technologie moderne » est répétée plusieurs fois, et les structures grammaticales sont très similaires.

3. Utilisation Fréquente d’Adjectifs Qualitatifs (en bleu)

Un autre indice de contenu généré par ChatGPT est l’utilisation fréquente d’adjectifs qualitatifs. L’IA a tendance à ajouter des adjectifs comme « révolutionnaire« , « crucial« , « innovant » ou « exceptionnel » de manière excessive, ce qui peut rendre le texte exagéré ou artificiel. Ici ce sont tous les mots et expressions en orange.

Exemple : « Les avancées révolutionnaires dans le domaine de la technologie ont un impact crucial sur notre vie quotidienne. Ces innovations exceptionnelles améliorent notre qualité de vie de manière significative. »

Analyse : L’utilisation répétée d’adjectifs qualitatifs (« révolutionnaires », « crucial », « exceptionnelles », « significative ») peut donner l’impression que le texte est artificiel ou surchargé de superlatifs.

4. Manque de Connaissances Contextuelles

L’IA, bien que puissante, peut manquer de connaissances contextuelles approfondies. Cela se traduit par des textes qui semblent vagues ou génériques, surtout lorsqu’ils abordent des sujets nécessitant une expertise ou une compréhension approfondie.

Exemple : « La médecine est un domaine très important. Les médecins travaillent dur pour soigner les patients et améliorer la santé publique. »

Analyse : Le texte reste vague et générique. Il manque de détails spécifiques qui démontreraient une compréhension approfondie du sujet.

5. Les Marqueurs Invisibles

Outre ces indices visibles, il existe des marqueurs invisibles pour l’homme mais détectables par des IA spécialement conçues. Ces marqueurs incluent des signatures spécifiques dans la structure du texte ou des motifs statistiques uniques qui ne sont pas perceptibles à l’œil nu mais qui trahissent l’origine artificielle du contenu.

Comment Fonctionnent les Marqueurs Invisibles ?

Les IA développées pour détecter le contenu généré par d’autres IA utilisent des algorithmes avancés pour analyser des aspects complexes du texte. Ces algorithmes peuvent identifier des schémas d’écriture et des structures statistiques que les humains ne remarquent pas.

Analyse de Fréquence de Mots et de Phrases : Les détecteurs d’IA analysent la fréquence et la distribution des mots et des phrases pour identifier des motifs atypiques.
Examen des Transitions et des Conjonctions : Les transitions entre les phrases et les paragraphes, ainsi que l’utilisation des conjonctions, sont examinées pour détecter des modèles de génération artificielle.
Évaluation des Structures Syntaxiques : Les structures syntaxiques sont analysées pour repérer des constructions récurrentes et systématiques typiques des générateurs de texte automatisés.
Détection de Redondance Statistique : Les IA de détection recherchent des redondances statistiques qui peuvent indiquer un texte généré automatiquement, en comparant avec de vastes bases de données de textes humains.

Outils de Détection de Contenu Généré par IA

Plusieurs outils et logiciels sont disponibles pour détecter le contenu généré par IA. Ces outils sont développés par des entreprises technologiques et des chercheurs universitaires pour répondre à la demande croissante de vérification de l’authenticité des textes.

AI Text Classifier : ce sont des outils qui aident à détecter votre texte et indiquent quel pourcentage de votre texte est écrit par une IA et quel pourcentage de votre texte est écrit par un humain.
GPTZero : Un outil conçu spécifiquement pour détecter le contenu généré par des modèles comme GPT-3 et GPT-4, en analysant des motifs spécifiques de génération.
Copyscape: Un autre outil de détection de plagiat qui intègre des algorithmes pour repérer le contenu généré artificiellement.

Instructions Précises à l’IA

En fournissant des instructions précises à l’IA, il est possible de lui demander de varier son style, d’inclure des expressions plus originales et de fournir directement des détails.

Exemple d’Instruction : « Écris un paragraphe sur les innovations technologiques en médecine, en utilisant un ton enthousiaste et en incluant des exemples spécifiques. »

Résultat Possible : « Les innovations technologiques en médecine sont véritablement révolutionnaires. Prenons l’exemple de la télémédecine : cette technologie permet aux patients d’accéder à des soins de qualité, peu importe leur localisation géographique. De plus, les thérapies géniques ouvrent la voie à des traitements personnalisés pour des maladies jusqu’ici incurables, transformant ainsi l’avenir de la médecine. »

La fin en quelques mots

Détecter du contenu généré par une IA générative à la longue peut être assez évident en analysant le vocabulaire et la syntaxe. Cependant en fonction des prompts écrits, il est possible de rendre plus à votre style, les textes rédigés. Les outils avancés de détection, exploitent des marqueurs invisibles pour identifier les contenus générés par IA, ajoutant ainsi une couche supplémentaire de vérification.

En gardant ces éléments à l’esprit, il est important de garantir l’intégrité de l’information que nous consommons et produisons. Chez BYMADA, nous utilisons parfois l’IA générative pour reformuler des textes, car ne nous sommes pas les meilleurs littéraires, mais l’ensemble des idées, viennent directement de notre savoir et expériences chez nos clients. Ainsi nous contrôlons précisément ce que nous écrivons et publions: l’esprit critique est clef!

Vous êtes un curieux de la data souhaitant en apprendre plus sur l’IA générative? Venez télécharger gratuitement notre nouveau ebook: Parlons de l’IA générative pour les curieux de la data. C’est une collection de nos meilleurs articles IA mis à jour pour apprendre sur la plage. 🏖️

Have fun!
Laura