Le content spinning, l’ancètre de la génération automatique de textes

florence le votJe me présente tout d’abord : je m’appelle Florence Le Vot et j’ai fondé l’agence web & SEO RaDiance Conseil en 2002. Je suis également partenaire et responsable du volet SEO au sein d’un start-up studio et j’interviens également en tant que consultante SEO pour un certain nombre d’acteurs du web.

content spinning, génération automatique de texte, Google et internautes

Les responsables de Google ont affirmé publiquement qu’il n’y avait pas de pénalité pour cause de contenu dupliqué. On peut notamment citer Andrey Lipattsev, Search Quality Senior Strategist chez Google, qui l’affirmait dans une vidéo en juin 2016. On est donc tentés de le croire. Mais les observations que l’on peut faire sont pourtant en contradiction avec cette affirmation. À moins que nous n’ayons pas la même définition du mot « pénalité » ? En effet, lorsque Google trouve plusieurs pages qui ont un certain niveau de similarité, il est amené à faire trois choix :

  • N’en indexer qu’une ;
  • Indexer les pages évaluées comme trop proches dans un index secondaire, qui n’est pas affiché spontanément par le moteur (les « pages similaires ») ;
  • Mal classer ces pages ou la plupart d’entre elles.

 

Dans tous les cas, il y a une forme évidente de pénalité. C’est particulièrement frappant lorsqu’on traite le problème de near-duplicate au sein d’un même site : une fois les problèmes résolus, les classements et le trafic décollent :

Comment peut-on traiter ces problèmes de near-duplicate ?

Certains l’ont traité en réécrivant une partie des articles. Mais dès que l’on a plusieurs centaines voire plusieurs milliers de pages, ça devient inenvisageable. Surtout s’il s’agit d’un catalogue de produits, amené à subir des mises à jour fréquentes.

Certains se sont alors tournés vers la technique du content spinning. Malgré son intérêt, cette technique a mauvaise presse. On l’associe à du contenu illisible, on la classe dans l’éventail des techniques black-hat, on rappelle régulièrement que le content spinning est contraire aux guidelines de Google. Faisons la part du vrai et du faux dans tout cela :

  • La technique du content spinning est effectivement une technique rédactionnelle black-hat, dans la mesure où elle vise à produire un maximum de variations à partir d’un texte-source. Cela n’apporte aucune plus-value aux internautes. Le but recherché c’est d’amener les moteurs de recherche à penser qu’il s’agit de textes différents. La Génération Automatique de Textes fait la même chose certes, mais elle le fait beaucoup mieux, nous verrons comment un peu plus loin. On peut également classer dans l’éventail des techniques black-hat la production d’articles SEO sans grand intérêt pour les internautes, dont le seul but est de positionner une page sur un groupe de mots-clés donnés ou de placer des liens vers un site que l’on veut pousser. Mais le fait est que ces techniques donnent de très bons résultats, aujourd’hui encore, et depuis aussi loin que je travaille dans le SEO, c’est-à-dire depuis 15 ans.
  • Le contenu généré par un spin peut effectivement être illisible s’il a été produit de manière automatique, en remplaçant des mots par des synonymes. Il y a évidemment différents niveaux de qualité en matière de content spinning mais en dehors de ce que fait spinwave, j’ai surtout vu des choses allant du très mauvais au très moyen. Pour atteindre le niveau de qualité offert par spinwave, nous avons tout d’abord recruté des rédacteurs de haut niveau (tous les rédacteurs ont des diplômes de type Master I ou II dans des matières comme les Lettres Modernes, les Lettres Françaises Appliquées, la Linguistique ou l’Informatique Linguistique). Nous avons ensuite réfléchi à la manière de produire des textes d’une qualité correcte avec le maximum de variations à tous les niveaux : groupes de mots, phrases, groupes de phrases, paragraphes. À partir de cette réflexion, nous avons développé des outils qui n’existent nulle part ailleurs. Et des méthodologies qui ont permis de renforcer la qualité de nos services.

Le content spinning complètement dépassé par la puissance de la GAT

Effectivement, le content spinning est totalement dépassé aujourd’hui. La GAT (Génération Automatique de Textes), que l’on devrait nommer plus justement « la Génération Semi-Automatique de Textes, supplante en tous points le content spinning par l’apport croisé de l’IA (Intelligence Artificielle), du deep learning et de la data-science.

Comment fonctionne la génération automatique de textes chez spinwave ?

Il faut tout d’abord savoir qu’il y a un rédacteur ou une rédactrice aux commandes. Préférentiellement un linguiste, d’ailleurs. Le linguiste possède une connaissance technique du langage, de ses rouages, de la multitude de règles qui régissent le français en particulier, de toutes les possibilités qui permettent de produire des sens proches avec des tournures et des mots différents.

Le linguiste s’appuie sur notre outil de GAT pour récupérer, à partir d’entités nommées, toutes les possibilités de construction de phrases permises par la langue française. Il décoche alors celles qui ne conviendraient pas au contexte. Mais la démarche est beaucoup plus efficace que le content spinning, où le rédacteur doit se creuser la tête pour chercher des variantes de phrases. Nos tests nous ont permis de mesurer la différence, le rapport varie de 1 pour 5 à 1 pour 15 selon les phrases et selon les rédacteurs. C’est-à-dire qu’à partir d’une phrase d’origine pour laquelle un excellent rédacteur va trouver 5 tournures différentes, notre système en génère entre 25 et 75. Je parle bien de tournures uniquement, on n’a pas encore commencé à créer de variantes avec des synonymes ou des groupes de mots. Je vous montre 2 exemples de tournures de phrases différentes, pour que vous compreniez bien à quel niveau on se situe :

  • J’adore aller me promener sur les marchés !
  • Se promener sur les marchés c’est quelque chose que j’adore !

On arrive ici à trouver 43 tournures différentes pour cette seule phrase.

Le 2ème apport d’un système de GAT c’est l’approche probabiliste, par la science des données. Le système propose alors au linguiste chargé du projet, de multiples insertions au sein des phrases, pour en maximiser la diversité. Là aussi, le rédacteur-linguiste n’a pas à se creuser la tête pour ne trouver qu’une petite partie des variations qu’il pourrait trouver sur le moment, en fonction de son inspiration ou de sa fatigue : le système les trouve toutes. Par exemple :

  • J’adore aller me promener sur les marchés !
  • J’adore aller me promener sur les marchés de bon matin !
  • J’adore tellement me promener de bon matin sur les marchés !
  • Etc.

À partir de cette seule phrase, avant même d’avoir commencé à placer des synonymes, notre système a déjà trouvé 83 variantes différentes, par l’inclusion de certains éléments, l’inversion de certains, etc. Et il appliquera le même processus pour les 43 tournures qui ont été retenues. 43 x 83 = 3’569 variantes à ce stade, avant même d’avoir commencé à travailler sur des synonymes. Et en ayant des phrases absolument irréprochables.

On travaille ensuite sur les synonymes (qui peuvent, dans ce cas, remplacer un mot par un groupe de mots) mais de manière très sélective. C’est ce qui permet d’éviter tout problème de sens ou de tournure par la suite. Par exemple pour « j’adore » : j’aime, j’apprécie, je prends plaisir, j’ai un certain plaisir, etc. On peut rapidement trouver 4 synonymes parfaitement adaptés pour chacun des mots signifiants au sein de chaque phrase. Au sein de la phrase qui nous sert d’exemple, nous avons 3 groupes signifiants à la base : « j’adore », « me promener » et « les marchés ». Mais l’outil de GAT en ajoute au passage « tellement » et « de bon matin » par exemple, qui auront eux aussi leurs synonymes. On a donc entre 3 et 5 éléments signifiants au sein de chacune des 3’560 variantes, et ces éléments signifiants ont en moyenne 4 « synonymes ». On va partir sur une moyenne de 4 éléments signifiants (entre 3 et 5), ce qui nous amène à 3’569 x 44 = 57’104 variations pour cette seule phrase.

Vous comprenez aisément qu’aucun rédacteur ne peut arriver à cette performance. Même si on lui en donne le temps. Et encore moins lorsqu’il s’agit de produire au final des articles de plusieurs dizaines de phrases et plusieurs centaines de mots.

Il y a ensuite la correction automatique des fautes d’orthographe, des fautes d’accord (en genre et en nombre), le traitement des élisions ou la détection de problèmes de ponctuation. Avec autant de variantes par phrase, cette tâche ne peut pas être traitée par un être humain. Là aussi, le content spinning est devenu totalement dépassé.

Passons maintenant à l’étape suivante : l’ajustement et la personnalisation des narrations.

Si on dispose de variables, comme des caractéristiques techniques par exemple, on peut alors ajouter tout un ensemble de règles qui vont créer des arbres de décision multiniveaux. Imaginons que nous devions décrire des bateaux. En fonction de leurs dimensions et d’autres caractéristiques, nous allons alors adapter les termes utilisés pour les décrire : une petite embarcation, une barque, un bateau, un voilier, un catamaran, un trimaran, un yacht.  Mais nous adaptons également le discours :

  • Cette petite embarcation vous permettra d’aller pêcher seul ou avec un ami.
  • Cette barque vous permettra d’accueillir confortablement 4 personnes.
  • Ce bateau vous permettra de faire de belles virées en mer !
  • À vous les joies de la navigation avec ce superbe voilier !
  • Ce catamaran sportif vous donnera de belles sensations.
  • Ce trimaran habitable est tout à fait adapté à de longs séjours. Avec lui, vous pourrez faire le tour du monde si cela vous chante.

Conclusions

On voit clairement, à partir de ces exemples, que les caractéristiques du produit sont exploitées intelligemment pour produire des narrations à la fois personnalisées, pertinentes et diversifiées. En guise de conclusion, posons-nous ces quelques questions :

  • Que préfèrent les internautes ? Lire des caractéristiques brutes, ou des textes générés de manière intelligente à partir de ces données ?
  • D’un point de vue SEO et sémantique, qu’est-ce qui est le plus riche ? Des données brutes ou des textes chargés de termes et de cooccurrences ?
  • Au niveau des taux de conversion, qu’est-ce qui donne les meilleurs résultats ? Des données brutes ou des textes qui permettent à l’internaute de se projeter dans l’expérience et les bénéfices qu’il pourra retirer du produit ?
  • En quoi des textes produits manuellement, un par un, pourraient-ils être meilleurs qu’en appliquant notre méthode de production semi-automatisée ?
POUR NOUS CONTACTER
35 rue Saint Simon - 69009 LYON
Tél. : 0805-69-29-89 (appel gratuit)
Merci ! Nous vous recontacterons au plus vite.
POUR NOUS CONTACTER
35 rue Saint Simon - 69009 LYON
Tél. : 0805-69-29-89 (appel gratuit)
Merci ! Nous vous recontacterons au plus vite.