Convertir un PDF en XML : comment AMS aide les revues à créer des fichiers de publication structurés
Les revues scientifiques ont besoin du format XML car l'édition numérique repose sur des données structurées.
Un PDF permet de visualiser un article pour un lecteur, mais le XML permet aux systèmes de le comprendre. Ceci est particulièrement important pour l'édition scientifique, où la qualité des métadonnées, leur découvrabilité et leur interopérabilité sont essentielles.
Le format XML peut aider les revues :
- améliorer l'indexation ;
- structurer les métadonnées de l'article ;
- publier du contenu dans plusieurs formats ;
- préserver les articles numériquement ;
- connecter le contenu aux systèmes DOI ;
- générer des versions HTML ;
- faciliter les dépôts dans les dépôts ;
- améliorer la visibilité dans les moteurs de recherche ;
- standardiser la production éditoriale.
C’est pourquoi de nombreuses revues ne se contentent pas de convertir des PDF en XML. Elles doivent créer un fichier XML de haute qualité, prêt pour la publication.
Le problème de la conversion de base de PDF en XML
De nombreux outils permettent d'extraire du texte d'un PDF et de générer un fichier XML. Cependant, cela ne revient pas à créer un fichier XML éditorial valide.
Un convertisseur basique peut extraire le texte d'un PDF, mais il risque de ne pas en saisir la structure. Les articles scientifiques sont des documents complexes : ils comprennent des métadonnées, des références, des tableaux, des formules, des notes de bas de page, des légendes de figures et différents niveaux de titres.
Voici quelques problèmes courants rencontrés lors de la conversion de base de PDF en XML :
- ordre de lecture incorrect ;
- paragraphes interrompus ;
- métadonnées manquantes ;
- références incomplètes ;
- Correspondance incorrecte entre l'auteur et son affiliation ;
- tableaux convertis en texte brut ;
- légendes des figures non identifiées ;
- erreurs de hiérarchie de section ;
- Données DOI ou ORCID manquantes ;
- Structure XML invalide ;
- XML qui ne peut pas être utilisé pour l'indexation.
C’est pourquoi les revues scientifiques ont généralement besoin d’un flux de travail plus spécialisé.
AMS : bien plus qu’un convertisseur PDF vers XML
AMS n'est pas qu'un simple convertisseur PDF vers XML. C'est un système automatisé de production éditoriale conçu pour les revues scientifiques qui exigent des fichiers structurés, cohérents et prêts à la publication.
Au lieu de considérer le XML comme une sortie isolée, AMS intègre sa génération dans un flux de travail de publication plus large. Cela permet aux revues de passer de fichiers PDF statiques à un contenu structuré, publiable, indexable et réutilisable sur différentes plateformes.
Du PDF au XML-JATS
Pour les revues scientifiques, l'une des normes XML les plus importantes est XML JATS, un format structuré conçu spécifiquement pour les articles de revues. Contrairement à une simple extraction de PDF, XML JATS identifie les éléments clés d'un article, notamment les métadonnées, les auteurs, les affiliations, les résumés, les mots-clés, les sections, les tableaux, les figures, les références, le DOI et les informations de publication.
Cela rend XML JATS beaucoup plus utile qu'une simple conversion PDF-XML, notamment pour les revues qui ont besoin de métadonnées fiables et d'un meilleur indexage.
Pourquoi le XML est important pour les revues
Un PDF est utile pour la lecture et le téléchargement, mais le XML permet aux systèmes de publication, aux dépôts et aux services d'indexation de comprendre la structure de l'article.
Un fichier XML bien structuré peut aider les revues à améliorer leur découvrabilité, à normaliser les métadonnées, à faciliter la migration de plateforme, à préserver le contenu numériquement et à accroître la visibilité des articles publiés.
PDF, HTML et XML à partir d'un seul flux de travail
L'un des principaux avantages d'AMS est sa capacité à prendre en charge la publication multiformat. Les revues scientifiques ont souvent besoin de publier le même article au format PDF pour les lecteurs, HTML pour le web et XML JATS pour l'indexation et l'interopérabilité.
La gestion séparée de ces formats peut engendrer des doublons et des incohérences. AMS contribue à réduire cette fragmentation en intégrant la production de PDF, HTML et XML au sein d'un flux de travail éditorial unique.
Quand une revue doit-elle utiliser AMS ?
AMS est particulièrement utile pour les revues qui ont besoin de convertir des PDF en XML, de générer des JATS XML, de récupérer le contenu structuré d'articles archivés, d'améliorer leur flux de travail de publication numérique ou de réduire le balisage XML manuel.
Il est également utile pour les revues qui publient plusieurs articles par numéro et qui ont besoin de métadonnées cohérentes, de modèles personnalisés et d'une production éditoriale standardisée.
Conversion de PDF en XML vs. XML prêt pour la publication
Un convertisseur PDF vers XML basique peut extraire le texte d'un PDF, mais les revues scientifiques ont généralement besoin de plus qu'une simple extraction de texte.
Un fichier XML prêt pour la publication nécessite des métadonnées précises, une structure d'article, des références, les affiliations des auteurs, des tableaux, des figures et une validation conformes aux normes de publication ou d'indexation.
| Besoin | Convertisseur PDF vers XML basique | AMS |
|---|---|---|
| Extraire du texte d'un PDF | Oui | Oui, dans le cadre d'un flux de travail plus large |
| Identifier les métadonnées de l'article | Limité | Oui |
| Auteurs et affiliations de la structure | Limité | Oui |
| Générer des JATS XML | Pas toujours | Oui |
| Prise en charge des flux de travail des journaux | Non | Oui |
| Générer des PDF et du HTML | Généralement non | Oui |
| Préparer le contenu pour l'indexation | Limité | Oui |
| Personnalisez les modèles par journal | Non | Oui |
Avantages de l'AMS
AMS aide les revues à transformer leur contenu PDF en fichiers de publication structurés, réduisant ainsi le travail manuel. Il prend en charge la génération de fichiers JATS XML, la publication multiformat, les modèles de revues personnalisés et une production éditoriale cohérente pour les articles, les numéros et les volumes.
Pour les nouveaux articles, AMS peut générer des fichiers PDF, HTML et XML à partir du flux de travail éditorial. Pour les articles archivés, il permet de récupérer le contenu structuré des publications PDF existantes.
Foire aux questions
Puis-je convertir n'importe quel PDF en XML ?
Dans de nombreux cas, oui, mais la qualité du résultat dépend de la structure du PDF d'origine. Un article propre et bien structuré est plus facile à traiter qu'un document scanné ou mal formaté.
Quelle est la différence entre XML et XML JATS ?
XML est un langage de balisage général. XML JATS est une norme XML spécifique conçue pour les articles de revues et l'édition scientifique.
Pourquoi XML JATS est-il important pour les revues scientifiques ?
XML JATS aide à structurer le contenu et les métadonnées des articles afin que les plateformes, les référentiels et les systèmes d'indexation puissent les traiter correctement.
AMS génère-t-il uniquement du XML ?
Non. AMS est conçu pour la publication multiformat et peut prendre en charge les sorties JATS aux formats PDF, HTML et XML.
Conclusion
La conversion de PDF en XML est une étape importante pour les revues souhaitant améliorer leur publication numérique, leur indexation et leur archivage. Cependant, un convertisseur PDF vers XML basique est souvent insuffisant pour l'édition scientifique.
AMS propose une alternative plus complète : un flux de travail éditorial automatisé qui aide les revues à générer des fichiers JATS XML structurés, ainsi que des sorties PDF et HTML, à l’aide de modèles adaptés à chaque revue.
Vous cherchez une meilleure solution pour convertir vos PDF en XML pour votre revue ? AMS aide les revues scientifiques à automatiser la production de fichiers JATS XML et à publier des articles aux formats PDF, HTML et XML grâce à un flux de travail éditorial structuré.
