Les formats
Les fichiers

Pour continuer à convaincre les lectrices et les lecteurs de ce manuel, si c’est encore nécessaire, il faut se pencher sur les formats d’enregistrement des différents logiciels.
Les traitements de texte, posent de nombreux problèmes à la fois de lisibilité mais aussi de durabilité.
Le petit texte ci-dessus est un exemple créé avec LibreOffice (avec deux niveaux de titres, de l’italique, du gras et une liste simple). Les différentes “versions” présentées ci-dessous parlent d’elles-mêmes.
RTF
Dans le format rtf (Rich Text Format, le format d’échange entre logiciels de traitement de texte) exporté depuis le traitement le texte (ici LibreOffice), ouvert avec un simple éditeur, voici ce que contient le fichier.
NB : pour éviter de présenter une page trop longue, il n’y a ici qu’un extrait du fichier (qui fait 75 lignes).
{\rtf1\ansi\deff4\adeflang1025
{\fonttbl{\f0\froman\fprq2\fcharset0 Times New Roman;}{\f1\froman\fprq2\
fcharset2 Symbol;}{\f2\fswiss\fprq2\fcharset0 Arial;}{\f3\froman\fprq2\
fcharset0 Liberation Serif{\*\falt Times New Roman};}{\f4\froman\fprq2\
fcharset0 Times New Roman;}{\f5\fswiss\fprq2\fcharset0 Arial;}{\f6\fnil\
fprq0\fcharset0 StarSymbol{\*\falt Arial Unicode MS};}{\f7\fmodern\fprq1\
fcharset0 Courier New;}{\f8\fnil\fprq2\fcharset0 Lucida Sans Unicode;}{\f9\
fnil\fprq0\fcharset0 Tahoma;}{\f10\fnil\fprq2\fcharset0 Tahoma;}}
{\colortbl;\red0\green0\blue0;\red0\green0\blue255;\red0\green255\
blue255;\red0\green255\blue0;\red255\green0\blue255;\red255\green0\
blue0;\red255\green255\blue0;\red255\green255\blue255;\red0\green0\
blue128;\red0\green128\blue128;\red0\green128\blue0;\red128\green0\
blue128;\red128\green0\blue0;\red128\green128\blue0;\red128\green128\
blue128;\red192\green192\blue192;}
.......
Aliquam quis auctor nisi. In consequat mattis erat, ut luctus felis. Sed
convallis turpis lorem, in placerat eros mattis at. Vestibulum varius com-
modo turpis in placerat. Cras id odio lectus. Donec facilisis magna ac lacus
placerat, eu posuere neque aliquet. In ut auctor tortor, sit amet placerat
magna. Liste\~:}
HTML
Avec le format HTML, on a un format “texte” (balisé). En important le fichier dans un simple éditeur, on voit que le contenu est plus lisible mais il n’y a pas de traitement sémantique de la structure. Le titre de niveau 1 est mis en évidence par des codes de mise en page (span style=“font-size: x-large;” et strong). Ce code aurait du être : <h1>Titre niveau 1</h1>.
Cette structuration est seulement visuelle et aucun système informatique ne sera capable d’identifier ces titres comme des titres.
Dans un traitement de texte il est bien évidemment possible d’utiliser des styles liés aux titres et à leur niveau mais, non seulement peu d’auteurs utilisent cette possibilité, mais également ces styles sont propres aux logiciels utilisés.
<html>
<head>
<meta charset=’UTF-8'><meta name=’viewport’ content=’width=device-width
initial-scale=1'>
<title>lorem</title>
</head>
<body>
<span style=“font-size: x-large;”><strong> Titre niveau 1</strong></span>
<span style=“font-size: large;”> Titre niveau 2</span>
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Morbi est
urna, sodales vitae maximus et, feugiat vel ipsum.</p>
<p><i>Proin ut pulvinar turpis. Aliquam nec purus arcu. Cras accumsan
imperdiet
finibus.</i></p>
<p><strong>Etiam at velit bibendum, suscipit quam in, porttitor ligula.
</strong></p><p>Aliquam nunc nunc, commodo sed sapien non, ornare
volutpat ex. Mauris sed dui et augue tincidunt tempor ac pulvinar massa.
Cras vulputate elit a molestie tincidunt.
Sed vitae fringilla elit, sed facilisis ipsum. Duis semper sapien quam,
a interdum purus posuere eget. Quisque hendrerit, massa sit amet
interdum porttitor, elit lacus tempor sapien, ut sagittis sapien eros
nec sem. Curabitur convallis interdum turpis.</p>
<span style=“font-size: large;”>Titre niveau 2</span>
<p>Aliquam quis auctor nisi. In consequat mattis erat, ut luctus felis.
Sed convallis turpis lorem, in placerat eros mattis at. Vestibulum varius
commodo turpis in placerat.
Cras id odio lectus. Donec facilisis magna ac lacus placerat, eu posuere
neque aliquet. In ut auctor tortor, sit amet placerat magna. Liste :</p>
<ul>
<li>Pellentesque cursus urna id risus faucibus volutpat ;</li>
<li>Sed quis tellus turpis. Nullam tempor, nibh id venenatis bibendum,
ante ipsum ultrices nunc, ac lobortis libero leo consectetur libero ;</li>
<li>Curabitur ut dictum ipsum.</li>
</ul>
</body>
</html>
Markdown
Avec un fichier “texte” balisé avec Markdown, les différents éléments du texte sont identifiables et un système informatique sera capable d’identifier les titres, les éléments de mise en forme ou les listes.
Non seulement ce texte est lisible par un système informatique mais il est aussi lisible et compréhensible par tout le monde. Le code (standardisé) est léger et facile à partager.
# Titre niveau 1
## Titre niveau 2
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Morbi est urna,
sodales vitae maximus et, feugiat vel ipsum.
*Proin ut pulvinar turpis. Aliquam nec purus arcu. Cras accumsan
imperdiet finibus.*
**Etiam at velit bibendum, suscipit quam in, porttitor ligula.**
Aliquam nunc nunc, commodo sed sapien non, ornare volutpat ex. Mauris
sed dui et augue tincidunt tempor ac pulvinar massa. Cras vulputate
elit a molestie tincidunt. Sed vitae fringilla elit, sed facilisis
ipsum. Duis semper sapien quam, a interdum purus posuere eget.
Quisque hendrerit, massa sit amet interdum porttitor, elit lacus
tempor sapien, ut sagittis sapien eros nec sem. Curabitur convallis
interdum turpis.
## Titre niveau 2
Aliquam quis auctor nisi. In consequat mattis erat, ut luctus felis.
Sed convallis turpis lorem, in placerat eros mattis at. Vestibulum
varius commodo turpis in placerat. Cras id odio lectus. Donec
facilisis magna ac lacus placerat, eu posuere neque aliquet. In ut auctor
tortor, sit amet placerat magna.
Liste :
– Pellentesque cursus urna id risus faucibus volutpat ;
– Sed quis tellus turpis. Nullam tempor, nibh id venenatis bibendum,
ante ipsum ultrices nunc, ac lobortis libero leo consectetur libero ;
– Curabitur ut dictum ipsum.
Taille des fichiers
La taille des fichiers est aussi un aspect intéressant à observer. Pour le court extrait présenté ci-dessus, voici ce que cela donne :

Les fichiers Markdown et html sont des fichiers au format texte avec balisage simple. Ils sont les plus légers.
Les fichiers bureautiques (.odt, .docx et .rtf) sont eux presque dix fois plus “lourds”.
Le document final au format pdf est particulièrement volumineux.
Dans le cas de documents plus longs, indépendamment de leur complexité, cette différence est loin d’être négligeable en termes de stockage et de transmission.
Le format texte
Lorsque l’on parle de format texte, on parle traditionnellement de fichiers avec l’extension .txt (voir le site Plain Text Project[1] à propos de ce format). Ils contiennent une suite de caractères alphanumériques et de signes de typographiques et sont lisibles avec un simple éditeur.
Balisages
Aucun balisage
Le format sans balisage est essentiellement utilisé pour prendre des notes.
Balisage léger
Un fichier texte peut contenir un balisage léger qui ne perturbe que peu la lecture. Ci-dessous, les trois principaux langages de balisage léger. La troisième colonne montre l’exemple du balisage utilisé pour mettre du texte en italique.
langage | création | exemple | formats des documents créés |
---|---|---|---|
TeX/LaTeX[2] | 1983 | \emph{texte} | |
HTML | 1993 | <em>texte</em> | pages Web |
Markdown | 2004 | *texte* | tous types (avec Pandoc par exemple) |
Le format texte, avec balisage léger[3], en plus d’être facilement lisible, permet :
- de séparer l’écriture et la mise en forme ;
- d’exporter son texte dans n’importe quel format (avec Pandoc par exemple) ;
- de faciliter le partage ;
- de l’éditer avec n’importe quel outil et sur n’importe quelle plateforme (Windows, Mac, Linux…) ;
- d’avoir une garantie de pérennité ;
- de travailler hors ligne.
Avec le format texte on peut aussi envisager une orientation WYSIWYM (What You See Is What You Mind[4]).
Balisage plus lourd
Pour mémoire, le langage de balisage XML, créé en 1999, structure les fichiers rss, xsl, docbook, tei, json, jats, bits… dont certains sont utilisés quotidiennement.
Bien que lisibles avec un simple éditeur, le balisage des fichiers XML est plus complexe, avec une syntaxe très stricte.
Notez que le code source des logiciels (s’ils sont libres, Open Source, ils sont accessibles) repose aussi sur du format texte. Il contient une série d’instructions, de commentaires, de variables, qui sont lisibles avec un éditeur et compréhensibles par un logiciel qui va interpréter son contenu pour le transformer en programme.
LaTeX, séparer fond et forme
LaTeX, le langage de balisage léger le plus ancien, résout le problème du codage et de la structure. Plusieurs logiciels libres permettent d’éditer des fichiers LaTeX (le plus connu et le plus simple d’utilisation est TexEdit). Il sépare le fond et la forme et vous donne le contrôle total sur votre texte.
C’est le logiciel qui se charge de la mise en page finale en fonction de vos instructions (Pierre, 2017). Il est cependant difficile à maîtriser. Il est surtout adopté par certaines professions (ingénieurs, mathématiciens ou informaticiens) mais pas uniquement, voir par exemple le guide de Rouquette (2012) pour les Sciences humaines.

Écriture sans distraction
Pour se concentrer sur la rédaction, il faut nécessairement faire référence au point de départ, à l’écriture avec une feuille papier et un crayon, sans distraction. LaTeX, avec son codage particulier, n’est pas un modèle d’écriture sans distraction.
Une solution moins complexe est assurément l’utilisation du format Markdown (qui fait l’objet de ce manuel et qui a par ailleurs été utilisé pour le créer). C’est un langage de balisage particulièrement léger, simple à lire, à écrire et à mémoriser.
L’utilisation de Markdown avec n’importe quel logiciel d’édition (spécialisé ou non) permet aux auteurs de se concentrer sur la rédaction sans se préoccuper de la mise en page finale du document (Dehut, 2018).

Avec ses évolutions, en utilisant les extensions Pandoc (Bonjour, 2014), Markdown n’a plus grand chose à envier à LaTeX que Pandoc va utiliser pour transformer les fichiers Markdown en documents pdf paginé.
- https://plaintextproject.online/index.html. Ce site n’est plus mis à jour depuis 2022 mais reste une référence sur le sujet.. ↵
- TeX est axé sur la mise en forme, il est à la fois programme et format, tandis que LaTeX est axé sur le contenu. Dans la suite, LaTeX désignera l’ensemble. ↵
- Il existe d’autres formats avec balisage léger. Les plus régulièrement cités sont : asciidoc, Setext, atx, Textile, reStructuredText, Grutatext et EtText. ↵
- voir : https://economicsfromthetopdown.com/2020/12/10/why-and-how-i-write-scientific-documents-in-plain-text/". ↵