
Si vous avez besoin d’outils de ligne de commande pour extraire le texte à partir de fichiers Word, Antiword (fichiers .doc) et docx2txt (.docx) sont des programmes utiles.
Dans ce tutoriel, nous allons examiner ces quatre applications et leur utilisation. Nous allons les installer sur plusieurs des distributions Linux les plus populaires, notamment Debian, Ubuntu, Fedora, OpenSUSE, CentOS et Arch Linux. Nous vous aiderons également à installer les polices Microsoft TrueType principales sur votre système Linux.
LibreOffice est une suite de productivité bureautique gratuite, à code source ouvert, à maintenance active et régulièrement mise à jour, compatible avec les applications Microsoft Office, y compris Microsoft Word. Vous pouvez enregistrer vos documents LibreOffice Writer au format .doc ou .docx, puis s’ouvre correctement dans Microsoft Word.

Installer LibreOffice
LibreOffice peut être installé en utilisant votre gestionnaire de paquets. Pour l'installer, ouvrez un terminal et utilisez la commande suivante adaptée à votre système d'exploitation:
Debian 8, Ubuntu 15
sudo apt-get update && sudo apt-get install libreoffice
Fedora 23
sudo dnf update && sudo dnf installer libreoffice
OpenSUSE 10
sudo zypper refresh && sudo zypper installer libreoffice
CentOS 7
sudo yum update && sudo yum installer libreoffice
Arch Linux 2016
sudo pacman -Sy libreoffice-fresh
Une fois LibreOffice installé, il devrait apparaître dans le menu Applications de votre interface graphique. Vous pouvez également l'exécuter depuis un terminal avec la commande:
libreoffice
AbiWord
AbiWord est un autre traitement de texte gratuit et à code source ouvert. Il a une interface simple et propre et est en développement depuis près de vingt ans. Comme LibreOffice, il peut ouvrir, éditer et enregistrer des fichiers Microsoft Word .doc et .docx. Contrairement à LibreOffice, Abiword n’est pas une suite bureautique complète. Par conséquent, son encombrement et sa consommation en ressources système sont moindres.

Installation d'AbiWord
Debian 8, Ubuntu 15
sudo apt-get upgrade && sudo apt-get install abiword
Fedora 23
sudo dnf update && sudo dnf installer abiword
OpenSUSE 10
sudo zypper refresh && sudo zypper installer abiword
CentOS 7
sudo yum update && sudo yum installer abiword
Arch Linux 2016
pacman -Sy abiword
Anti-mot
Antiword est un outil de ligne de commande permettant de convertir le contenu d'un fichier .doc en texte brut.
Remarque: Antiword ne convertit que les fichiers .doc. Si vous devez convertir un fichier .docx, voir docx2txt dans la section suivante.
Utiliser Antiword
L'exécution de antiword avec le nom d'un fichier Word .doc générera le texte brut du fichier sur la sortie standard.

Antiword fait un excellent travail de formatage des tableaux. Il propose également des options pour inclure des images en tant qu'objets PostScript et les exporter en PDF.
Vous pouvez rediriger la sortie vers un fichier texte:
antiword fichier.doc> fichier.txt
ou, si vous voulez l'ouvrir directement dans un éditeur de texte, vous pouvez diriger le texte vers vim:
antiword fichier.doc | vim -
ou pico:
antiword fichier.doc | pico -
Installation d'anti-mot
Debian 8, Ubuntu 15
sudo apt-get update && sudo apt-get install antiword
Fedora 23
sudo dnf update && sudo dnf installer antiword
OpenSUSE 10
sudo zypper actualiser && sudo zypper installer antiword
CentOS 7
sudo yum update && sudo yum installer antiword
Docx2txt
sudo pacman -Sy antiword
Docx2txt est un outil de ligne de commande qui convertit les fichiers .docx en texte brut. (Il ne convertit pas les fichiers .doc.)
Pour imprimer le contenu d'un fichier .docx sur l'écran du terminal ou rediriger la sortie vers un fichier, appelez docx2txt et spécifiez un tiret comme nom de fichier de sortie. Dans cet exemple, notez le tiret à la fin de la commande:

Pour convertir un fichier .docx et la sortie en un fichier texte, utilisez la commande suivante:
docx2txt fichier.docx fichier.txt
ou:
docx2txt fichier.docx -> fichier.txt
Pour ouvrir le texte .docx dans vim, utilisez le formulaire de commande:
docx2txt fichier.docx - | vim -
Pour l'ouvrir en nano:
docx2txt fichier.docx - | nano -
Pour installer doc2txt, suivez les instructions pour votre version de Linux ci-dessous:
Debian 8
sudo apt-get update && sudo apt-get install docx2txt
Ubuntu 15
sudo apt-get update && sudo apt-get install docx2txt
Fedora 23
Les référentiels de Fedora n'offrent pas de paquet pour docx2txt, mais vous pouvez l'installer manuellement:
Téléchargez le code source à partir de SourceForge à l’adresse //sourceforge.net/projects/docx2txt/. Extraire l'archive:
tar xzvf docx2txt-1.4.tgz
Vous devez vous assurer que perl, unzip et make sont installés sur votre système. Installez ou mettez à niveau ces paquetages dès maintenant:
sudo dnf update && sudo dnf installer perl unzip make
Ensuite, lancez make en tant qu'utilisateur root à installer:
sudo faire
Docx2txt est maintenant installé en tant que docx2txt.sh . Par exemple, pour convertir le fichier word-document.docx en fichier texte, vous pouvez exécuter:
docx2txt.sh word-document.docx
Le fichier texte converti sera automatiquement enregistré en tant que word-document.txt .
OpenSUSE 10
Les référentiels SUSE n'offrent pas de package pour docx2txt, mais vous pouvez le télécharger à partir de SourceForge à l'adresse //sourceforge.net/projects/docx2txt/. Extraire l'archive:
tar xzvf docx2txt-1.4.tgz
Vous devez vous assurer que perl, unzip et make sont installés sur votre système. Installez ou mettez à niveau ces paquetages dès maintenant:
sudo zypper update && sudo zypper installer perl unzip make
Ensuite, lancez make en tant que root pour installer:
sudo faire
Docx2txt est maintenant installé en tant que docx2txt.sh . Par exemple, pour convertir le fichier word-document.docx en fichier texte, vous pouvez exécuter:
docx2txt.sh word-document.docx
Le fichier texte converti sera automatiquement enregistré en tant que word-document.txt .
CentOS 7
Les référentiels CentOS ne proposent pas de paquet pour docx2txt, mais vous pouvez le télécharger à partir de SourceForge à l'adresse //sourceforge.net/projects/docx2txt/. Extraire l'archive:
tar xzvf docx2txt-1.4.tgz
Vous devez vous assurer que perl, unzip et make sont installés sur votre système. Installez ou mettez à niveau ces paquetages dès maintenant:
sudo yum update && sudo yum installer perl unzip make
Ensuite, lancez make en tant que root pour installer:
sudo faire
Docx2txt est maintenant installé en tant que docx2txt.sh . Par exemple, pour convertir le fichier word-document.docx en fichier texte, vous pouvez exécuter:
docx2txt.sh word-document.docx
Le fichier texte converti sera automatiquement enregistré en tant que word-document.txt .
Arch Linux 2016
sudo pacman -Sy docx2txt
Installation de polices compatibles avec Microsoft
Les polices Microsoft de base sont disponibles sous Linux et vous devez les installer si vous envisagez de travailler avec des fichiers Microsoft Word, en particulier s'ils ont été créés sur un système Windows. Les polices de base incluent:
- Andale Mono
- Arial
- Noir arial
- Calabri
- Cambria
- Bande dessinée
- Courrier
- Impact
- Fois
- Trébuchet
- Verdana
- Webdings
Pour les installer, procédez comme suit:
Debian 8, Ubuntu 15
sudo apt-get update && sudo apt-get install ttf-mscorefonts-installer
Fedora 23
Téléchargez le package RPM du programme d'installation msttcore à partir de SourceForge.
Installez les packages requis pour l'installation:
sudo dnf update && sudo dnf installer curl cabextract xorg-x11-font-utils fontconfig
Ensuite, installez le paquet RPM local:
sudo dnf installer msttcore-fonts-installer-2.6-1.noarch.rpm
OpenSUSE 10
Téléchargez le package RPM du programme d'installation msttcore à partir de SourceForge.
Installez les packages requis pour l'installation:
sudo zypper update && sudo zypper installer curl cabextract xorg-x11-font-utils fontconfig
Ensuite, installez le paquet RPM local:
sudo zypper install msttcore-fonts-installer-2.6-1.noarch.rpm
CentOS 7
Téléchargez le package RPM du programme d'installation msttcore à partir de SourceForge.
Installez les packages requis pour l'installation:
sudo yum update && sudo yum installer curl cabextract xorg-x11-font-utils fontconfig
Ensuite, installez le paquet RPM local:
sudo yum installez msttcore-fonts-installer-2.6-1.noarch.rpm
Arch Linux 2016
Téléchargez le package RPM du programme d'installation msttcore à partir de SourceForge.
Installez les packages requis pour l'installation:
pacman -Sy rpmextract x11-font-utils fontconfig
Extrayez le contenu du package RPM local:
rpmextract.sh msttcore-fonts-installer-2.6-1.noarch.rpm
Cette commande extrait le contenu brut du fichier RPM et crée deux répertoires, etc et usr, qui correspondent à vos répertoires / etc et / usr . Les fichiers de polices eux-mêmes sont situés dans usr / share / fonts / msttcore .