> For the complete documentation index, see [llms.txt](https://docs.workflowgen.com/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.workflowgen.com/admin-fr/applications-de-workflow/extracttext.md). # EXTRACTTEXT ## Aperçu L’application de workflow **EXTRACTTEXT** extrait le contenu texte d’un fichier en entrée (`.pdf`, `.docx`, `.txt, .xml`, `.htm`, `.html` ou `md`) et retourne le texte extrait ainsi que sa longueur. Elle prend en charge des paramètres optionnels pour la taille maximale du fichier, le découpage et la normalisation du texte (sauts de ligne au format Unix). ## Paramètres requis

Paramètre	Type	Direction	Description
`FILE`	FILE	IN	Le fichier à partir duquel extraire le texte (doit être au format `.pdf`, `.docx`, `.txt`, `.xml, .htm`, `.html` ou `.mx`)
`TEXT`	TEXT	OUT	Le texte extrait (pouvant être normalisé ou découpé)
`LENGTH`	NUMERIC	OUT	La longueur (nombre de caractères) du texte extrait

## Paramètres facultatifs

Paramètre Type Direction Description

MAX_FILE_SIZE NUMERIC IN Taille maximale autorisée du fichier, en Mo

TRIM_SIZE NUMERIC IN Nombre maximal de caractères à conserver du texte extrait

Paramètre	Type	Direction	Description
`MAX_FILE_SIZE`	NUMERIC	IN	Taille maximale autorisée du fichier, en Mo
`TRIM_SIZE`	NUMERIC	IN	Nombre maximal de caractères à conserver du texte extrait
`NORMALIZE`	TEXT	IN	Indique s’il faut normaliser les fins de ligne Valeurs possibles : `Y` `N` `true` `false`

NORMALIZE

TEXT

Indique s’il faut normaliser les fins de ligne
Valeurs possibles :

Y
N
true
false

## Types de fichiers supportés Les documents doivent être fournis dans l’un des formats suivants. Le système valide le format du fichier avant de traiter l’extraction.

Format	Extension	Description
PDF	`.pdf`	Portable Document Format Le texte est extrait de toutes les pages, y compris des champs de formulaire.
Word	`.docx`	Documents Microsoft Word (Office Open XML) Le texte est extrait des paragraphes, des tableaux, des en-têtes, des pieds de page et des zones de texte.
Texte brut	`.txt`	Fichiers texte brut Le contenu est retourné tel quel.
XML	`.xml`	Documents XML Tout le contenu texte des nœuds XML est extrait; les balises d’élément sont supprimées. Le traitement est sécurisé contre les attaques XXE (XML External Entity).
HTML	`.html`, `.htm`	Documents HTML Le texte lisible est extrait après suppression des éléments `<script>`, `<style>` et `<noscript>`. Les balises `<br>` sont converties en sauts de ligne. Les entités HTML (p. ex. `&`, `<`, `©`) sont décodées en leurs caractères correspondants. Les espaces blancs sont normalisés.
Markdown	`.md`	Fichiers Markdown Le contenu est retourné tel quel, en conservant toute la syntaxe Markdown (titres, liens, mise en forme, etc.). Markdown est lisible par l’humain et bien adapté à la recherche sémantique sans suppression de la syntaxe.

## Messages d’erreur

Message d’erreur	Cause
`ExtractText: File must be a PDF, DOCX, TXT, XML, HTM, HTML or MD.`	L’extension du fichier ne correspond à aucun des types supportés
XML parsing error (e.g. `DtdProcessing is set to Prohibit`)	Le fichier XML contient une déclaration DTD (bloquée pour des raisons de sécurité)
XML parsing error (e.g. `Data at the root level is invalid`)	Le fichier XML est mal formé ou n’est pas un XML valide

--- # Agent Instructions This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com. ## Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter: ``` GET https://docs.workflowgen.com/admin-fr/applications-de-workflow/extracttext.md?ask=&goal= ``` `ask` is the immediate question: it should be specific, self-contained, and written in natural language. `goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.