EXTRACTTEXT

Aperçu

L’application de workflow EXTRACTTEXT extrait le contenu texte d’un fichier en entrée (.pdf, .docx, .txt, .xml, .htm, .html ou md) et retourne le texte extrait ainsi que sa longueur. Elle prend en charge des paramètres optionnels pour la taille maximale du fichier, le découpage et la normalisation du texte (sauts de ligne au format Unix).

Paramètres requis

Paramètre
Type
Direction
Description

FILE

FILE

IN

Le fichier à partir duquel extraire le texte (doit être au format .pdf, .docx, .txt, .xml, .htm, .html ou .mx)

TEXT

TEXT

OUT

Le texte extrait (pouvant être normalisé ou découpé)

LENGTH

NUMERIC

OUT

La longueur (nombre de caractères) du texte extrait

Paramètres facultatifs

Paramètre
Type
Direction
Description

MAX_FILE_SIZE

NUMERIC

IN

Taille maximale autorisée du fichier, en Mo

TRIM_SIZE

NUMERIC

IN

Nombre maximal de caractères à conserver du texte extrait

NORMALIZE

TEXT

IN

Indique s’il faut normaliser les fins de ligne Valeurs possibles :

  • Y

  • N

  • true

  • false

Types de fichiers supportés

Les documents doivent être fournis dans l’un des formats suivants. Le système valide le format du fichier avant de traiter l’extraction.

Format
Extension
Description

PDF

.pdf

Portable Document Format

Le texte est extrait de toutes les pages, y compris des champs de formulaire.

Word

.docx

Documents Microsoft Word (Office Open XML)

Le texte est extrait des paragraphes, des tableaux, des en-têtes, des pieds de page et des zones de texte.

Texte brut

.txt

Fichiers texte brut

Le contenu est retourné tel quel.

XML

.xml

Documents XML

  • Tout le contenu texte des nœuds XML est extrait; les balises d’élément sont supprimées.

  • Le traitement est sécurisé contre les attaques XXE (XML External Entity).

HTML

.html, .htm

Documents HTML

  • Le texte lisible est extrait après suppression des éléments <script>, <style> et <noscript>.

  • Les balises <br> sont converties en sauts de ligne.

  • Les entités HTML (p. ex. &amp;, &lt;, &#169;) sont décodées en leurs caractères correspondants.

  • Les espaces blancs sont normalisés.

Markdown

.md

Fichiers Markdown

Le contenu est retourné tel quel, en conservant toute la syntaxe Markdown (titres, liens, mise en forme, etc.). Markdown est lisible par l’humain et bien adapté à la recherche sémantique sans suppression de la syntaxe.

Messages d’erreur

Message d’erreur
Cause

ExtractText: File must be a PDF, DOCX, TXT, XML, HTM, HTML or MD.

L’extension du fichier ne correspond à aucun des types supportés

XML parsing error (e.g. DtdProcessing is set to Prohibit)

Le fichier XML contient une déclaration DTD (bloquée pour des raisons de sécurité)

XML parsing error (e.g. Data at the root level is invalid)

Le fichier XML est mal formé ou n’est pas un XML valide

Last updated