EXTRACTTEXT
Aperçu
L’application de workflow EXTRACTTEXT extrait le contenu texte d’un fichier en entrée (.pdf, .docx, .txt, .xml, .htm, .html ou md) et retourne le texte extrait ainsi que sa longueur. Elle prend en charge des paramètres optionnels pour la taille maximale du fichier, le découpage et la normalisation du texte (sauts de ligne au format Unix).
Paramètres requis
FILE
FILE
IN
Le fichier à partir duquel extraire le texte (doit être au format .pdf, .docx, .txt, .xml, .htm, .html ou .mx)
TEXT
TEXT
OUT
Le texte extrait (pouvant être normalisé ou découpé)
LENGTH
NUMERIC
OUT
La longueur (nombre de caractères) du texte extrait
Paramètres facultatifs
MAX_FILE_SIZE
NUMERIC
IN
Taille maximale autorisée du fichier, en Mo
TRIM_SIZE
NUMERIC
IN
Nombre maximal de caractères à conserver du texte extrait
NORMALIZE
TEXT
IN
Indique s’il faut normaliser les fins de ligne Valeurs possibles :
YNtruefalse
Types de fichiers supportés
Les documents doivent être fournis dans l’un des formats suivants. Le système valide le format du fichier avant de traiter l’extraction.
.pdf
Portable Document Format
Le texte est extrait de toutes les pages, y compris des champs de formulaire.
Word
.docx
Documents Microsoft Word (Office Open XML)
Le texte est extrait des paragraphes, des tableaux, des en-têtes, des pieds de page et des zones de texte.
Texte brut
.txt
Fichiers texte brut
Le contenu est retourné tel quel.
XML
.xml
Documents XML
Tout le contenu texte des nœuds XML est extrait; les balises d’élément sont supprimées.
Le traitement est sécurisé contre les attaques XXE (XML External Entity).
HTML
.html, .htm
Documents HTML
Le texte lisible est extrait après suppression des éléments
<script>,<style>et<noscript>.Les balises
<br>sont converties en sauts de ligne.Les entités HTML (p. ex.
&,<,©) sont décodées en leurs caractères correspondants.Les espaces blancs sont normalisés.
Markdown
.md
Fichiers Markdown
Le contenu est retourné tel quel, en conservant toute la syntaxe Markdown (titres, liens, mise en forme, etc.). Markdown est lisible par l’humain et bien adapté à la recherche sémantique sans suppression de la syntaxe.
Messages d’erreur
ExtractText: File must be a PDF, DOCX, TXT, XML, HTM, HTML or MD.
L’extension du fichier ne correspond à aucun des types supportés
XML parsing error (e.g. DtdProcessing is set to Prohibit)
Le fichier XML contient une déclaration DTD (bloquée pour des raisons de sécurité)
XML parsing error (e.g. Data at the root level is invalid)
Le fichier XML est mal formé ou n’est pas un XML valide
Last updated