Bienvenue cher visiteur
Veuillez vous inscrire ou vous connecter

  Nom d’utilisateur:   Mot de passe:   
Index  FAQ  Rechercher  Membres  Groupes  Profil  S’enregistrer
 Se connecter pour vérifier ses messages privés
  OCR : Extraire le texte d'une image
Sauter vers:    
  Poster un nouveau sujet   Répondre au sujet medmatiq Index du Forum » Informatique » Software     
Auteur Message
Black-killer
Fidèle
Fidèle

Hors ligne

Inscrit le: 30 Nov 2007
Messages: 4 543
Point(s): 992
Moyenne de points: 0,22
MessagePosté le: Sam 17 Jan - 13:53 (2009) Répondre en citant

Vous avez numérisé un journal ou récupéré l'image d'un article et vous souhaitez pouvoir exploiter le texte que contiennent ces documents. Vous pouvez bien sûr, prendre votre courage à deux mains et recopier tout le texte dans votre traitement de texte habituel. Un travail long et fastidieux.

Pour vous simplifier la tâche, vous pouvez vous tourner vers l'OCR, un procédé informatique de reconnaissance optique des caractères. Le logiciel gratuit FreeOCR peut ainsi récupérer du texte dans l'image d'un texte imprimé, mais également d'une feuille scannée et même d'un document PDF.

Si le résultat nécessite quelques retouches suivant la qualité de votre document original, la plupart des caractères et des mots sont reconnus et vous pouvez récupérer votre texte dans votre traitement de texte, Word ou OpenOffice par exemple. Vous aurez ainsi un document texte que vous pourrez manipuler, retravailler et utiliser à loisir.

Après avoir corrigé les éventuelles erreurs, il ne vous restera plus qu'à remettre en forme le texte, ce qui est tout de même moins contraignant que d'avoir à taper le texte en entier.


 
Vous pouvez télécharger FreeOCR gratuitement depuis la logithèque PC Astuces.
 
  1. Rendez-vous sur la fiche de FreeOCR dans la logithèque PC Astuces.

  2. Cliquez sur le lien Télécharger gratuitement.


  3. Cliquez sur le bouton Enregistrer. Choisissez un dossier où sauvegarder le fichier et cliquez une nouvelle fois sur le bouton Enregistrer.


  4. Une fois le téléchargement terminé, cliquez sur le bouton Ouvrir.


  5. Cliquez sur le lien Extraire tous les fichiers.


  6. L'assistant Extraction de dossiers compressés s'ouvre alors. Cliquez sur le bouton Suivant.


  7. Sélectionnez le dossier où décompresser l'archive et cliquez sur Suivant.


  8. Cliquez enfin sur le bouton Terminer.


  9. Double cliquez sur le fichier freeocr25.exe décompressé.


  10. Cliquez sur le bouton Exécuter.


  11. L'assistant d'installation de FreeOCR s'ouvre alors. Cliquez sur le bouton Next.


  12. Sélectionnez l'option I accept the terms of the license agreement.


  13. Cliquez sur le bouton Install.


  14. Cliquez enfin sur le bouton Finish.


 
 
 

_________________


Publicité





MessagePosté le: Sam 17 Jan - 13:53 (2009)

PublicitéSupprimer les publicités ?
Black-killer
Fidèle
Fidèle

Hors ligne

Inscrit le: 30 Nov 2007
Messages: 4 543
Point(s): 992
Moyenne de points: 0,22
MessagePosté le: Sam 17 Jan - 13:58 (2009) Répondre en citant

Ajouter le dictionnaire français

Reconnaissant par défaut les textes en anglais, vous pouvez facilement ajouter le dictionnaire pour reconnaître les textes en français.

  1. Dans votre navigateur Web, rendez-vous à cette adresse : http://code.google.com/p/tesseract-ocr/downloads/list.


  2. Téléchargez French language data for Tesseract.


  3. Lancez le téléchargement du fichier.


  4. Enregistrez le fichier sur votre disque dur.


  5. Ouvrez le fichier avec WinRAR ou un logiciel équivalent supportant les archives au format TAR.GZ.


  6. Ouvrez le dossier tessdata.


  7. Sélectionnez tous les fichiers de l'archive.


  8. Dans l'explorateur Windows, ouvrez le dossier C:\WINDOWS\tessdata.


  9. Faites alors glisser les fichiers de WinRAR dans le dossier que vous venez d'ouvrir. Le logiciel reconnait alors le texte des documents en français.

Extraire le texte d'une image

Que cela soit à partir d'un document scanné ou d'une brochure, FreeOCR peut reconnaitre le texte présent dans une image.
  1. Lancez FreeOCR en double cliquant sur son icône sur le Bureau.


  2. Cliquez sur le bouton Open.


  3. Sélectionnez sur votre disque dur l'image dont vous souhaitez extraire le texte. Cliquez sur le bouton Ouvrir.


  4. Cliquez sur la croix rouge pour effacer le texte précédemment reconnu.


  5. Déroulez la liste OCR language et sélectionnez l'option fra afin de reconnaître le texte en français.


  6. Cliquez sur le bouton OCR. Le logiciel analyse alors votre image.


  7. Le résultat est affiché dans le cadre droit de la fenêtre.


  8. Vous pouvez alors copier le texte reconnu dans le logiciel (Word par exemple) de votre choix ou l'enregistrer dans un fichier texte en utilisant les contrôles au centre de la fenêtre.


  9. Vous pouvez ensuite corriger les éventuelles erreurs dans votre traitement de texte.


f">Extraire un paragraphe
Pour n'extraire le texte que d'une partie de l'image, sélectionnez-la dans le cadre gauche de la fenêtre, à partir de l'aperçu de l'image originale. Vous pourrez ainsi délimiter précisément le texte à extraire et exclure les éléments perturbateurs (bordures, images, …).  

Etape suivante : Extraire le texte d'un PDF

_________________


Black-killer
Fidèle
Fidèle

Hors ligne

Inscrit le: 30 Nov 2007
Messages: 4 543
Point(s): 992
Moyenne de points: 0,22
MessagePosté le: Sam 17 Jan - 14:02 (2009) Répondre en citant

Extraire le texte d'un PDF

Vous avez récupéré un document PDF. FreeOCR peut vous aider à extraire le texte de ce document pour pouvoir le retravailler dans votre traitement de texte habituel.

  1. Lancez FreeOCR en double cliquant sur son icône sur le Bureau.


  2. Cliquez sur le bouton Open PDF.


  3. Sélectionnez sur votre disque dur le document PDF dont vous souhaitez extraire le texte. Cliquez sur le bouton Ouvrir.


  4. Cliquez sur la croix rouge pour effacer le texte précédemment reconnu.


  5. Vérifiez que la langue française est bien sélectionnée.


  6. Sélectionnez le passage à examiner. Vous pouvez utiliser les flèches pour passer d'une page à une autre du document PDF.


  7. Cliquez sur le bouton OCR.


  8. Le résultat est affiché dans le cadre droit de la fenêtre. Vous pouvez alors copier le texte reconnu dans le logiciel (Word par exemple) de votre choix ou l'enregistrer dans un fichier texte en utilisant les contrôles au centre de la fenêtre.


  9. Vous pouvez ensuite corriger les éventuelles erreurs dans votre traitement de texte.


Etape suivante : Extraire le texte d'un document à scannerExtraire le texte d'un document à scanner

Pour reconnaitre le texte d'un document papier, vous pouvez le scanner sous la forme d'une image puis l'importer ensuite dans FreeOCR. Vous pouvez également laisser FreeOCR le numériser pour vous.
  1. Lancez FreeOCR en double cliquant sur son icône sur le Bureau.


  2. Cliquez sur le bouton Scan.


  3. Sélectionnez votre scanner dans la liste et cliquez sur le bouton Sélectionner.


  4. Numérisez, comme vous le faite habituellement votre document.


  5. Une fois scanné, le document est importé dans FreeOCR.


  6. Cliquez sur la croix rouge pour effacer le texte précédemment reconnu.


  7. Vérifiez que la langue française est bien sélectionnée.


  8. Sélectionnez le passage à examiner puis cliquez sur le bouton OCR pour lancer la reconnaissance.


  9. Le résultat est affiché dans le cadre droit de la fenêtre. Vous pouvez alors copier le texte reconnu dans le logiciel (Word par exemple) de votre choix ou l'enregistrer dans un fichier texte en utilisant les contrôles au centre de la fenêtre.


  10. Vous pouvez ensuite corriger les éventuelles erreurs dans votre traitement de texte.


Etape suivante : Améliorer la pertinence de la reconnaissanceAméliorer la pertinence de la reconnaissance

Vous avez sans doute remarqué que des erreurs viennent souvent se glisser dans les reconnaissances de FreeOCR. Suivez ces conseils pour limiter les erreurs et améliorer la reconnaissance des caractères.
  • Numérisez vos documents en noir et blanc, dans une précision entre 200 et 300 dpi.
  • Faites pivoter vos images afin que le texte soit horizontal.
  • Sélectionnez la partie à extraire en excluant tout ce qui n'a aucun rapport avec du texte : les bordures, les images, ...
  • N'hésitez pas à travailler sur plusieurs petites parties : d'abord le titre, un paragraphe, un second, etc.
  • Si un texte se trouve sur plusieurs colonnes, travailler sur chaque colonne, en les sélectionnant les unes après les autres.
  • La commande Adjust image constrast du menu OCR vous permet d'augmenter le contraste afin de faire ressortir le texte. N'hésitez pas à l'utiliser sur les images au texte clair.
f">Récupérer une image
Notez que vous pouvez récupérer une image dans un article en la sélectionnant dans le cadre gauche de la fenêtre et en cliquant dessus avec le bouton droit de la souris. Sélectionnez alors la commande Copy selection to clipboard puis collez l'image dans votre traitement de texte.

_________________


Contenu Sponsorisé





MessagePosté le: Aujourd’hui à 17:55 (2016)

Montrer les messages depuis:   
  Poster un nouveau sujet   Répondre au sujet medmatiq Index du Forum » Informatique » Software     

    

  
 

Portail | Index | creer un forum | Forum gratuit d’entraide | Annuaire des forums gratuits | Signaler une violation | Conditions générales d'utilisation



Medmatiq © 2007
Forums amis : MedMar- carrefour-dentaire
skin developed by: John Olson
Powered by phpBB © 2001, 2005 phpBB Group
Traduction par : phpBB-fr.com