Affichage d’images en haute résolution avec OpenSeadragon

« Pour voir loin, il faut y regarder de près » Pierre Dac

OpenSeadragon est une bibliothèque javascript Open Source (Licence BSD) qui facilite la visualisation des détails d’une image haute résolution dans un navigateur en permettant de facilement zoomer et dézoomer sur une zone, avec la souris, avec les doigts (écran tactile), ou bien en cliquant sur un ensemble de boutons dédiés.On passe alors facilement d’une vue générale à l’exploration des détails, de manière simple, fluide, sans latence. Le temps de chargement d’une image lourde devient réduit et la bande passante est ainsi économisée.

De multiples options permettent de finement configurer OpenSeadragon et de l’adapter à différents besoins. Il est notablement possible de visualiser des diaporamas d’images zoomables, de créer des sur-couches mettant en évidence des zones particulières, de comparer sur le même écran deux images haute résolution différentes. Les bibliothèques, les musées et les archives sont les principaux utilisateurs de cette bibliothèque javascript qui sert souvent à afficher des cartes, des manuscrits anciens, des photographies, des œuvres d’art numérisées. Basée sur OpenSeadragon, la visionneuse Mirador (Stanford, Harvard) se distingue. Elle permet par exemple de visualiser simultanément deux images, de naviguer dans des ensembles d’images par l’intermédiaire de vignettes, pour consulter un livre ancien par exemple. Mirador est testé actuellement par Biblissima (Campus Condorcet) qui propose une démonstration intéressante pour les amateurs d’archives et de documents anciens.

La fabrication et l’affichage des images avec OpenSeadragon se fait en deux étapes :

  1. Création d’images zoomables : L’image haute résolution d’origine est transformée automatiquement en une série d’images de petites dimensions appelées « tuiles » (tile en anglais), de forme carrée et localisées dans une arborescence spéciale. Cette transformation peut être faite de manière programmée (C++, PHP, Python, PERL, .NET, Node.js) ou bien à l’aide de logiciels de bureautique libres tels que Deep Zoom Composer (Microsoft) ou bien MapTiler (Klokan Technologies). OpenSeadragon accepte les formats de tuiles DZI et TMS.
  2. Affichage de l’image dans le navigateur : la bibliothèque javascript permet l’affichage des images ainsi créées et ajoute les boutons qui permettent le zoom, le déplacement et le passage plein écran de l’image.

Quelques liens

Démos :

Quelques sites et pages :

Tutoriel

Voici un rapide tutoriel qui va vous permettre de tester OpenSeadragon et de réaliser vous-même des images zoomables. Vous disposez d’un serveur local et d’un PC sous windows (c’est un peu ringard mais ça marche et c’est ce que j’ai souvent sous la main !).

  1. Téléchargez la version zip d’OpenSeadragon ici.
  2. Dézippez le fichier.
  3. Copiez le répertoire « openseadragon-bin-2.0.0 » sur le répertoire du serveur local en le renommant « openseadragon ».
  4. Convertissez votre image haute résolution. Téléchargez Deep Zoom Composer.
  5. Installez Deep Zoom Composer et ouvrez un nouveau projet avec « New Project ».
  6. En haut à droite, ajoutez une image avec « Add Image ».

    dzc-import

    Appuyer sur Import

  7. Cliquez en haut sur « Compose » et glissez l’icone de votre image en bas à gauche dans le panneau du milieu. Peu importe où.

    Appuyez sur Compose

    Appuyez sur Compose

  8. Cliquez en haut sur « Export », entrez à droite le nom du répertoire d’export dans « Name » et le lieu dans « Location » (le répertoire du serveur). Sélectionnez « Export as a composition (single image) ».

    Appuyez sur Export

    Appuyez sur Export

  9. Cliquez sur « Export » en bas à droite.
  10. Cliquez sur « View Image Folder » pour bien repérer la localisation du fichier « dzc_output.xml » à paramétrer dans le code sous le nom « tileSources ».
  11. Le répertoire « dzc_output_files » contient l’image convertie.
  12. Adaptez et insérez le code dans votre page HTML, visualisez dans votre navigateur favori et voilà.

openseadragon

Une version de Virgile imprimée en 1561 et annotée (bibliothèque d'Harvard), visible avec OpenSeadragon

Une version de Virgile imprimée en 1561 et annotée (bibliothèque d’Harvard), visible avec OpenSeadragon/Mirador, Biblissima (Campus Condorcet)

Conclusion

OpenSeadragon est une bibliothèque javascript libre développée et maintenue par Ian Gilman et utilisée entre autres par des organismes du type université, bibliothèque nationale, laboratoire de recherche. Il est tout à fait possible d’envisager l’usage de cette fort intéressante bibliothèque javascript dans une multitude de domaines scientifiques, non seulement en humanités numériques, mais encore en archéologie, agronomie, études sur l’environnement, médecine et biologie (microscopie), physique, astronomie qui exploitent des images en haute résolution. Des services dans le cloud pourraient être créés, susceptibles de faciliter la gestion d’images de ce type, analogue au maintenant disparu Zoom.it de Microsoft. Des modules DZI/OpenSeadragon existent déjà, permettant d’augmenter les possibilités des grands gestionnaires de contenus libres que sont Drupal ou WordPress, des gestionnaires de documents tels que DSpace, Omeka, Pleade.

La technologie libre OpenSeadragon semble prometteuse dans l’objectif de rendre accessible et aisément manipulable des images en très haute résolution. Des technologies libres potentiellement équivalentes sont Leaflet (Open Street map), OpenLayers, PanoJS. D’autres systèmes libres s’avèrent plus difficiles à mettre en œuvre comme IIPImage, digilib. Certains systèmes propriétaires peuvent être cités tels que jQuery Image Viewer, zoomify, ajax-zoom, shockwave-flash (Adobe) ou gigapan (NASA, Google). Des bibliothèques javascript comme StoryMap JS permettent finalement de raconter des histoires avec une image au format gigapixel.

À noter également pour des images de taille standard la possibilité d’utiliser des bibliothèques javascript (jquery ou autre) dédiées au zoom, ou bien un code javascript utilisant les fonctionnalités d’HTML5. La génération de tuiles n’est alors pas nécessaire.

Publicités

, , , ,

Poster un commentaire

Le rapport statistique 2014

stats-2014Les statisticiens de WordPress.com ont préparé le rapport annuel 2014 de ce blog. L’année 2014 est un bon cru avec 21341 visites de 13548 visiteurs différents, soit en moyenne 1,6 visites par personne. Merci de votre fidélité, et bonne année 2015, avec une série de billets dont le premier devrait sortir dans les tous prochains jours…

Cliquez ici pour voir le rapport complet.

Poster un commentaire

Archives numériques personnelles : les fondamentaux de la numérisation

Une image numérique est constituée de dizaines de milliers de carrés minuscules appelés pixels.

Une image numérique est constituée de dizaines de milliers de carrés minuscules appelés pixels

Mike Ashenfelder (Bibliothèque du Congrès) expose les techniques que les particuliers peuvent employer pour numériser leurs photographies et documents anciens. Il nous guide en 3 étapes dans la manipulation du scanner, dans le choix des résolutions, des formats, des types de compression, ainsi que dans le nommage et la sauvegarde de nos fichiers numériques. Quelques informations supplémentaires et liens vers Wikipédia complètent ces recommandations traduites en français dans ce billet. Bonne numérisation !

Personal Digital Archiving: The Basics of Scanning, 2014, Mike Ashenfelder, The Signal : Digital Preservation, Library of Congress : http://blogs.loc.gov/digitalpreservation/2014/03/personal-digital-archiving-the-basics-of-scanning/

[…]

Lorsque vous scannez une photographie papier, l’appareil crée une version numérique de la photo constituée de dizaines de milliers de carrés minuscules appelés pixels. Ce processus de conversion du papier vers le numérique constitue la numérisation. Cette opération s’applique aux images, textes, documents vidéos ou audios. Ce billet s’intéresse surtout au scan et à la numérisation des photographies sur support papier.

Etape 1 : Préparer le scanner et les photos

La première étape du processus consiste à nettoyer le scanner et les photos. Les taches, la poussière et les cheveux sont numérisés en même temps que vos photos ce qui peut nuire à la qualité des documents. Essuyez la vitre du scanner avec un chiffon clair, non pelucheux humidifié avec de l’eau. Ne pas pulvériser d’eau directement sur le scanner, vaporisez le chiffon. Essuyez aussi l’intérieur du couvercle du scanner.

Ensuite, utilisez un chiffon anti-statique sec pour essuyer avec précaution la photographie. Vous pouvez trouver ces chiffons dans un magasin d’appareils photos. En plus de nettoyer la photo, ils empêchent l’attraction des poussières et des cheveux. Placez la photo nettoyée sur le scanner. Ne pas toucher le verre quand vous posez la photo. Si vos doigts tachent le verre, vous aurez à recommencer le nettoyage! Faites glisser la photo jusqu’au bord de la vitre du scanner et vers le haut jusqu’à l’angle de la réglette pour un meilleur alignement.

detect-separate-itemsCertains logiciels détectent les photos ou documents séparés et les numérisent sous forme de fichiers individuels. Laissez environ un centimètre entre les photos pour aider le logiciel à reconnaître les différents objets. Fermez le couvercle avec précaution pour que les photos restent alignées sur le rebord de la vitre.

Etape 2 : Régler les propriétés du scanner – résolution et profondeur des couleurs

Maintenant que votre scanner et vos photos sont prêts, procédez à quelques réglages. Depuis votre ordinateur, ouvrez le logiciel du scanner. Trois réglages sont importants :

  • la résolution de l’image numérique exprimée en points par pouce (dpi)
  • le type d’image (couleur ou niveaux de gris).
  • le format de fichier des images produites (TIFF, PNG, JPEG sont proposés) et parfois le type de compression associé au format.

Le point par pouce ou “dpi – dot per inch” est une mesure de la densité de pixels. Les spécialistes de l’image utilisent le terme plus précis de «pixels par pouce» ou “ppi”. Toutefois, les scanners commerciaux utilisent presque exclusivement “dpi” et nous nous en tiendrons ici à ce terme.

scan_300-400dpi_220jpgPlus il y a de pixels par aire de surface, plus l’image peut contenir de détails. Une image en 200 points par pouce contient potentiellement plus de détails que la même image en 75 points par pouce. Il existe des valeurs de dpi optimales dépendant des types et tailles de photos. Plus n’est pas toujours mieux. Il y a une limite ou un seuil au-delà duquel l’augmentation n’apporte rien. Cette limite dépend de la résolution de la photo d’origine.

  • 300 à 400 dpi conviennent pour des photographies personnelles standards. Cela rend possible des impressions en format d’origine ou légèrement agrandi.
  • Parce que les tirages de petite taille et les diapositives contiennent de nombreux détails localisés dans une petite zone, capturez plus de points par pouce, environ 1400 à 1500 dpi.
  • Les négatifs contiennent aussi beaucoup de détails. Sélectionnez dans ce cas un minimum de 1500 à 2000 dpi. Rappelez-vous qu’une augmentation des dpi entraîne la production de fichiers plus volumineux.

8-bit_onlyCertains logiciels permettent de régler la “profondeur des couleurs” exprimée en bits par pixel. Plus le nombre de bits par pixel est élevé, plus riche est la palette numérique. Le paramètre de numérisation le plus souvent utilisé est de 8 bits par pixel pour des photos en niveaux de gris (certains scanners proposent également 16 bits), et 24 bits par pixel pour la couleur (certains scanners vont jusqu’à 48 bits). Un nombre accru de bits par pixel permet une édition ultérieure de meilleure qualité. Mais pour une numérisation standard pour laquelle il n’y a pas d’édition prévue ou pour laquelle la qualité n’est pas un défi, sélectionnez  8 bits pour les niveaux de gris et 24 bits pour la couleur. Rappelez-vous qu’une augmentation des bits par pixel entraîne un volume de données accru et des fichiers plus volumineux. Si la photo que vous souhaitez numériser est en noir et blanc, sélectionnez « niveaux de gris ». Si le papier photo est en couleur, sélectionnez “couleur”.

Etape 3 : Format de fichier et Compression

tiff-lzw-compression_smallLe logiciel du scanner enregistre votre scan sous forme de fichier numérique dans les formats courants TIFF ou JPEG . Le format TIFF, préféré pour la préservation des données numériques, contient l’ensemble des informations en provenance du scanneur. Enregistrez si possible votre fichier maître au format TIFF. Si l’espace de stockage est limité, vous pouvez compresser et réduire la taille de ces fichiers. Certains logiciels offrent l’option de compression LZW qui permettra de réduire la taille des TIFF sans perte d’informations. C’est ce qu’on appelle la compression « sans perte ».

jpeg_max-quality_200En revanche , l’enregistrement d’une image au format JPEG entraine une compression “avec perte”. Un fichier JPEG est par nature comprimé. Une partie des données numériques capturées par le scanner est perdue lors de l’enregistrement au format JPEG. Vous pouvez sélectionner des niveaux variables de qualité, impliquant différents niveaux de compression allant de « compression faible » – avec une perte de données faible et une qualité d’image élevée – à « compression élevée » – avec une quantité élevée de données perdues et une qualité d’image moindre.

Nous recommandons qu’en cas d’intention de modification ou d’édition d’une photo numérique, vous enregistriez deux versions: une version maître et une copie de travail. Le fichier TIFF sera le fichier maître qui pourra être stocké en toute sécurité avec vos autres archives numériques personnelles. Utilisez une version JPEG comme copie de travail. Le fichier JPEG sera plus petit et plus facile à envoyer par email ou à adresser aux médias sociaux. Éditez, modifiez et travaillez avec ce JPEG. Vous pourrez toujours faire une nouvelle copie JPEG à partir du TIFF maître.

Une fois le type de fichier sélectionné, une fois défini la profondeur de couleur et réglé la résolution, vous êtes prêt à numériser. Prévisualisez le scan si vous disposez de cette option, regardez la vue pour vous assurer qu’il n’y a pas de poussière, de cheveux ou d’effet indésirable. Vérifiez que la photo est correctement alignée. Ensuite, appuyez sur « Scan ».

Renommer un fichier n'affectera pas le contenu du fichier.

Renommer un fichier n’affectera pas le contenu du fichier.

Après numérisation, certains logiciels vous demanderont de donner un nom de fichier, d’autres le nommeront automatiquement. Si un nom alphanumérique du style « DC2148793.jpg » est donné à votre fichier, vous pouvez le conserver ou bien en changer. Pour renommer, faites un clic droit – si vous êtes sur PC – et sélectionnez « Renommer ».  Sur Mac, faites un contrôle-clic et sélectionnez “Renommer”. Nous vous recommandons de renommer le fichier pour vous aider à le retrouver plus tard. Si le nom de fichier commence par la date suivie éventuellement du mois et du jour, auquel on ajoute un ou deux mots significatifs, cela permet l’affichage automatique des fichiers avec classement par ordre chronologique.

Retirez chaque photo du scanner en glissant dessous un morceau de papier et en le soulevant pour éviter ainsi de toucher le verre avec les doigts.

Dupliquez et sauvegardez vos données en plusieurs endroits différents dès que possible. Tous les cinq ans ou plus, faites migrer vos archives numériques personnelles sur un nouveau support de stockage afin d’éviter d’avoir votre collection coincée sur des supports obsolètes.

Vous trouverez d’autres articles en anglais de Mike Ashenfelder sur : http://publiclibrariesonline.org/author/michaelashenfelder/

[Note additionnelle du traducteur] Il est recommandé d’utiliser un plan pour nommer ses fichiers. Les caractères sous-ligné underscore (_) et tiret (-) peuvent servir de séparateur. Les majuscules, accents, espaces et caractères spéciaux sont à éviter. Un exemple de nom incluant la date du document, un identifiant et un numéro pourrait être « 20140618_toureiffel-12.jpg ». Si votre scan est destiné à être diffusé sur le web, pensez à optimiser (diminuer) la résolution pour le confort des usagers et la performance des serveurs.

Thanks Mike for your article and agreement for translation !

, ,

Poster un commentaire

Archival Disc, un nouveau format de disque optique

2015 verra le lancement par Sony et Panasonic d’un nouveau format de disque optique, l’Archival Disc, qui stockera jusqu’à 1 To de données par disque. Les disques à usage professionnel présenteront une résistance accrue à l’humidité et à la poussière. La rétrocompatibilité est assurée.

Poster un commentaire

Petite introduction aux Big data : la machine à explorer les faits

Distance au Mc Donalds le plus proche (Etienne Côme, 2013)

“It is a capital mistake to theorize before one has data. Insensibly one begins to twist facts to suit theories, instead of theories to suit facts.”

C’est une erreur capitale d’élaborer des théories avant d’avoir les données. Petit à petit, on modifie les faits pour qu’ils correspondent aux théories, au lieu d’élaborer des théories qui correspondent aux faits.

—Sherlock Holmes, A Study in Scarlett, Une étude en rouge (Arthur Conan Doyle, 1887, http://fr.wikipedia.org/wiki/Une_étude_en_rouge)

Boostées par le caractère ubiquitaire des appareils numériques (ordinateurs, téléphones, capteurs, objets), par l’ultra-connexion et par l’augmentation des débits, les données numériques produites ou utilisées par les particuliers, les entreprises ou les organismes connaissent  une croissance exponentielle qui devrait se poursuivre dans les dix prochaines années. Rassemblées en masse, dans des volumes dépassant le téraoctet (1000 Go) ou le pétaoctet (1000 To), ces big data sont constituées de textes, d’images, de sons, de vidéos et de leurs métadonnées, de messages électroniques, de données sociales et factuelles, de mesures provenant de capteurs en tous genres. Des histoires à succès récentes montrent que ces données de différentes natures peuvent être analysées conjointement pour générer des renseignements présentant une importante valeur ajoutée. Les big data sont classiquement présentées comme respectant la règle des 3V : Volume, Vélocité et Variété. La vélocité désigne la génération et la mesure en continu. La variété fait référence au fait que des données diverses (réseaux sociaux, données géographiques, données d’entreprise, données bibliographiques) sont rassemblées et analysées conjointement. Les techniques employées relèvent du « text mining » (analyse automatique des textes), du « data mining » (analyse d’images, de vidéos, etc) et de la « dataviz » (visualisation d’informations quantitatives sur des graphes et des cartes). De la fiabilité des données d’origine dépend la justesse des raisonnements ultérieurs, d’où le quatrième V parfois ajouté, celui de Véracité.

L’écosystème big data

Une vue nocturne de l'Europe visualisant les rayonnements nocturnes infra-rouges (NASA)

Une vue nocturne de l’Europe visualisant les rayonnements nocturnes infra-rouges (NASA)

Un écosystème informatique particulier, différent des traditionnels moteurs de recherche et bases de données relationnelles, a dû être développé. Les stockages et traitements sont réalisés dans des clusters de serveurs gérés à l’aide de logiciels tels que Hadoop, de systèmes de bases de données NoSQL comme MongoDB, Cassandra ou CouchDB, localisés éventuellement dans des clouds. Des logiciels parmi lesquels on peut citer R ou javascript (d3.js) permettent la création des graphes et outils interactifs. D’importantes sociétés commerciales telles que Google, Facebook, Yahoo, Twitter, mais aussi des startups sont à l’origine de ces logiciels dont certains sont libres, gérés notamment par la fondation Apache. Le traitement des données aboutit à la production de tableaux de bord composés de cartes, de chronologies ou de graphes. Ces éléments visuels facilitent l’appréhension globale et intuitive des informations présentes en grande quantité. Le passage des graphes aux données se fait en cliquant sur les courbes et les tableaux. La démarche permet de vérifier la validité des sources, d’élaborer des raisonnements basés sur des faits réels et non sur des affirmations ou des hypothèses. L’obtention des résultats et l’interprétation sont généralement confiées à de petites équipes de spécialistes ou de consultants  réunissant des compétences informatiques, statistiques, relatives au métier, et aux techniques de communication. Les données sont préalablement réunies dans un réservoir appelé « datawarehouse ». Des tableaux de bord servent ensuite à l’élaboration de rapports destinés à une variété de publics incluant des directeurs, des chercheurs ou des utilisateurs.

Usages, modèles et théories

Bien que la technique soit encore émergente, les applications s’avèrent prometteuses et concernent des secteurs aussi divers que l’industrie, la distribution, les transports, la finance, les banques, l’assurance, la défense, la sécurité, la vie domestique ou les loisirs, la culture, la communication, le journalisme de données, la santé et les sciences. Il s’agit d’optimiser des processus, de cibler des actions, d’analyser des marchés, de détecter des opportunités ou des menaces, de mettre en évidence des phénomènes rares ou multimodaux, voire de tenter de prédire à l’aide des statistiques des évolutions probables ou de détecter des évènements récurrents, des motifs répétés. Des phénomènes subtils qui auraient été autrement ignorés ou mésestimés, car enfouis dans la masse, peuvent ainsi être mis en évidence.

Les big data concernent en simplifiant quatre grands types d’acteurs. (1) Le citoyen attend des big data qu’elles augmentent son confort, sa santé, sa sécurité. Les individus sont impliqués à différents titres. La récolte massive des données accompagne en effet la vie de toute personne connectée à internet ou à un réseau, abonnée à un service, utilisant une messagerie ou un moteur de recherche, possédant des objets connectés tel qu’un smartphone, effectuant des achats. (2) L’entreprise espère mieux connaître ses clients, développer de nouveaux marchés, vendre plus et mieux, cibler ses publicités, accroitre ses performances, optimiser ses processus. Les big data sont une des composantes de l’informatique décisionnelle (Business Intelligence). (3) Les états souhaitent rendre plus efficace leur fonctionnement, lutter contre la fraude et la délinquance, œuvrer dans le domaine de la sécurité intérieure ou extérieure, augmenter leur efficacité, évaluer et promouvoir des politiques. (4) Les big data trouvent enfin des applications dans différentes disciplines scientifiques incluant l’astronomie, la physique des particules, la biologie moléculaire, l’étude des génomes, l’environnement. Des applications à venir concerneront sans doute les humanités numériques, l’histoire, la sociologie, l’archéologie, l’information et la culture (bibliothèques, archives, musées).

Paru en 2008 dans le magazine « Wired », le célèbre éditorial de Chris Anderson « The End of Theory » montre le changement que la manipulation de pétaoctets de données induit dans les pratiques et raisonnements des scientifiques de différentes disciplines. Les big data sont souvent présentées comme un changement de paradigme. L’élaboration de théories ne serait plus nécessaire à la compréhension des phénomènes observés, la constatation de corrélations conduirait à des conclusions empiriques suffisantes pour l’action. Nous reviendrons dans un autre article sur ce billet parfois présenté comme fondateur de la philosophie des big data. « The End of Theory » reste une théorie !

Conclusion

Big Data visualisation

“Big Data visualisation” par stefanobe sur Flickr : https://www.flickr.com/photos/stefanobe/

Ainsi, – les faits d’abord et avant tout ! – nous assure l’inspirant Sherlock Homes. Mais comment résoudre une énigme lorsque le nombre d’indice dépasse le milliard et que ceux-ci sont de différentes natures ? En introduisant un changement d’échelle dans la capacité des machines à traiter de grandes quantités d’informations, les big data associées à l’informatique en nuages et aux représentations statistiques ont introduit une méthode prometteuse pour mieux comprendre notre environnement. Mais comme toute technologie, l’usage des big data présente un certain nombre de risques. Bien mis en évidence par Edward Snowden en 2013, le premier de ceux-ci est sans doute l’atteinte à la vie privée qui peut être le fait aussi bien d’états que d’entreprises. Des informations sensibles relatives à la santé, aux revenus, aux appartenances ethniques, aux opinions politiques ou religieuses, au déplacement des personnes devraient sans doute être mieux protégées qu’elles ne le sont actuellement. Ainsi, les thèmes politiques abordés par un candidat président peuvent s’appuyer en partie sur des analyses prenant en compte l’opinion momentanée et changeante des électeurs. Des questions éthiques, morales et légales se posent, susceptibles de présenter des conséquences économiques ou politiques.

D’autres aspects des big data s’avèrent plus enthousiasmants. Ce secteur en plein boom s’appuie en grande partie sur des logiciels libres, utilise des données ouvertes gouvernementales, fait grand usage des données des réseaux sociaux.Une activité effervescente se produit actuellement autour de ces technologies. Des petites entreprises se créent, des grandes entreprises mettent en place les structures et les moyens adéquats, de nouvelles formations sont proposées, de nouveaux métiers apparaissent tel que ceux de « data scientist », journaliste de données, etc. Cette agitation se base sur un rêve : celui de créer des machines à explorer les faits, le temps (Venice Time Machine, Internet Archive : WayBackMachine), les lieux (OpenStreetMap), les thèmes, les réseeaux de personnes et d’organismes, celui de transformer les données en connaissances.

Quelques exemples

Si la manipulation réelle de données de masse est réservé à des spécialistes, quelques services du web donnent une petite idée des principes mis en œuvre et de l’intérêt de tels outils pour les entreprises comme pour les scientifiques.

Ngram Viewer

Ngram Viewer - GoogleDéveloppé par Google et lancé en 2010, le service Ngram Viewer produit en temps réel une chronologie qui montre la fréquence d’emploi d’une locution dans le texte intégral des livres de Google Books. Si on admet que Google Books offre un bon reflet de la production littéraire ou scientifique mondiale, il devient possible d’étudier l’apparition ou la disparition de certaines expressions ou les noms de certains auteurs. On peut à titre d’exemple visualiser la fréquence d’emploi de termes comme “Henri Poincare” (sans l’accent), “big data”, “business intelligence”, “data visualization”. L’étude du graphique montre la stabilité d’usage du terme « Henri Poincaré » qui servira de témoin. NgramViewer peut servir d’outil pour des études de bibliométrie ou d’histoire portant sur le temps long. Essayez le service avec les termes de votre choix !

Google Trends

google-trendsLancé en 2012 avec une interface innovante, le service Google Trends permet de connaître le fréquence de recherche d’une locution dans le moteur Google. Le service affiche une chronologie, une carte des tendances par pays et une liste de recherches associées. Lorsque la question précédente est jouée de nouveau, on observe un graphe différent de celui de Ngram Viewer. L’intérêt croissant pour les big data apparait marquant dès 2011. Une case à cocher propose une prévision pour les 6 prochains mois, tentant de modéliser des phénomènes réguliers. Une fonctionnalité intégrée à la carte (voir l’évolution au fil du temps), permet de visualiser l’évolution des interrogations par pays, et de mettre ainsi en évidence des modèles de transmission de l’information propre à un pays ou passant les frontières. Google Trends permet, comme son nom l’indique, d’analyser les tendances récentes, présentant un grand intérêt dans le domaine de l’intelligence économique. Son utilisation pour des recherches relevant de la prospective ou de la sociologie est possible.

D’autres exemples

Sociétés de services françaises actives dans le « text-mining » des « big data »

Quelques liens

Poster un commentaire

Statistiques de consultation 2013 de ArchivEngines

Le rapport statistique des consultations de 2013 vient de paraître. Bravo aux statisticiens de WordPress. 4 billets ont été publiés cette année.

Merci de votre intérêt et de vos réactions, et rendez-vous pour de nouveaux posts en 2014 !
Pierre Couchet

Mois et années

jan fév mar avr mai juin juil août sept oct nov déc Total
2011 14 56 70
2012 98 138 93 128 640 557 457 299 428 726 669 745 4  978
2013 819 848 976 1  193 1  181 1  029 1  064 854 2  092 1  915 1  791 1  803 15  565
2014 33 33

Cliquez ici pour voir le rapport complet.

Poster un commentaire

Archivage dans l’industrie automobile

Deux articles récents viennent mettre en évidence le rôle de l’archivage dans le secteur de l’industrie automobile. Des volumes importants de données sont versés dont la durée de préservation nécessaire peut dépasser les 30 ans. La dématérialisation des documents a permis de rendre en grande partie obsolète la microphotographie et le papier. Un SAE (Système d’Archivage Électronique) permet de gérer l’archivage, la recherche et la restitution des documents électroniques. De manière plus générale et d’après une étude européenne menée par Coleman Parkes Research pour RICOH, les PME seraient mieux préparées que les grandes entreprises au changement important que constitue la dématérialisation des documents.

L’archivage, un outil de productivité pour PSA, 2013, Les Échos, Yves Sarazin : http://technologies.lesechos.fr/gestion-de-contenus/l-archivage-un-outil-de-productivite-pour-psa_a-38-852.html

Archivage : Comment PSA range ses documents, 2013, L’Usine Nouvelle, Ridha Loukil : http://www.usinenouvelle.com/article/archivage-comment-psa-range-ses-documents.N193988

Une perspective nouvelle : la gouvernance documentaire, 2013, RICOH : http://thoughtleadership.ricoh-europe.com/fr/anewperspective/

Informations en provenance de PIAF, un portail réalisé par l’Association internationale des archivistes francophones (AIAF) et le Conseil International des Archives (CIA). Des formations en ligne gratuites et de nombreuse informations relatives à l’archivage sont proposées : http://www.piaf-archives.org/

et de Archimag : http://www.archimag.com/article/course-numerique-PME-mieux-préparées-grandes-entreprises

Poster un commentaire