Besoins en extraction de contenus Word MS

Nous avons entamé les démarches auprès du service des archives du Musée des beaux-arts de Montréal. Nous avons reçu trois listes d'expositions sur des documents Word (voir pièces jointes) desquels nous aimerions éventuellement importer des informations.

Nous aimerions ainsi discuter avec toi et Alexandra qui mène les recherches sur les expositions du MBAM sur la meilleure façon d'importer ces données. Nous voudrions ainsi, pendant cette rencontre, te présenter un portrait général de la situation en ce qui concerne le MBAM (notamment les mots clés visés et les données que nous souhaitons conserver).

TXT vers un CSV

mettre chaque ligne entre guillemets pour éviter les problèmes avec les virgules
mettre des virgules à la place des sauts de lignes
identifier les dates et faire un saut de ligne avant chaque date

Sur word

remplacer un carriage return = find and replace, find "\n" en activant "regular expression", replace avec un caractère batard
vérifier l'éventuelle présence de guillemets " "

fichier ods

ligne 2258

OpenRefine:

ne pas oublier d'enregistrer les fichiers en local (pas sur un drive)
ne pas essayer d'afficher 1000 entrées ^
GREL
remove trailing spaces
format date

Expo temporaires

quand on veut mettre en page et nettoyer le Word, afficher les tous les caractères (View formatting marks)

tout séparé en cases (ça aide de grossir les lignes du tableau)
mis les titres sur une ligne continue
remplacé les guillemets anglais ("") par des _
remplacé la barre oblique dans le titre par \
remplacer les "carriage return" (qui divisent les dates des titres) par @ (caractère inutilisé dans le fichier)
copié-collé le contenu du tableau dans un tableur
enregistrer le tableur comme un csv, en ajoutant les guillemets "" comme StringDelimiter
sortir du tableur, ouvrir un éditeur de texte (ou de code)
faire une première ligne avec les colonnes (pour visualiser les couleurs quand on a une extension csv)
remplacer @ par ","
vérifier qu'il n'y a pas d'autres couleurs = erreurs
décision de séparer en deux à la seconde guerre mondiale: parce que la recherche se concentre sur après de toute façon. Parce qu'il y a énormément d'incertitudes dans les dates avant. Il va rester des incertitudes dans les dates après mais ce sera plus manageable (on pense, ou du moins on l'espère)

dans openRefine

1860-1945
- séparer dates et enlever trailing spaces
1945 - 2020. openRefine project 2358722013759
- séparer dates et enlever trailing spaces
- split titres:
  - if value.split('/')
    
    else
    
    return value
  sans succès: on a divisé en titre1 et titre2
- sous-titre: split at "." or "!" or ":" --> [.:!–;/]
  - attention remettre le !
  - si on le fait pour l'anglais: ([.:!–;-] )
- date: split(value, value.indexOf("au"))
  - essayer de split à "au" pour avoir la date de fin
  - value.replace("janvier", "january").replace("février", "febuary").replace("mars", "march").replace("avril", "april").replace("mai", "may").replace("juin", "june").replace("juillet", "july").replace("août", "august").replace("septembre", "september").replace("octobre", "october").replace("novembre", "november").replace("décembre", "december")

split "au":

date début	date fin
jour mois	jour mois année
jour mois année

partition(value, " au ")[0]  #jj mm début
partition(value, " au ")[2]  #jj mm anne fin

date_fin: complet seulement si on avait une date de fin

le faire avec la date en anglais comme ça il reconnaît les mois. split(value,', ')[1] pour avoir juste l'année à partir de la date de fin

date_debut_tentative : continent jj-mm de début + année date_fin (faux si ça commençait exemple en novembre 2012 et se terminait en mars 2013), à corriger manuellement?

.replace("janvier" ,"january)

split par espace (pas utilisé finalement)

A	B	C	E	F	G
jour	mois	au	jour	mois	année
jour	mois	année

date début = A + B + G ? C

date fin = (E + F + G) ? A + B + C

Expo itinérantes

Objectifs

diviser les titres des occurences (date)
réussir à regrouper les expos

Étapes

elevé les → (tabs), enlever les "--"
tranformé les $ (paragraphe break) en @. Supprimé @ après le / qui indique le titre en anglais ("/@" & "/ @" to @)

tableau1

id expo	titre	occ1	occ2
		jfkdjfd@jfkdljfk@jfdjfk

Alexandra: Identifie toutes les expos qui sont les mêmes (qui ont le même titre) et les mettre sur une seule ligne

Repasser dans OpenRefine (probablement ) pour:

séparer titres fr/en
séparer titre / sous-titre
Use "record" mode
for the first "occurrence colum"
transpose → transpose cells across columns into rows
- key = column titre
- to "last column"
- one column "Occurrence"
- fill down in the other columns
split occurrences par @ pour les dates et lieux

tableau2

id expo	titre expo	date debut/fin		lieu
1
1

séparer titres en / fr
séparer dates debu date fin

Au fil des collections openRefine

splitter la date
titre fr _ titre en
spliter responsable

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

extractionWord.md

extractionWord.md

Besoins en extraction de contenus Word MS

Expo temporaires

Expo itinérantes

Au fil des collections openRefine

Files

extractionWord.md

Latest commit

History

extractionWord.md

File metadata and controls

Besoins en extraction de contenus Word MS

Expo temporaires

Expo itinérantes

Au fil des collections openRefine