Le Baromètre de la science ouverte de l'UVSQ reprend celui de l'université de Lorraine (mars 2020) dont le code a été partagé sur gitlab. Deux modifications ont été apportées : la première permet d'intégrer les publications venant de HAL ne possédant pas de DOI, la seconde apporte des informations sur les frais de publication (Article Processing Charges : APC).
-
Présentation des résultats sur uvsq.fr/barometre-science-ouverte
-
Télécharger les données ; voir le schéma de données
Afin de minimiser les lacunes, les publications sans DOI venant de HAL ont été intégrées. Cette quantité de publications supplémentaires modifie évidemment les résultats d'accès ouvert, et impacte aussi la méthodogie à plusieurs étapes : dédoublonnage, détection de l'accès ouvert et alignement des rétérentiels.
Résultats
L'intégration des publications de HAL sans DOI baisse le pourcentage de publication en accès ouvert. Voici la comparaison pour l'UVSQ
année | DOI seuls | DOI ou halId |
---|---|---|
2015 | 54.8 % | 49.3% |
2016 | 56.3% | 52.1% |
2017 | 60.2% | 56.6% |
2018 | 58.6% | 55.1% |
2019 | 58.6% | 57.0% |
Dédoublonnage
Les publications sans DOI ont été dédoublonnées à partir d'une normalisation des titres : retrait des espaces, accents et mise en minuscule. Les publications de HAL sans DOI ayant un titre identique à une autre publication ont été retirées.
Cette étape permet également d'identifier des publications HAL où le DOI pourrait être manquant (voir les tableaux HAL dans /data/out/
).
Détection de l'accès ouvert
Une publication dans HAL est en accès ouvert si au moins une des conditions suivantes est remplie
- la métadonnée
submitType_s
contientfile
- la métadonnée
linkExtId_s
contientarxiv
oupubmedcentral
Alignement des référentiels
Deux dictionnaires ont été réalisés afin d'aligner (i) les types de document de HAL avec ceux de Crossref et (ii) les domaines scientifiques de HAL avec ceux du baromètre français de la science ouverte. Voir /data/match_referentials.json
Le but est de savoir si une publication a nécessité des frais de publication (Article Processing Charges : APC). En considérant les "accords transformants" (publish & read), les changements possibles de modèle économique des revues, et enfin les éventuelles exonérations (waivers) il reste difficile de savoir si des APC ont été payés. L'algorithme réalisé propose donc une estimation de la présence ou non d'APC. En décembre 2020 il s'est révélé efficace à plus de 85 %. Enfin, le pistage d'APC se fait au niveau de de l'article, et non des affiliations : l'algorithme reste indifférent à l'établissement ayant payé les APC.
Quatre étapes permettent de détecter la présence d'APC, réalisées par l'algorithme suivant :
- Le DOI est-il dans OpenAPC ?
-
oui, renseigner
doi_in_openapc
et extraire le montant payé -
non, la revue est-elle dans OpenAPC et des frais de publications ont-ils été payés la même année ?
-
oui, renseigner
journal_in_openapc
et extraire la moyenne des montants payés sur l'année -
non, le document est-il en open access sur le site de l'éditeur dans une revue hybride ? (utilisation du champs
oa_status
de unpaywall)- oui, renseigner
journal_is_hybrid
- non, la revue est-elle une revue avec APC indéxée dans le DOAJ ?
- oui, retourner
apc_journals_in_doaj
, le prix et la devise
- oui, retourner
- oui, renseigner
-
-
- Installer Python et les libraries signalées dans le fichier
requirement.txt
- Télécharger l'archive au format .zip
- Ajouter les fichiers bibliographiques de votre établissement
- Renommer si nécessaire les noms des fichiers importés dans le code
a_consolider_sources.py
- Exécuter les codes
a_consolider_sources.py
puisb_enrichir_data.py
, ce dernier doit tourner pendant plusieurs heures afin de récupérer les données de HAL et Unpaywall (env. 4h pour 16k publications). Enfin exécuterc_produire_graphique.py
- Retrouver les graphiques générés dans le dossier
img
column | description (if needed) | source |
---|---|---|
doi | ||
halId | Publication deposit id in HAL | hal |
hal_coverage | Hal coverage (in or missing ) | hal |
title | hal or unpaywall | |
genre | Document type | hal or unpaywall |
author_count | Curiosity : number of authors | hal or unpaywall |
published_date | hal or unpaywall | |
published_year | hal or unpaywall | |
journal_name | hal or unpaywall | |
journal_issns | hal or unpaywall | |
publisher | hal or unpaywall | |
upw_coverage | Unpaywall coverage (oa, missing, closed) | unpaywall |
oa_status | Status/type of open access (green, gold, hybrid, bronze) | unpaywall |
upw_location | Where OA is founded (repository and/or publisher) | unpaywall |
version | Publication version available (submitted, accepted, published) | unpaywall |
licence | licence finded in unpaywall | unpaywall |
journal_is_in_doaj | Is this resource published in a DOAJ-indexed journal | unpaywall |
journal_is_oa | Is this resource published in a completely OA journal | unpaywall |
is_paratext | Is the item an ancillary part of a journal (column disappear if everything is False ) | unpaywall |
suspicious_journal | Is the journal in "predatory" list | Stop Predatory Journals |
hal_submittedDate | When the publication has been submitted in HAL | hal |
hal_location | Where OA is founded (file, arxiv, pubmedcentral), notice if not OA | hal |
hal_licence | Licence in HAL deposit | hal |
hal_serlArchiving | Curiosity : is the deposit made by the author | hal |
hal_docType | Type of document | hal |
hal_domain | Domain, scientific field | hal |
apc_tracking | APC information (doi_in_openapc, journal_in_openapc, journal_is_hybrid, apc_journals_in_doaj) | openapc, doaj, unpaywall |
apc_amount | Rough approximation of APC cost | openapc, doaj |
apc_currency | openapc, doaj | |
scientific_field | Scientific field from barometre-science-ouverte and hal | barometre-so, hal |
is_oa | Is there an OA copy of this ressource | hal, unpaywall |
oa_type | Publisher and/or repository | hal, unpaywall |
- le baromètre français de la science ouverte https://ministeresuprecherche.github.io/bso/
- le baromètre de l'université de Lorraine http://scienceouverte.univ-lorraine.fr/barometre-lorrain-de-la-science-ouverte/
Eric Jeangirard et Laetitia Bracco. Les équipes et communautés derrière Unpaywall, DOAJ et OpenAPC.