Ce site, en ligne depuis juillet 2011, est développé de manière continue, avec des mises à jour régulières.
Vous consultez actuellement en ligne la Version [1.30] de data.bnf.fr mise en ligne le 29 juin 2016.
Comment télécharger les données de data.bnf.fr : téléchargez le dump à jour de data.bnf.fr.
Pour contacter l'équipe : [email protected]
Le projet data.bnf.fr a pour but de rendre les données de la BnF plus utiles sur le Web. Il permet de rassembler autour de ses pages auteur, œuvre et thème, des ressources de la Bibliothèque nationale de France, ainsi que des ressources extérieures. Ces pages articulent les différents contenus, liens et services que la BnF fournit sur Internet. Mis en ligne en juillet 2011, data.bnf.fr continue d’évoluer et de s’accroître.
Data.bnf.fr permet :
L’objectif est donc de valoriser la richesse des fonds de la BnF sur le Web et de servir de pivot entre les différentes ressources. Data.bnf.fr est au service des autres applications de la BnF. Enfin, le projet s’inscrit dans une démarche d’ouverture de la BnF au Web de données et d’adoption des standards du Web sémantique.
Data.bnf.fr et Gallica ont reçu le Stanford Prize for Innovation in Research Libraries (SPIRL). Voir le rapport complet.Les principaux objectifs du service data.bnf.fr sont :
Les évolutions prévues suivent les grands axes suivants :
Data.bnf.fr comprend une sélection des données des catalogues de la BnF. Le site intègre progressivement de nouveaux auteurs et de nouvelles œuvres, ainsi que les documents qui sont associés.
Il s’agit des contenus de la Bibliothèque nationale de France, de ses partenaires institutionnels et de sites extérieurs.
Les trois premières ressources regroupées dans data.bnf.fr sont BnF Catalogue général (publications), la base BnF archives et manuscrits, et Gallica (Bibliothèque numérique). La Bibliothèque nationale de France dispose de plus de 30 millions de documents acquis au cours des siècles (http://www.bnf.fr/fr/la_bnf/bnf_en_chiffres/s.chiffres_collections.html?first_Art=oui ). Le dépôt légal des documents publiés en France étant obligatoire, les collections disponibles sur les auteurs et les œuvres sont très complètes, et reflètent leur diversité. Plus d’un million de documents, libres de droits, sont numérisés et accessibles gratuitement dans Gallica.
En novembre 2014, data.bnf.fr recouvre plus de 60 % des catalogues de la BnF, soit 630 000 auteurs, 173 000 thèmes et plus de 7 millions de documents du catalogue général, et de BnF archives et manuscrits. En juin 2016, data.bnf.fr dispose d'une couverture presque totale des données de bonne qualité des catalogues, avec notamment 2 millions d'auteurs à son actif.
Data.bnf.fr expose des données structurées de haute qualité. Les pages regroupent :
Les pages HTML de data.bnf.fr sont générées automatiquement à partir des données et des identifiants figurant dans les différentes bases de la BnF : BnF catalogue général, BnF archives et manuscrits, Gallica. Les pages HTML sont générées selon des processus informatiques utilisant les techniques du « Web sémantique ».
Les notices d’autorité sont à la base des pages du site : les « autorités personne et organisation » pour les pages auteur, les « autorités titres » pour les pages œuvre et les « autorités RAMEAU » (le langage d’indexation sujet utilisé à la BnF) pour les pages thématiques.
Enfin, ces pages sont indexées par les moteurs de recherche, alors que ceux-ci ne référencent pas les données et les métadonnées qui sont cachées dans les bases non indexables de la BnF. Les pages de data.bnf.fr décrivent les ressources de la BnF qui sont souvent dissimulées dans le Web « profond », et signalent les documents numériques directement accessibles.
Le modèle de données de data.bnf.fr permet la fédération de données issues de ressources internes, mais aussi l’intégration de liens vers des sources externes. Les ressources de la BnF (notices, manuscrits, documents numériques) disposent d’identifiants pérennes, les identifiants ARK, qui permettent de citer les ressources dans d’autres pages de façon stable.
Un premier travail a porté sur des évolutions des modèles bibliographiques actuellement en cours d’expérimentation au niveau international, en particulier le modèle « FRBR ».
Cette réflexion a été complétée par une modélisation visant à exprimer ces données en RDF (Resource Description Framework) en vue de leur exposition dans le Web de données. Pour la BnF, l'utilisation de ces standards techniques doit garantir l'interopérabilité entre les bases internes et avec l'extérieur, en utilisant des données structurées exploitables par les machines de façon renouvelée.
En savoir plus :
Le respect des standards du Web sémantique doit permettre, à terme, l'exposition et l'intégration de données utiles, fiables et validées dans l'univers croissant du Web de données. Ceci doit être fait conformément aux initiatives internationales qui facilitent l'utilisation des données publiques, informationnelles ou administratives.
Cette présence sur le Web de données implique la mise en place de solutions techniques pour créer des liens : URI (Uniform resource identifier) déréférençables et pérennes, système de négociation de contenu, et accès aux données brutes.
L’utilisation de données ouvertes liées favorise l’échange de données, y compris en dehors de la communauté des bibliothèques, et offre une solution pour l’interopérabilité des formats. La Deutsche Nationalbibliothek, la British Library et la Bibliothèque du Congrès ont également adopté ces outils afin d’ouvrir leurs données bibliographiques.
Parmi les données exposées et récupérables, se trouvent les notices d'autorité sujet du référentiel RAMEAU (Répertoire d'autorité-matière encyclopédique et alphabétique unifié). Elles ont été converties dans le langage RDF SKOS (Simple Knowledge Organization System), dans le cadre du projet européen TELplus. Ce référentiel est désormais maintenu à jour sur data.bnf.fr avec la base de données entière et actualisée de la BnF.
En savoir plus :
,Data.bnf.fr s’intègre dans le Web en proposant des liens permettant de rediriger l’utilisateur vers des liens externes au site, qu’il s’agisse de sites de la BnF ou non.
On trouve plusieurs types de liens :
Les données exposées appartiennent à des bases distinctes et sont produites et stockées dans des formats différents. Data.bnf.fr permet ainsi d’extraire, de transformer et de regrouper des données dans une base commune et de les rendre interopérables.
Pour cela, il faut s’appuyer sur plusieurs outils :
En pratique, dans data.bnf.fr, l’articulation entre les silos de données s’appuie sur les notices d’autorité qui constituent le socle de chaque page auteur, œuvre ou thème. C’est le lien à l’identifiant des notices d’autorité qui permet de rassembler différentes ressources sur la page.
Les pages auteur rassemblent toutes les notices descriptives ayant un lien à l’identifiant de l’auteur.
Les pages œuvre rassemblent toutes les notices ayant un lien à la fois à l’identifiant de l’auteur et à celui de l’œuvre. En l’absence d’un lien vers la notice, un mécanisme d’alignement simple par comparaison des chaînes de caractères est mis en œuvre.
Nous utilisons le logiciel libre CubicWeb.
CubicWeb est une plateforme open source de développement d'applications Web sémantique, publiée sous la licence LGPL.
Dans le cadre du projet, le logiciel permet notamment :
Il s’appuie sur le langage de requête RQL (Relation Query Language), similaire au langage SPARQL du W3C’s, et sur le langage Python.
CubicWeb est lauréat du concours Dataconnexions 2013, organisé par Etalab, la mission sous l’autorité du premier ministre pour l’ouverture des données publiques.
Les données brutes de data.bnf.fr sont disponibles selon la Licence ouverte française, utilisée par data.gouv.fr. Cette licence est de type CC-By adapté pour le code de la propriété intellectuelle français. La réutilisation et la reproduction des données RDF est libre et gratuite pour tout usage, y compris commercial. Une mention d’attribution est nécessaire.
Le projet data.bnf.fr se place ainsi résolument dans l’optique de l’ouverture des données publiques (Open data).
Portée par des acteurs civiques et les gouvernements, l’ouverture des données publiques vise à rendre accessibles les données non nominatives, ne relevant ni de la vie privée, ni de la sécurité et collectées ou produites par des organismes publics. Intégrée à la législation française par la transposition de la directive européenne de 2003 « Directive on re-use of public sector information » (Directive 2003/98/EC) dans l’Ordonnance numéro 2005-650 du 6 juin 2005 relative à la liberté d’accès aux documents administratifs et à la réutilisation des informations publiques, l’ouverture des données publiques s’inscrit dans une politique nationale.
Ses principaux enjeux sont :
Ses objectifs s’accordent avec les missions de la Bibliothèque nationale de France : « assurer l’accès du plus grand nombre aux collections, sous réserve des secrets protégés par la loi, dans des conditions conformes à la législation sur la propriété intellectuelle et compatibles avec la conservation de ces collections », et permettre « la consultation à distance en utilisant les technologies les plus modernes de transmission des données » ( décret du 3 janvier 1994 portant création de la BnF).
Il s’agit donc de faire partager aux citoyens les bénéfices du travail des bibliothèques sur l’identification et le signalement des collections qu’elles possèdent, y compris les collections numériques. C’est un moyen d’améliorer la circulation et la réutilisation des données de la BnF, en les poussant hors de nos silos internes pour leur donner un nouveau degré d’audience et de visibilité sur le Web. Les usages possibles sont multiples et innovants. Des bibliothèques peuvent ainsi se lier aux données de la BnF en plus de les récupérer. De plus, les données sont appelées à sortir du monde des bibliothèques et à avoir une diffusion bien plus large. On peut citer, à titre d’exemple, le projet IF-Verso, de l’Institut français, ou des projets privés de création d’application iPhone et de visualisation spatiale des lieux en relation avec des auteurs et des œuvres pour pouvoir accéder aux œuvres numérisées évoquant une ville ou un monument.
En savoir plus :