Bonjour et bienvenue sur Projets Libres, je m'appelle Walid Nouh, je suis tombé dans la marmite du logiciel libre il y a plus de 20 ans. Que vous soyez libriste confirmé ou néophyte, venez découvrir avec moi les portraits des femmes et des hommes qui font du logiciel libre. Communauté, modèle économique, contribution, on vous dit tout. Bienvenue à toutes, bienvenue à tous sur le podcast Projets Libres. Je suis très content, on va continuer la série sur les transports, on en est au quatrième épisode et aujourd'hui on va reprendre un sujet qui a été abordé dans l'épisode 15 de la saison 3 avec Tu-Tho Thai, on avait parlé un peu des réglementations européennes et dans la conversation est venu le point d'accès national, sujet très intéressant et donc je me suis permis de contacter le responsable du point d'accès national qui s'appelle Maxime Siret et donc c'est le responsable du produit transport.data.gouv.fr qui est avec moi et on va aujourd'hui tous les deux parler du point d'accès national, de ce que c'est, à quoi ça sert, dans quel environnement il intervient, avec qui il interagit. Bref, un grand nombre de questions très intéressantes que je vais pouvoir aborder avec lui. Maxime, ravie de t'avoir avec moi, merci beaucoup d'être là. Bienvenue sur le podcast Projets Libres, j'espère que tout va bien de ton côté.
Salut Walid, merci beaucoup pour l'invitation, très content de pouvoir présenter le produit auprès de ton auditoire, surtout après ce que tu as fait avec Tu-Tho, j'ai un peu la pression parce que je crois qu'elle est plutôt calée sur le sujet, mais ravi de pouvoir faire le produit aujourd'hui, merci pour l'invitation.
Cool, on va commencer. Avant de présenter le point d'accès national, je vais te demander de te présenter rapidement. Est-ce que tu peux nous dire quel est ton background, d'où tu viens et comment est-ce que tu en es venu à découvrir l'open data ?
Écoute, moi j'ai 30 ans, j'ai grandi à Bordeaux, j'ai fait des études d'ingénieur assez classiques. J'aimais bien les transports, j'adorais prendre le tram quand j'étais à Bordeaux. J'ai grandi avec le tram à Bordeaux qui est arrivé même temps que mon adolescence. Et du coup, c'est comme ça que je me suis dirigé naturellement vers le monde des transports en commun. J'ai commencé chez un opérateur historique Transdev, pour ceux qui connaissent. Puis après, j'ai eu l'opportunité de travailler pour un géant du numérique Google Maps pendant quatre ans, quatre ans et demi. Et malgré ce qu'on pourrait penser sur Google Maps, j'ai eu l'occasion de travailler via Google sur des projets open data puisque Google Maps intègre beaucoup de données ouvertes, et c'est à ce titre-là que j'ai eu ensuite l'opportunité de rejoindre le ministère pour travailler directement sur les données ouvertes avec le produit Open Data Transport data.gouv.fr (DataGouv) qu'on va présenter aujourd'hui. Voilà un peu mon background.
Alors, rentrons un peu dans le vif du sujet, avant déjà une première présentation de ce qu'est le point d'accès national. Est-ce que tu peux nous expliquer ce que c'est que le point d'accès national, dans quel environnement il évolue ? Je laisse la parole.
Déjà de manière très concrète le point d'accès national concrètement c'est un site web c'est quelque chose de numérique c'est un site internet sur lequel on va pouvoir accéder à des données qui sont initialement de nature nationale mais évidemment il y a certaines données qui seront aussi transfrontalières et donc c'est un point d'accès qui est à l'échelle d'un pays et de ses pays voisins sur lequel on va pouvoir accéder à un grand nombre de données Il y a des pannes sur chaque thématique, disons. Le pan en question aujourd'hui, c'est le pan de transport multi-modaux. Transport.data.gouv.fr, il est venu dans un environnement qui est celui de l'administration. On en reviendra après, mais c'est historiquement un produit qui a été créé sous le ministère du numérique, enfin l'interdiction interministérielle numérique, et qui ensuite a été rattachée à son ministère de rattachement, à savoir évidemment le ministère des Transports. Donc c'est dans un écosystème qui est à la base très numérique et qui, au fur et à mesure, se tourne vers des composantes plus métiers, à savoir maintenant le ministère des Transports.
Ok, tu as dit que c'était un des points d'accès nationaux est-ce qu'il y a d'autres points d'accès nationaux ?
Il y a d'autres points d'accès nationaux sur la thématique des transports il y en a principalement deux le pan multimodal qu'on appelle c'est le mien c'est le pan qui regroupe les données de transport multi-modaux donc les bus, les métros, les vélos le covoiturage, l'auto-partage et après il y a un pan plus routier qui est hébergé sur le site de Bison Futé pour le moment et qui contient les données routières. Là, c'est plus tout ce qui est limitation de vitesse, arrêté, sécurité routière, péage, etc. Et après, évidemment, il y a des pannes d'autres thématiques. Par exemple, il y a la base adresse nationale qui, on pourrait dire que c'est un panne aussi, mais sur les données d'adresse. Et je pense qu'il y en a encore plein d'autres. d'autres, je suis moins expert sur les autres, évidemment, mais un PAN, c'est juste, en fait, un site qui a pour vocation, qui normalement est plutôt neutre et qui est géré au niveau de l'administration, à agréger des données d'une même thématique sur une échelle nationale.
On va en reparler sur le podcast dans les semaines à venir. J'ai d'autres enregistrements sur le sujet. Si on reprend un peu l'histoire du PAN, donc pour les transports multi-modaux, à quelle date on décide, et d'ailleurs qu'est-ce qui fait qu'on décide de créer le PAN et quel était l'écosystème à l'époque et qu'est-ce qui fait qu'on décide de créer un point d'accès national ?
Spoiler, je n'étais pas là à l'époque. Je vais parler avec ce que j'ai eu comme mot de ceux qui étaient présents auparavant. D'ailleurs, ceux qui étaient présents, peut-être qu'ils m'écouteront, notamment à Ishan. Le PAN a été créé en 2017, 2017-2018. Il y avait deux raisons pour lesquelles il a été créé principalement, je pense. La première raison, elle est juridique. Il y a une réglementation européenne transposée en loi française où cette réglementation impose la création de ce panneau. En gros, la centralisation des données de transport sur un même et unique site géré par une administration publique. Ça, c'était la première raison. Et pourquoi il y a cette réglementation-là ? C'est parce qu'il y a un constat qui a été fait, c'est que historiquement, il y a deux mondes qui ne se parlent pas beaucoup. Il y a le monde des producteurs de données. Quand on parle de producteurs de données dans OPAN, on parle de ceux qui opèrent les réseaux de transport. Par exemple, la RATP, SNCF, ils opèrent des métros, des tramways, des trains, et ils génèrent des horaires de bus, des horaires de métro, etc. Donc ils génèrent des horaires de données. Et d'un autre côté, on a ce qu'on appelle les réutilisateurs. C'est ceux qui vont être intéressés pour avoir accès à ces données, pour en créer derrière un service particulier à destination des usagers et des voyageurs. Et historiquement, ces personnes-là avaient du mal à accéder à cette donnée-là. La donnée était restreinte, pas forcément accessible, souvent payante et souvent de mauvaise qualité. Et donc le constat a été fait que si on mettait un interlocuteur entre les deux avec un tampon Marianne, un peu de l'État, qui garantit que les données sont à jour, elles sont de qualité et elles sont accessibles en open data et sur le long terme, alors on allait pouvoir attirer plus de réutilisateurs. Et si on allait les attirer plus, derrière, plus de services pourraient être créés. Et si plus de services sont créés, potentiellement plus d'attraits pour la multi-modalité pour les Français et donc plus de décarbonation des transports, ce qui est in fine le but, disons, final du PAN, c'est de décarboner la mobilité. donc pour ça il faut que les français aient accès à la formation voyageur et pour ça il faut que les données soient disponibles et donc le panne agit un peu il fait un peu le pont, c'est comme s'il y avait un fleuve il y avait la rive gauche et la rive droite et bien en fait maintenant il y a le pont et on peut le traverser et bien c'est un peu ça l'idée du panne,
c'est pour ça que ça s'est créé historiquement
Ok, pour le contexte encore une fois, voir l'épisode avec Tu-Tho donc effectivement on part d'une situation dans laquelle les producteurs les réutilisateurs se parle pas beaucoup les données qui sont disponibles sont pas forcément complète pas forcément de qualité et donc il est difficile pour les acteurs présents ou les acteurs qui voudraient arriver sur ce marché de proposer des services quoi voilà exactement et donc là la réponse à tout ça c'est le pan et à l'époque ces données elles sont mises à 10 avant le pan et sont mises à disposition où elles sont mises à disposition par par où et par qui en fait ?
En fait, elles ne sont pas mises à disposition, elles sont élargies chez chaque producteur et chaque réutilisateur, chaque chercheur, étudiant, TPE, PME ou grosse boîte qui voudrait avoir accès à ces données-là pour faire un service et innover, et aussi pour mettre en valeur les données du producteur, parce qu'il y a ça aussi, il doit aller contacter individuellement ses détenteurs de données et aller potentiellement contractualiser avec eux pour avoir accès à ces données. Donc, il faut intentionnellement payer. Ça se fait de manière au cas par cas. Il n'y a pas de généralisation de cet accès-là, ce qui fait que, du coup, c'est un frein énorme à l'accès à la donnée. Et ce frein est tellement énorme que, du coup, il y a très peu de services qui se créent. Et donc, il y a très peu de valeur ajoutée derrière sur les données qui restent, du coup, propriétaires des producteurs qui, eux, ce n'est pas forcément leur métier d'innover avec ces données-là. Eux, c'est faire rouler des bus. Enfin, je caricature, s'ils m'entendent, qu'ils ne s'intéressent pas. mais c'est ça un peu leur métier à la base donc le but c'est justement d'aller créer des services innovants avec ces données là et pour ça il faut libérer la donnée il faut la rendre accessible
Ok, quand il y a la décision de créer donc ce point d'accès national quelles sont les étapes qui sont mises en place pour la création effective de ce point d'accès national parce que je suppose que comme c'est une directive européenne chaque état membre est libre de créer son pan sous la forme qui l'intéresse certainement que dans d'autres pays il y a d'autres formes qui ont été choisies quelles sont les discussions au niveau français est-ce que la forme actuelle qui a été choisie a été naturelle ou est-ce qu'il y a eu des discussions sur les formes où l'héberger, comment le faire etc.
Oui alors là pareil, je n'étais pas là et donc je ne pourrais pas te répondre précisément mais effectivement il y a des formes différentes de PAN notamment au niveau du financement il y a des pays européens qui ont décidé de faire financer le PAN par des acteurs privés En France, c'est purement public. C'est mono-financé aujourd'hui par le ministère des Transports, avant ça l'était par la direction interministérielle du numérique. Et la question, c'est de savoir, est-ce qu'on fait de ce panneau un hébergeur de données ou un diffuseur, ou les deux ? Cette question, on se la pose toujours aujourd'hui. Ce qui s'est décidé, et ce qui est toujours le cas après plus de sept ans d'existence c'est que le pan n'héberge quasiment pas de données mais les diffuse donc c'est à dire que les données elles sont stockées soit chez le producteur Soit chez DataGouv, je n'ai pas parlé de ça au départ, mais transport.data.gouv, qui est le nom de la plateforme du PAN, c'est une verticale, si tu veux, de la plateforme plus globale qui est data.gouv. Data.gouv, tu vas trouver plein de verticales, dont le transport. La spécificité juridique en France fait que les producteurs de données doivent, c'est instruit dans la loi, doivent publier leurs données sur DataGouv et donc pour ça après transport en DataGouv les récupère sur DataGouv et les affiche il y a très peu de données qui sont stockées chez nous les seules qui sont stockées chez nous c'est celles que nous on génère nous même il y en a quelques unes on pourra peut-être en parler si tu veux donc les discussions elles sont faites là dessus est-ce qu'on va aller tout stocker ou est-ce qu'on va plutôt diffuser comme le problème il n'était pas sur le stockage mais sur la diffusion. La décision a été faite de plutôt focaliser les efforts sur comment on diffuse et quels services on va aller apporter en plus en tant que PAN pour aller attirer des utilisateurs et apporter de la valeur à ces données. Donc plutôt que de se concentrer sur comment on le stocke, on va plutôt faire comment on diffuse et comment on garantit la donnée, comment on la fiabilise, comment on la met en valeur.
Donc le fait de développer ce panne spécialisé sur les données d'inter-modalité, sa forme était naturelle, puisqu'en fait, c'est qu'une verticale de DataGouv.
Oui, c'est ça. Après, historiquement, ce n'est pas forcément un termes multimodal. Le panne, au départ, il est vraiment une composante purement transport en commun. Évidemment, la mobilité a évolué entre 2017 et 2025. il y a eu beaucoup plus de vélos des trottinettes, du covoiturage de l'auto-partage et donc le produit a évolué avec la mobilité historiquement c'était des bus, des trams et des métros on n'a pas les données, il faut les rendre accessibles, on va les diffuser via une plateforme tamponnée Marianne on va les mettre en valeur et on va essayer de tirer des visages et créer des services autour de ça c'était ça un peu le contexte
Est-ce que tu sais comment ça se passe quand à la DINUM, ils décident justement de lancer ce projet sur le pan ? C'est un projet interne, ils définissent un chef de projet qui connaît le sujet et c'est parti ? Est-ce que tu sais, parce que tu n'étais pas là à l'époque, tu m'as dit, mais est-ce que tu sais un peu comment ça se passe quand il y a une thématique comme ça qui arrive ? Comment ils font en fait ?
Oui, je crois qu'en plus, à ce moment-là, 2017-2018, c'était vraiment le tout début de l'écosystème Dinum, qui a dû être impulsé plus ou moins politiquement par le président Macron à l'époque. Et donc, ils ont commencé à ce qu'on appelle l'annoncer des start-up d'État. Le but, c'était... Alors là, je ne suis peut-être pas la dernière personne, puisque en 2007, j'étais encore étudiant. Mais le but, c'était un petit peu d'aller essayer d'innover dans le service public, à l'assurance d'adresser des problématiques d'intérêt général avec une méthode agile en équipe réduite et interministérielle à l'époque. Donc c'est pour ça qu'ils ont changé le mot startup d'État. donc en fait effectivement ils choisissent si tu veux un chef de projet, chef de produit qu'on appelle intrapreneur maintenant, l'intrapreneur va avoir un petit peu carte blanche de comment faire pour adresser ce problème là il va devoir défendre un budget dire ok il faut que je résoudre ça et ça comme problème, il me faut telle ou telle ressource et financement et derrière il va pouvoir composer une équipe qui historiquement et encore beaucoup aujourd'hui est composée de personnes qui sont freelance donc ils vont aller chercher sur le marché les personnes qui sont compétentes et adéquates pour résoudre ce problème là et aller essayer d'aller vite en mode produit, une roadmap tous les 6 mois éviter un petit peu les projets un peu gros et assis du ministère avec des périodes qui vont de 2 à 3 ans etc c'était beaucoup plus court termiste avec plein je pense de startups qui n'ont pas prouvé leur marché et qui ont dû fermer au bout de 6 mois ou 12 mois C'est pour ça que c'est ce qu'on appelle un peu un incubateur d'État. Ce n'est qu'une fois que les startups ont vraiment prouvé leur utilité et trouvé leur marché, qu'elles sont ce qu'on appelle pérennisées. Et une fois qu'elles sont pérennisées, alors on peut décider d'investir durablement de l'argent public sur cette problématique-là parce qu'elle a prouvé qu'elle était utile. Et alors, on la pérennise et on la transfère dans son ministère de rattachement avec comme objectif en plus d'essayer d'infuser cette politique d'approche produit agile dans les ministères qui, historiquement, ne sont pas forcément câblés comme ça. C'était ça un petit peu l'approche.
Deux questions là-dessus. Quand on t'approche et que tu commences à travailler sur le sujet, t'es freelance ou t'as un contrat, tu deviens contractuel. Et la deuxième, derrière, c'est quelles sont les métriques ? Comment on sait que la startup a atteint les objectifs qu'on lui avait fixés et que ça vaut la peine d'investir et de la transférer vers son ministère de tutelle quoi.
Ouais, première question moi je suis arrivé du coup en je l'ai pas dit en intro mais je suis arrivé en septembre 2024.
Ah oui c'est récent
Ouais c'est récent c'est pour ça que le contexte historique sur le PAN je l'ai pas à 100 % et en tout cas la règle aujourd'hui c'est que l'intrapreneur d'un service public d'état doit être un agent public il est soit fonctionnaire soit contractuel moi comme j'arrive du privé je suis contractuel j'ai une mission j'ai un CD de 3 ans au ministère qui peut être renouvelé etc mais je ne suis pas freelance l'équipe du PAN elle est composée aujourd'hui exclusivement de freelance c'est un autre sujet mais moi j'aimerais bien qu'on internalise les compétences parce que quand un service est pérennisé il devrait l'être au sens strict du terme et large c'est à dire que l'équipe se pérennisait ce qui n'est pas le cas aujourd'hui originellement en tout cas il y a quelques années les entrepreneurs étaient peut-être freelance je crois qu'aujourd'hui c'est quasiment plus le cas ou alors c'est très peu commun, c'est plus la doctrine et la seconde question comment on décide de pérenniser etc, ça c'est à l'intrapreneur quand il crée la startup de dire voilà le problème qu'on résout, voilà les objectifs que je me fixe, voilà les métriques que je me fixe, est-ce que vous les validez, et en fait quand je dis vous c'est parce que la méthode d'une start-up d'État c'est qu'elle fonctionne avec des sponsors souvent les sponsors ce sont l'administration des plusieurs ministères ou plusieurs services dans les ministères et il y a ce qu'on appelle un comité d'investissement qui se réunit en général tous les 6 mois en fait tous les 6 mois on va aller rendre des comptes à l'administration qui nous finance en disant voilà ce qu'on a fait depuis 6 mois voilà ce qu'on compte faire ce qu'on compte résoudre est-ce que oui ou non vous approuvez notre feuille de route pour les 6 prochains mois est-ce que oui ou non ce qu'on a fait depuis 6 mois est-ce qu'elle correspond, est-ce qu'elle est fixée, est-ce que ça répond à une politique publique ? Et en fonction de ça, les décisions sont prises pour les six mois suivants, est-ce qu'on continue comme ça, est-ce qu'on réduit, est-ce qu'on accélère, est-ce qu'on ferme, etc. Et en ce qui concerne le PAN, c'est un peu différent, parce que le PAN a l'avantage ou l'inconvénient d'être inscrit juridiquement dans la loi française. Aujourd'hui, il ne peut pas y avoir de remise en question de l'existence du produit, puisque le produit est par définition intégrée dans la réglementation donc il faudrait changer la loi pour supprimer le PAN ce qui est possible mais c'est pas la même implication.
Par contre il y a d'autres start-up où là effectivement on peut décider de fermer un certain état avec des métriques qui sont ce qu'on appelle des métriques d'impact il faut arriver à prouver que le produit qu'on fait, qu'on développe, il répond à un vrai problème des français et il a un impact sur le quotidien des français ce qui pour le PAN en l'occurrence est très compliqué on n'est pas un produit B2C la question d'impact et à quoi on sert vraiment comment moi j'arrive à montrer que grâce au travail que je fais j'ai X personnes dans la vérité qui vont lâcher leur voiture pour aller prendre le bus ou prendre leur vélo pour remonter la chaîne jusqu'à ça c'est pas si simple c'est presque impossible de prouver que j'ai investi X euros grâce à X euros j'ai économisé Y déplacements en voiture et CO2 etc mais pour d'autres produits c'est beaucoup plus facile quand
t'étais chez Google Maps toi t'as dû voir le pan arriver et qu'est-ce que ça a amélioré aussi pour vous ça c'est quelque chose qui m'intéresse de comprendre ça aussi vu de l'autre côté de la barrière le réutilisateur qu'est-ce que ça fait mais avant qu'on aille plus loin sur ce sujet là j'aimerais comprendre quelles sont toutes les fonctionnalités du pan donc là on a parlé du fait que le pan il avait sa fonction première c'est de de mettre à disposition dans un endroit centralisé les données, le producteur de données de transport en commun. Est-ce qu'il a d'autres fonctions supplémentaires ou est-ce que c'est vraiment ça son but ?
Le but premier, c'est effectivement de mettre en relation les produits de données avec les réutilisateurs. Pas que transport en commun. Maintenant, on est élargi, comme je te dis, aux vélos en libre-service, aux vêtements, aux portages, aux voiturages, aux charges électriques, etc. etc. Donc on met en relation les producteurs et les réutilisateurs et évidemment cette mise en relation elle s'accompagne de services ajoutés parce que le but comme je t'ai dit c'est de pouvoir garantir que la donnée elle est fiable et elle est de qualité donc nous notre but ça va être d'essayer de faire monter en qualité la donnée et de la fiabiliser. Si la donnée elle est fiable et de qualité alors elle sera lue et utilisée c'est comme une médiathèque s'il y a des livres, il faut que les livres soient bien rédigés et qu'ils soient bien présentés pour qu'on ait envie de le lire comment on fait dans notre cas précis pour que les données soient de qualité on va animer l'écosystème on va aller participer à des webinaires interagir avec les producteurs, les former et les former sur les standards il y a des standards de données qui existent pour que tout le monde parle le même langage il faut s'assurer que les données qui soient transmises elle soit homogène parce que si demain tu mets des données qui soient hétérogènes et que les données de Bordeaux elles sont différentes en termes de structure, de Paris, Lyon Angoulême etc. derrière l'agrégateur de données il ne va pas pouvoir aller piocher comme ça s'il doit s'adapter un par un à tout producteur. Donc nous notre but ça va être d'animer l'écosystème et de faire en sorte que les données soient conformes aux standards et donc on a ce qu'on appelle des validateurs qui vont valider la donnée qui va être automatiquement transmise chez nous et ça va afficher un rapport et ce rapport va pouvoir permettre de former à la fois le producteur et le réutilisateur qui souscrit à la notification que les données qui sont présentes chez nous, elles respectent le standard. Et si elles ne le respectent pas d'ailleurs nous on aura un travail de suivi auprès des producteurs pour leur expliquer comment changer leurs données pour qu'elles puissent être conformes. On est les gentils si tu veux, on a un peu la carotte, on ne va pas aller leur mettre d'amende, etc., s'ils ne respectent pas la loi. Par contre, s'ils ne le font pas et qu'après, moult relances non plus, derrière, nous, on peut envoyer la police qui est l'autorité de régulation des transports.
Nous, on ne va pas aller mettre d'amende. En tout cas, on a cette fonctionnalité-là. Et après, on en a d'autres. On a des fonctionnalités pour les réutilisateurs qui, eux, vont pouvoir souscrire à des notifications, à des services pour être prévenus dès qu'un nouveau jeu de données arrive, dès qu'il arrive à expiration dès que quelqu'un commente sur un jeu de données voilà on a plusieurs services comme ça on allait aussi à part avant un convertisseur on ne l'a plus pour plusieurs raisons voilà on essaie d'un petit peu d'animer l'écosystème pour que la donnée soit de meilleure qualité et plus disponible et après on a des services annexes évidemment de communication de l'animation de l'écosystème et là dessus ça peut être plusieurs formes on a aussi une newsletter voilà le but c'est évidemment de faire le lien et d'encourager le développement des données et pour ça on pense qu'on est la bonne entité pour le faire
Gestion du changement et animation de la communauté et quand tu parles juste du validateur on parle bien d'un programme informatique qui tourne quand tu ajoutes tes jeux de données qui valident qui sont conformes à la qualité des données attendues
c'est un algorithme qui va valider Alors, si c'est un jeu de transport, il va valider que c'est un bon format de transport en commun. Si c'est un jeu de données vélo, il va valider que c'est un bon format de vélo, etc.
Ok, on reviendra sur les formats tout à l'heure. Et là, tu as parlé de l'ART. Dans quel écosystème évolue le PAN ? C'est-à-dire, le PAN, il interagit, donc on a compris qu'il interagit avec des producteurs, il interagit avec des réutilisateurs, il interagit avec l'ART. Est-ce qu'il a d'autres acteurs avec qui il interagit ? l'état forcément qui sont les gens avec en large avec qui il intervient le pan
principalement avec ce qui nous envoie les données et les réutilise donc les producteurs ça va être soit les opérateurs privés de transport comme sncf ratp blabla car titi zinko où ça peut être et c'est souvent le cas aussi les régions on appelle les autorités organisatrices de la mobilité les aom donc on On a à la fois des entités publiques et privées qui sont entre guillemets dans le lot des producteurs. Et après, on a les privées qui vont réutiliser. Là, ça va être le système, il est très varié. Et d'ailleurs, il a pour vocation à se développer parce qu'on ne les connaît pas bien, mais on parlera après. On a majoritairement et historiquement des gros acteurs, quelques itinéraires comme Google Maps, Transit, CityMapper, Apple Plan. Et après, on a beaucoup de petites entreprises qui ont besoin de données en open data pour faire des services innovants sur lesquels on va essayer d'accompagner aussi leurs usages. Donc, on a beaucoup d'acteurs privés. Et après, au niveau de l'État, effectivement, c'est assez varié. Principalement, le ministère des Transports, la Dinum, DataGouv et l'ART. Mais on a aussi d'autres acteurs type CEREMA, ADEME, avec qui on échange aussi pour des projets un peu divers et variés. et quelques aussi associations ou lobbies que ce soit au niveau américain ou européen on a des projets de coordination au niveau européen d'épargne donc on a des échanges aussi avec nos confrères homologues dans d'autres pays des associations comme Mobility Data qui est une sorte de lobby de la donnée avec qui on échange aussi parce que c'est important de travailler avec eux en fait c'est hyper riche c'est hyper varié j'avais une slide là-dessus bon là on est en audio mais mais j'avais genre 50 logos, donc c'est assez varié.
Est-ce que tu peux en expliquer en deux mots le CEREMA et l'ADEME juste pour les personnes qui ne connaîtraient pas ? Je te pose une question suivante.
Je ne sais même pas si je suis la bonne personne pour les présenter, mais les ADEME, ce sont des entités satellites de l'État. Ils ont une satellite de l'État qui permet un petit peu d'analyser des études environnementales. Le CEREMA, on travaille avec eux principalement sur le sujet de données de transport puisqu'ils analysent beaucoup de données de transport en France. Ils font aussi ce qu'on appelle la base PACIM. C'est une base qui permet de lister toutes les autorités organisatrices de l'habilité en France. Nous, on a besoin de savoir, sur un territoire donné, qui est responsable de la donnée, qui doit la publier, qui est en charge d'opérer le transport. Et cette question-là, le CEREMA nous aide à y répondre. Et après, l'ADEME, on est moins proche d'eux, mais on a quand même des sujets à faire avec eux. et là-dessus, ça reste encore sur l'échelle de plus prospective avec eux aujourd'hui. Par contre, le CEREMA, c'est vraiment un acteur avec qui on travaille, notamment les données routières aussi. Il y a pas mal de sujets avec eux en cours parce que le CEREMA a pas mal d'historiques sur les données routières avec les DIR, les directions interdépartementales des routes. Le CEREMA agit en tant qu'AOM, je dirais, sur des sujets d'analyse routière. Comme ils sont AOM, ils ont besoin d'analyses de données et donc ils viennent chez nous pour les utiliser. Et inversement, nous, on a besoin d'eux pour compléter les données, donc on échange aussi avec eux largement.
Est-ce que vous, vous êtes partie prenante d'une manière ou d'une autre dans les groupes de normalisation tels qu'on discutait avec Tu-Tho ?
Oui, on est partie prenante du GT7, normalisation des données de transport. Donc effectivement, on est partie prenante de ça. Et également, au niveau européen, il y a un projet qui s'appelle NAPCORE. NAPCORE, c'est National Access Point, donc point d'accès national. CORE, c'est Foreign Coordination in Europe. Donc en gros, c'est le projet de coordination des pannes à l'échelle européenne. et là-dessus il y a plusieurs sous-groupes du travail qui réfléchissent à comment mettre en place des normes au niveau européen et qu'elles soient respectées et partagées parmi tous les états membres il y a le sous-groupe 4.3, c'est très technique mais effectivement on travaille aussi à l'échelle européenne ce qui est hyper intéressant mais aussi super long en termes de temporalité c'est pas la même chose qu'au niveau français évidemment on a beaucoup plus de latence sur ces sujets-là donc c'est du temps long sur ça
Sur les données qui sont disponibles et mises à disposition par le point d'accès national, la première question que je me posais, c'était à qui appartiennent les données qui sont mises à disposition ?
Les données, elles sont à qui ? Elles sont à l'autorité organisatrice de la communauté, donc souvent ce sont les régions ou les comités de communes, principalement. Donc c'est à elles que les données appartiennent, mais elles délèguent un service qu'on appelle une DSP, Donc une délégation de services publics, en majorité elles délèguent, sinon on peut faire ce qu'on appelle un régie, mais quand elles délèguent, elles vont déléguer leur service à une entreprise privée qui va opérer les transports et qui va générer la donnée. Et après la donnée va être transmise à l'autorité européenne, ce qui va la publier chez nous. Donc c'est à l'autorité de publier
les
données.
donc là en fait quand on parle de données on va parler de données plutôt statiques plutôt déclaratives ou on va parler de données aussi dynamiques
oui c'est une bonne question parce que je ne l'ai pas précisé en introduction mais le champ d'application du PAN s'appelle les données d'offre en tout cas aujourd'hui ce n'est pas les données de réaliser mais données d'offre donc c'est à quelle heure passe le bus combien ça coûte, combien il y a de lignes mais ça ne va pas être combien de personnes sont montées dans le bus Combien de lignes ont été enroulées tel jour, etc. C'est vraiment la donnée d'offres.
Ça peut être données en temps réel des bus de telle ligne ?
Ça doit être même. Ça doit être les deux. Au sens de l'argumentation, ça doit être les deux. Donc nous, on couvre le domaine du statique et du temps réel.
Est-ce que vous imposez une licence particulière qui permette aux réutilisateurs de réutiliser la donnée ? Est-ce que c'est vous qui imposez une licence pour pouvoir déposer ces données sur data.gouv.fr ou est-ce qu'il y a un pool de licences acceptées et c'est l'autorité organisatrice qui définit la licence qu'elle va utiliser ?
Effectivement, ça c'est un point sur lequel nous on essaie de se battre dans tout cas on a une position là-dessus effectivement, nous on ne peut pas imposer la licence la réglementation n'impose pas de licence spécifique donc c'est à l'autorité organisatrice de choisir quelle licence elle applique aux données. Et effectivement, selon la licence choisie, l'impact sur la réutilisation de ces données-là va avoir une importance. Donc nous, en tant que PAN, on prône la licence ouverte. Alors il y a plusieurs licences ouvertes, 1.0, 2.0, en gros c'est la licence ouverte, c'est celle qui est la moins restrictive.
Pardon, la licence ouverte pour les données, c'est quoi cette licence ? C'est une licence française ? C'est quoi ?
C'est la licence française, licence ouverte V1.0 ou 2.0. En fait, c'est une licence qui n'impose pas de conditions en échange. C'est-à-dire que tu peux te servir et on ne peut pas pouvoir te demander en échange quoi que ce soit. Donc, en fait, c'est très peu respectif. C'est-à-dire que du coup, en utilisant cette licence-là, on est certain que n'importe quelle entité pourra te donner, ne pourra pas dire « Ah ben non, je ne la prends pas parce que sinon j'ai tel ou tel risque parce que la licence FAT elle ne comporte pas de risque par contre il y a des autorités qui font le choix de mettre d'autres licences typiquement la licence Open Database License c'est une licence particulière ou la licence mobilité qui elle par contre va imposer en échange de l'accès à la donnée un repartage de la donnée un repartage selon des conditions qui peuvent être plus ou moins restrictives et donc plus ou moins handicapantes pour certains personas de rétablisseurs et donc potentiellement être un frein pour l'accès à la donnée. Donc par exemple les gros acteurs comme Google Maps ne vont pas forcément intégrer des données qui sont sous tel état de licence parce que derrière, pour eux, ça représenterait un risque en termes de données puisqu'on pourrait leur demander en échange des données qui seraient dans le champ d'application bien plus large que ceux pour lesquels les données de base ont été récoltées. Donc il y a des risques comme ça qui sont considérés par les personnes et donc nous on essaie de pousser à la licence ouverte, puisqu'on est convaincus que si la licence est ouverte, les données seront largement partageables et donc on aura de plus en plus d'impact et de réutilisation d'arrière.
Pour les auditrices et auditeurs qui veulent en savoir plus sur les licences au DBL, on a parlé de ces sujets, pouvez-vous référer à l'épisode 1 sur OpenFoodFact et à l'épisode de présentation de OpenStreetMap ? Vous pouvez en savoir plus en écoutant ces épisodes. Fin de la parenthèse. Donc, il y a un sujet de licence. C'était une des questions que je m'étais posée en regardant les différents séminaires sur le PAN. Je me demandais est-ce que vous aviez un moyen quelconque et si c'était de la persuasion et aussi quels arguments vous mettiez en avant ? Parce que typiquement, je parle à l'argument de dire que vos données, elles sont accessibles dans Google Maps. Est-ce que c'est un argument recevable pour une une autorité organisatrice ou pas, je ne sais pas.
Je peux répondre directement, mais oui, plus l'autorité organisatrice est petite, moins elle a de ressources pour aller envoyer ces données aux acteurs tiers. Et donc, pour une autorité organisatrice comme, peu importe, mais une petite autorité organisatrice, le fait de faire l'effort une seule fois, c'est-à-dire de faire l'effort de mettre les données chez nous, si elle met les données en licence ouverte elle aura la garantie que derrière les données vont être diffusées partout dans l'écosystème et donc plutôt que d'aller appeler individuellement SNCF Connect Apple, Google, Transit CDMapper, etc elle va le faire une fois chez nous et derrière nous on va faire ce rôle de diffuseur et donc en termes d'économie et surtout de visibilité, la garantie de la licence ouverte c'est d'avoir derrière son offre qui est diffusée partout. Si on a une licence plus restrictive, on n'a pas cette garantie là et donc ça c'est un argument qu'on utilise évidemment souvent pour convaincre les producteurs d'ouvrir leurs données au maximum.
Je mettrais un lien pour celles et ceux que ça intéresse aussi vers un projet assez récent avec un lien vers des conférences du FOSDEM sur un un projet qui s'appelle Transitious, qui est un service communautaire qui permet de faire une alternative, un système de routage open source assez prometteur, qui réutilise les données des différents pannes européens aussi. Je mettrai un lien vers une conférence du FOSDEM qui explique tout ça. Je ferme encore une fois la parenthèse. Pour parler des formats, tout à l'heure, tu as introduit rapidement le fait qu'il y avait différents formats. Qu'est-ce qu'on a comme format, comme on va dire grand format pour gérer les données de mobilité et lesquelles sont acceptées sur le PAN ?
Alors, il faut différencier les standards européens des formats industriels. Historiquement, il y a les formats industriels. Pour les transports en commun, le format industriel, celui qui est utilisé par l'industrie au sens large, c'est le GTFS. donc GTFS correctement le G c'est pour Google parce que c'est Google qui l'a créé maintenant c'est devenu ouvert et c'est open data c'est vraiment libre d'accès le G a été remplacé par General Transit Feed Specification donc c'est un format de données industriel ce n'est pas le format de données qui a été choisi par l'Union Européenne pour plusieurs raisons qui est le format NeTeX Au sens juridique, on a l'obligation, et ça a du sens, de promouvoir les standards européens. Derrière, nous, on est au contact de l'écosystème, on a aussi besoin d'écouter les besoins des producteurs et des industriels. Et donc, notre priorité, ça reste d'avoir de l'impact et, au sens large, de décarboner la mobilité. donc nous le PAN jusqu'à présent a toujours eu la double approche faire du mieux qu'il peut pour référencer les formats réglementaires européens et accepter les formats industriels en encourageant l'industrie à basculer vers les formats réglementaires parce qu'il y a des intérêts à le faire au-delà du juste cocher la case légale donc nous on fait les deux on référence les formats industriels et les standards européens j'ai mis GTFS, NeTeX, transport en commun ça va être Datex pour les IRVE IRVE c'est quoi ? IRVE c'est Infrastructure de Recharge pour Véhicules Électriques donc c'est les bornes de recharge électrique Format GBFS pour les vélos donc là c'est au lieu de T pour Transit c'est B pour Bike donc c'est le même type de format disons mais pour cartographier l'offre de vélos en libre-service ensuite on a des formats un peu plus maison selon les types de données où il y a encore besoin de normalisation je pense notamment aux aménagements cyclables par exemple qui sont des formats donnés ou le parking qui sont encore très clairs entre ce qu'on met du NETEC ce qu'on met du CSV donc quand c'est pas très clair, le PAN peut avoir ce rôle là de participer au groupe de normalisation pour aller établir un schéma c'est ce qu'a fait par exemple le PAN pour les données de borne de recharge, qui a créé un schéma franco-français pour le coup, parce qu'au départ, c'était pas normalisé au niveau européen. Et ensuite, une fois que ça se normalise au niveau européen,
le PAN va tendre vers cette normalisation-là et soit changer carrément le format, soit mettre en place des outils pour convertir les formats d'un format industriel à un format réglementaire. C'est ce qu'a fait, par exemple, historiquement le PAN sur les transports, où tout le monde envoyait en GTFS alors qu'il fallait du NeTeX et l'industrie n'était pas prête à fournir du NeTeX donc le PAN a aidé l'industrie en fournissant un convertisseur GTFS NeTeX qui depuis a été supprimé pour encourager les producteurs à produire nativement en format réglementaire NeTeX.
Je pense que NeTeX on y reviendra plus en détail dans un épisode futur mais tout à l'heure tu as dit que il y avait des avantages à utiliser le NeTeX comparé au GTFS est-ce qu'en quelques mots tu peux peut expliquer quels avantages il y a qui nécessitent que les producteurs de données changent le format dans lequel ils envoient les données ?
Oui. Déjà, il faut savoir que le format d'AlNeTeXt n'a pas été créé strictement pour les mêmes cas d'usage que le GTFS. Le GTFS, c'est vraiment un format destiné à l'information voyageur. Le NeTeX, c'est un format de données qui permet aux opérateurs de transport de mieux gérer leurs services et pas uniquement de gérer l'information voyageur. L'Ile-de-France Mobilité, l'autorité organisatrice de la mobilité en région de l'Ile-de-France, utilise le NeTeX. Et pourtant, derrière, elle va fournir et exporter à la fois du GTFS. Donc, ce n'est pas forcément un usage. Il ne faut pas opposer les deux. Les deux sont complémentaires. Par contre, effectivement, quand il s'agit de modéliser une offre de transport, si on veut vraiment être puriste et modéliser à 100 % l'offre de transport, on ne pourra pas le faire en tout cas pas aujourd'hui avec le gtfs notamment tout ce qui est accessibilité et gamme tarifaire gamme tarifaire et accessibilité sur le gtfs on est assez restreint aujourd'hui alors que sur le NeTeX on peut dire si la rampe elle fait 8 % ou 5 % pour descendre du bus combien elle fait de mètres et de largeur etc des choses qu'on peut pas forcément modéliser mais disons que pour la formation voyageur le gtfs répond probablement à 95 % des besoins et le 5 % restant si on veut aller les chercher encore faut-il que les données soient existantes si on veut aller les chercher il va falloir aller peut-être sur le NeTeX je sais pas donc c'est ça un peu la différence mais vraiment les deux sont pas opposés les deux sont complémentaires et nous ce qu'on pense au PAN c'est que à long terme on aimerait que les données soient toutes produites au format riche NeTeX et derrière qu'il y a un export GTFS pour les besoins d'information voyageur parce que que le format GTFS a des avantages en termes de taille de fichier, c'est beaucoup plus souple, beaucoup plus facile à manier, et ça répond à beaucoup d'usages très simples que le NeTeX est peut-être un peu moins accessible aux commandes immortelles. Donc nous, on vise plutôt d'avoir ce schéma NeTeX vers GTFS, vers les applications de formation en voyage.
Ok. Pour finir sur ce sujet, deux questions. La première, c'est est-ce que toutes les données de transport, c'est des données publiques ou est-ce qu'il y a encore des données qui sont privées et qui ne sont pas publiées ou qui ne peuvent pas être publiées ? Est-ce qu'il y a des données qui sont payantes aussi ?
Bonne question. Quand j'ai vu cette trame, je me suis dit que cette question, je n'allais pas fonctionner dans toutes les réponses. Elles ne sont évidemment pas toutes publiques. Celles qui sont listées dans la réglementation, évidemment, elles ont vocation à être publiques et elles le sont de plus en plus. mais pour des questions de secrets professionnels et de concurrence entre opérateurs il y a encore des données qui sont malheureusement pas forcément ouvertes je pense notamment par exemple tout ce qui est aux données de réaliser on appelle donc la fréquentation combien de bus montent à tel arrêt à telle heure ça c'est quelque chose c'est une donnée qui n'est pas forcément partagée par l'opérateur historique par exemple l'opérateur qui opère les bus à à Bordeaux, demain, il y a un appel d'offres, il y a un opérateur entrant qui veut arriver pour gagner le marché, mais il n'aura pas forcément accès à ces données-là. Et la vocation, c'est d'ouvrir ces données au maximum. Il y a des projets là-dessus, notamment le projet Oprah, mais je ne connais pas encore bien là-dessus. L'idée, c'est d'ouvrir le plus ces données-là, mais effectivement, encore aujourd'hui, ces données-là ne sont pas forcément publiques, et du coup, si on veut y avoir accès, on va devoir payer.
L'AOM, elle y a accès, elle ?
Oui, l'AOM elle paie pour ça L'AOM
elle pourrait très bien mettre dans ses appels d'offres que ses données soient publiques ou alors c'est qu'elle ne veut pas le faire pour certaines raisons particulières Du
coup je ne suis pas un expert des appels d'offres je n'ai pas dit de bêtises mais je pense peut-être que les opérateurs qui n'ont pas forcément toutes les données à la haut il y en a certains qui s'arrivent à garder parce que c'est leur secret professionnel et c'est leur intérêt effectivement là-dessus il y a toujours des cas par contre sur le pan, on ne retrouve que des données gratuites, on n'a pas de données payantes sur le pan on est vraiment sur le pan d'attente si après pour les données payantes ou plus à caractère confidentiel, j'en profite pour faire des pareil pour aussi les lecteurs les écoutes, l'auditoire il y a le projet EonaX d'ailleurs ça pourrait possiblement être un sujet pour tes prochains podcasts dans ma liste aussi Mélanie Vessier qui a rejoint Eona-X tu pourrais l'appeler si tu veux par exemple qui est ex-VJTM pour tout lui donner un petit peu un caractère restreint et confidentiel on peut ce qu'on appelle créer un data space où on peut avoir un échange de données privé entre acteurs et industrie sans que ça passe en open data précisément et ça ça peut être le cas pour des données sensibles, de sécurité à caractère commercial etc donc là dessus ça serait C'est un peu le complément du pan version confidentielle.
Ok. Ce que j'aimerais qu'on discute, c'est quelques exemples concrets. Parce qu'on a parlé du fait que le but ultime, c'était que la donnée soit disponible, que les réutilisateurs s'en emparent et que ça améliore le système pour qu'il y ait du report modal et qu'en gros, à la fin du fin, on fasse baisser la consommation, le CO2 qu'on envoie dans l'atmosphère est-ce que tu as des exemples concrets à nous donner alors ça peut être dans ton expérience ou des exemples de réutilisateurs et de l'intérêt du pan pour eux et donc in fine pour les utilisateurs l'utilisateur final des transports
les exemples les plus marquants c'est ceux qui vont avoir le plus d'impact pour les français et donc souvent on parle des gros opérateurs d'applications multimodales, Google, Apple, etc. On a évidemment des cas d'usages beaucoup plus locaux à un impact plus restreint. Si on parle de ceux qui ont le plus d'impact, notamment Google Maps, moi j'étais chez eux avant pendant 4 ans. Là-dessus, c'est très clair, avant que le PAN n'existe, un opérateur comme Google Maps, en France, en 2018, devait pour des enseignements, je pense à ce moment-là référencer peut-être un maximum une dizaine de villes en France c'est-à-dire que tu avais 10 villes en France ou quand tu faisais un itinéraire de la gare à la mairie par exemple tu allais dans l'onglet transport en commun ils te disaient il n'y a pas il faut marcher prends le taxi pourquoi ? parce qu'un opérateur comme Google qui est mondial et global il n'avait pas les ressources nécessaires et potentiellement à ce moment-là il ne voyait pas la valeur ajoutée d'aller dédier de l'énergie pour aller contacter un par un tous les opérateurs de transport Imagine, demain, Google veut référencer tous les transports en commun de tout le monde entier. Par exemple, la France, s'il fallait contacter un par un tous les appartements de transport en France, il faut staffer une équipe, et une équipe de beaucoup de personnes, et mettre beaucoup de moyens en face de ça. Ce qui n'était pas la priorité de Google en 2018. Donc, il n'y avait pas de données. Donc, concrètement, ça veut dire quoi dans l'impact des Français ? C'est qu'un habitant de Clermont-Ferrand, en 2018, il était chez lui, il voulait aller à la gare pour après la paris bon bah en fait il voyait qu'il n'y avait pas de bus alors que le bus il existait mais s'il n'était pas au courant de ça et potentiellement qu'il ne le prenait pas et qu'il allait prendre sa voiture avec l'arrivée du pan des acteurs comme google et d'autres ont changé leur approche parce que du coup plutôt que d'aller parler individuellement à chaque opérateur ils ont un interlocuteur qui est le pan qui fait le travail d'agrégation pour eux et en échange ils peuvent intégrer très facilement beaucoup de données c'était mon mon boulot avant, donc ça je peux en parler donc en l'espace de 4 ans j'ai passé d'une dizaine de villes à plus de 130-140 réseaux maintenant même beaucoup plus de réseaux disponibles dans les villes en France et un cas d'usage concret c'est quand je suis arrivé en 2020,
à Lyon il n'y avait rien alors que Lyon on parle de Lyon quand même il n'y avait rien, donc ils te disaient tu voulais aller de Fourvière à la gare, ils te disaient marche, prends ton vélo, bah maintenant il y a les horaires de transport en commun et moi je voyais le nombre de requêtes le nombre de requêtes par semaine sur Google Maps à Lyon c'est en millions donc tu peux largement derrière voir l'impact que ça peut avoir sur les Français tu te dis bah en fait sur les millions de requêtes peut-être que j'ai réussi à convertir 1 % qui ont finalement pris le bus plutôt que leur voiture mais 1 % de la million chaque semaine à l'échelle de la France ça fait beaucoup donc c'est un impact très concret de ce qu'a pu apporter le pan à grande échelle et après à petite échelle et c'est moins B2C mais ça l'est in fine c'est là que c'est dur de montrer notre impact c'est que plein de TPE, PME ont pu grâce à nos données faire des analyses et vendre des services annexes aux collectivités par exemple pour leur dire regardez combien il y a de lignes de bus sur notre territoire à quelle heure il passe on pourrait peut-être l'optimiser et mettre plus de bus ici et moins ici etc. Et donc après ces services-là sont fournis aux collectivités la collectivité derrière à pouvoir changer son service, mettre plus de bus là, moins de bus ici, et donc, in fine, améliorer le confort et le service fourni à leurs citoyens. Ces deux exemples le plus marquant, c'est évidemment quand on prend des collaborateurs comme Google Maps, on voit direct l'impact. Moi, quand j'étais chez eux et que je bossais un mois sur les données de Clermont-Ferrand, que je lançais Clermont-Ferrand sur Google et que je voyais qu'en l'espace d'une semaine, j'avais 600 000 requêtes, le chiffre est un chiffre random, c'est un peu ces centres de grandeur-là. 600 000 requêtes en une semaine à Clermont-Ferrand. Je me disais, OK, j'ai 600 000 personnes qui ont fait une simulation de trajet en transport en commun à Clermont-Ferrand. Avant, elles n'avaient rien. Peut-être que sur les 600 000, j'en ai informé peut-être un dixième que maintenant, elles sont au courant qu'il y a le bus E4 qui passe à l'arrêt en mode chez elles et qu'elles peuvent prendre leur bus. Ça, c'est un exemple concret de ce qu'a pu changer le pan en termes d'accès à la formation en voyage.
La question que je me pose qui est un peu complémentaire à ça, Est-ce qu'il y a des producteurs qui prennent trop de temps pour déposer leurs données ou qui ne veulent pas déposer leurs données ? Dans ce cas-là, tu disais que vous passez le dossier à l'ART qui ensuite, derrière, peut faire des choses. Je me demandais ce qui pouvait être fait de manière concrète pour obliger un producteur à partager ses données et surtout à partager des données de qualité. Parce que finalement, s'il partage des données mais qu'elles ne sont pas de qualité, même si toi, tu veux qu'elles soient de qualité, finalement, l'impact est moindre.
Oui, c'est clair. c'est là que réside la complexité de notre travail c'est qu'on n'est pas producteur on a beau faire tous les efforts du monde, si en face de nous ça ne répond pas, ça ne répond pas moi j'ai des cas encore aujourd'hui où j'ai des producteurs qui ne répondent pas depuis 6 mois en fait on ne peut pas avancer dans ces cas là, ce qui se passe c'est que derrière effectivement, quand un producteur ne collabore pas alors ça peut être volontaire ou parce qu'il n'a pas de ressources ce n'est pas que de la mauvaise volonté la plupart du temps c'est surtout en fait j'ai pas le temps, j'ai pas de ressources donc lâchez moi la grappe avec vos sortes de données, moi je fais rouler mes bus, c'est pas ça dans ces cas là, on transfère le dossier à l'ART qui va envoyer des courriers de rappel elle va envoyer un courrier elle va attendre 6 mois, elle va envoyer un second courrier et donc c'est du temps long effectivement, in fine après quelques relances, je saurais pas te dire les règles précises parce que je ne te l'avais pas alerté mais après quelques relances la menace c'est qu'il y a une amende je ne saurais pas te dire s'il y a déjà eu un cas où on est arrivé jusqu'à l'amende mais souvent les courriers de relance suffisent et permettent de débloquer la situation et même je te dirais même que souvent on n'a pas besoin d'en arriver là et notre travail de support et d'écosystème permet de débloquer les choses il y a toujours des récalcitrants mais la plupart du temps ça suffit il y a aussi ce qu'on a mis en place qui marche bien, c'est un peu une sorte de pression sociale publique, en fait quand un producteur met une donnée, là je parle pour la qualité je ne sais pas Angoulême, j'ai rien contre eux c'est pas le cas, mais Angoulême m'envoie leurs données, leurs données sont pourries, rien à faire elles vont être publiées quand même on va afficher un message, un rapport d'erreur qui va clairement afficher que les données sont pourries on va les historiser on va pouvoir voir que dans le temps elles sont aussi pourries et derrière il y aura une sorte de commentaire public où l'écosystème qui est donné va pouvoir mettre en commentaire alors peut-être qu'en boulet quand il va voir que Tartampion chercheur étudiant dit que ça va pas il va l'ignorer mais quand il va avoir un commentaire, deux commentaires, trois commentaires cinq commentaires et que c'est Google qui commande, que c'est Apple qui commande mais à force peut-être qu'il va se dire ah mais en fait ça va peut-être être le coup que je me bouge et que je corrige donc il y a une sorte d'affichage en public qui peut fonctionner évidemment on n'est pas là pour afficher tous les mauvais joueurs mais des fois ça fonctionne naturellement on a un producteur qui envoie des mauvaises données direct,
on a trois personnes qui commentent qui disent là ça va pas et puis la semaine suivante ils corrigent
Ok, c'est quelque chose que je pense évoquer mais qu'on n'a pas creusé avant, c'est la relation avec les réutilisateurs. Donc là ce que je comprends c'est que vous servez de point unique pour le réutilisateur pour commenter et donc en fait vous faites le pont avec le producteur. donc le réalisateur peut laisser des commentaires pour le producteur enfin pour les producteurs alors qu'avant il ne le ferait pas du tout ou il l'aurait peut-être fait mais c'était des échanges de mail enfin ce n'était pas forcément public quoi
exactement ouais le but c'est effectivement de fournir la plateforme pour les réalisateurs ils peuvent ils n'ont que nous comme plateforme et donc pour eux c'est facile de faire des retours ils le font sur la plateforme directement derrière soit le producteur joue le jeu et répond au réalisateur directement soit des fois il ignore et dans ces cas-là s'il ignore nous on surveille ça et on va pouvoir aller relancer nous même le producteur donc il y a les deux effectivement mais oui on fait ce lien entre les deux et c'est souvent comme ça qu'on arrive à augmenter de manière incrémentale la qualité des données c'est qu'au début la donnée va pas être très bonne et puis il va y avoir un retour et puis il y a Michel qui va dire que ça c'est qu'il manque la ligne 3 et puis il y a Cécile qui va dire que la ligne elle est pas rouge mais elle est rose et puis il y a un tel qui va dire ça et au fur et à mesure dans le temps, les retours vont s'accumuler et ces retours vont être intégrés par le producteur qui va d'ailleurs les repartager à tout l'écosystème et on va créer un petit peu ce cercle vertueux de la valeur de l'open data en ayant ce partage et ces retours d'utilisation de chaque personne, plutôt que de les faire dans son coin.
je pense que tu l'as évoqué un peu avant mais donc on peut dire qu'il y a plus de réutilisateurs maintenant qui a le pan qu'avant alors
on peut dire qu'il y en a plus et c'est certain malheureusement on ne peut pas dire aujourd'hui encore combien ça c'est un sujet aussi qui est d'actualité c'est un peu malheureusement l'inconvénient de l'open data au sens strict du terme comme on l'a aujourd'hui c'est que on n'a pas une liste exhaustive de toutes les personnes qui viennent chez nous toi demain tu viens chez nous tu télécharges les données de Clermont-Ferrand et tu repars moi dans mon système j'aurai plus 1 en téléchargement de la donnée de Clermont-Ferrand je ne saurais pas que c'est valide du projet podcast et qui veut en faire telle ou telle utilisation malheureusement ça je ne saurais pas j'ai une vision assez large de qui vient chez nous mais encore aujourd'hui je ne connais pas tous les clients de BD parce qu'ils viennent de chez moi ce qui peut poser souci quand il s'agit de prouver notre utilité en interne, à quoi on sert quels problèmes on résout et combien d'argent on a besoin pour résoudre ces problèmes là.
Vous encouragez les gens à vous enregistrer quelque part pour dire qu'ils l'utilisent comment ça se passe ?
Alors on ne fait pas des sondages mais effectivement on encourage les réutilisateurs à se déclarer en tant que réutilisateur en fait on a sur notre plateforme on encourage les personnes à déclarer qu'ils sont réutilisateurs et ensuite on les encourage à déclarer leur réutilisation. Donc si tu vas sur data.gouv, tu as un onglet réutilisation et tu peux voir un peu un exemple, un panorama de toutes les données, de tous les projets qui ont pu être menés grâce aux données disponibles sur le pad. Mais ce n'est pas tous les projets, c'est des projets pour lesquels les personnes ont bien voulu le déclarer. Donc effectivement ça représente peut-être 10%, 5%, 15%, on ne sait pas, de l'étendue de ce qui a pu... Après c'est peut-être aussi la la magie du truc c'est qu'il y a toujours une part de mystère et on ne saura pas vraiment à 100 % ce à quoi on sert Pour
finir sur ce sujet il y a une question que je n'avais pas notée mais qui me vient quand on discute c'est quels sont vos rapports tu as parlé plusieurs fois de chercheurs quels sont vos rapports avec les chercheurs, avec les universités bref avec les gens qui travaillent de manière académique sur les données est-ce que vous avez des rapports, est-ce que vous avez des projets avec eux, est-ce que vous savez ce qu'ils font avec les données qu'ils consomment ?
pas assez non pas assez on n'a pas beaucoup de projets avec eux aujourd'hui historiquement la scène du pan c'était vraiment les gros quelques itinéraires parce que c'était eux qui avaient été identifiés comme étant ceux avec lesquels on allait avoir le plus d'impact rapidement les efforts ont été tournés vers eux aujourd'hui je pense qu'on a vocation à s'élargir et on a trois du coup je change un peu la question mais on a on a un peu trois personnels aujourd'hui on a les gros réutilisateurs ceux qui sont experts des données de transport donc ça va être soit Google Apple soit des cabinets d'études très spécialisés dans le transport en commun qui viennent de chez nous ça c'est un personnel pour lequel qui est un peu celui du personnel historique du PAN sur lequel on a beaucoup investi après il y a un personnel qui un peu entre les deux c'est des personnes qui sont normalement des transports mais qui ne sont pas experts de la donnée là-dedans par exemple tu peux avoir des chercheurs ou des académiciens qui ne sont pas forcément experts de la donnée de transport GTFS mais qui ont un projet de transport, pour ce projet de transport là, ils vont avoir besoin de manière épisodique de telle ou telle donnée de transport et donc ils vont devoir s'intéresser à notre produit. Et nouvellement, et ça arrive de plus en plus, c'est intéressant, on a un troisième persona où on a des acteurs qui sont totalement en dehors du monde des transports, mais qui pour des projets, des besoins très précis, vont vouloir intégrer de la donnée de transport. Typiquement récemment, on a eu des agences immobilières une agence immobilière qui en fait qui sur son site met des maisons et appartements à vendre et en fait pour les mettre en valeur elle aimerait automatiser le fichage des arrêts de transport en commun proche des biens qu'ils mettent en vente parce qu'on sait aujourd'hui qu'un bien qui est proche de transport public a plus de valeur donc elle aurait aimé automatiser ça du coup elle vient chez nous pour aller récupérer les arrêts de transport et les afficher sur sa cartographie en mettant la maison proche de l'arrêt 4 machin truc ça on a des choses comme ça qui évoluent sur les académiciens-chercheurs historiquement j'étais pas là au départ mais moi j'ai pas vraiment d'exemple précis avec cette catégorie d'utilisation
Dernier sujet que je voudrais évoquer pareil tu en as parlé un tout petit peu au début dans l'intro c'est l'avenir du pan, avant qu'on se quitte je vous remets qu'on parle de l'avenir du pan quel est ton sentiment, où est-ce que vous en êtes arrivé à l'heure actuelle, est-ce que vous êtes arrivé un résultat qui est satisfaisant peut toujours faire mieux mais est ce que vous estime que le résultat auquel vous êtes arrivé en termes de production qualité des données c'est un résultat satisfaisant et ce qui reste encore beaucoup de chemin à faire puis après c'est bah voilà quels sont les défis quoi qu'est ce qui qu'est ce qui arrive devant les gros trucs ça soit en termes de données en termes d'organisation de financement qu'est ce que tu peux nous dire là dessus alors
la réponse enfin parce qu'on a aujourd'hui au pan la réponse elle dépend vraiment du mode de transports dont on parle. Le PAN, historiquement, il a été dédié aux transports en commun. Donc, aujourd'hui, transports en commun, on n'a pas fini le jeu entre guillemets, mais on est au niveau 90 sur 100. C'est-à-dire qu'on a cartographié la quasi-intégralité des transports en commun en France. Il y a encore du travail à faire sur la qualité et sur la réalisation. Je ne l'ai pas dit au départ, mais on a trois verticales au PAN pour un peu analyser ce qu'on fait. C'est la quantité, la qualité et la réutilisation si on a des données qui sont de qualité et en quantité d'ailleurs elles seront réutilisées pour le pan, aujourd'hui pour les transports en commun on a beaucoup de quantité on a beaucoup de qualité donc elles sont réutilisées mais on pourrait faire mieux en qualité par contre pour les autres modes de transport qui sont beaucoup plus émergents et beaucoup plus récents on n'est pas au même degré de maturité au pan pourquoi ? parce que l'écosystème ne l'est pas non plus Tu prends l'écosystème des trottinettes et des vélos libre-service, jusqu'à il y a encore un an ou deux, le marché était, c'est la jungle si tu veux, c'est-à-dire que tu avais Lime, Dot, Tailleur, tout le monde arrive en même temps, tous les six mois il y en a un qui changeait, il y en a un qui coulait, l'autre qui se faisait racheter, machin, truc. forcément quand l'écosystème est aussi peu mature, derrière la donnée, elle ne va pas être mature non plus donc sur ces modes là un peu plus émergents on n'en est pas encore au niveau final du jeu là-dessus on est encore en train d'aller chercher des données en VLS il nous manque encore à peu près 20 % des jeux 20-30 % des flux de vélo c'est quoi VLS ? vélo en libre-service c'est les réseaux type Vélib ou les réseaux en free floating Lime, Dot donc là dessus on n'a pas fini parce qu'on manque encore des données c'est la même chose pour l'auto-partage pour le covoiturage et après on a des modes encore plus nouveaux encore plus récents comme par exemple les bornes de recharge électriques les bornes de recharge chaque jour en France t'as peut-être des centaines de nouvelles bornes qui sont créées
je confirme celle à côté de chez moi et vient être mise en service aujourd'hui même
quand tu as ce degré de maturité d'évolution c'est compliqué pour nous d'aller suivre si tu veux cette chaîne donc là dessus au niveau de ces modes là on a encore énormément à faire parce qu'il faut aller animer l'écosystème il faut aller rencontrer tous les acteurs qui changent du jour au lendemain il faut aller normaliser la donnée et ensuite il faut aller l'agréger parce que pour les bandes de recharge pour le coup on a aujourd'hui plus de 1800 producteurs différents donc on a plus de 1800 sources de données différentes et nous on va agréger les 1800 sources pour en fournir un seul fichier qui va consolider toutes les bornes en un fichier puisque ce que veut derrière le réalisateur c'est un seul fichier donc pour en revenir à ta question les défis évolution ils sont très différents selon le mode dont on parle donc aujourd'hui on a encore énormément à faire sur les nouveaux modes et probablement que les nouveaux modes ils vont encore changer et encore évoluer dans les prochaines donc on aura toujours énormément à faire là dessus c'est certain après sur les évolutions à venir et les grands défis Pour moi, le plus grand défi, c'est de mieux connaître nos usages. En fait, c'est compliqué historiquement de faire évoluer un produit et de le légitimer en termes de financement à l'administration si tu n'es pas capable d'aller voir tes décideurs en leur disant concrètement à quoi tu sers, qui vient chez toi et pourquoi. Et malheureusement, moi, en tout cas, depuis que je suis arrivé, c'est un peu ce à quoi je me heurte. On me dit, OK, on va te filer combien ? On va te filer un million ou un million deux ? ok et les 200 000 euros ils s'en auront à quoi en plus tu vas aller voir qui en plus, qui viendra chez toi mais ça c'est compliqué quand t'es pas capable de dire qui viendra chez toi en tout cas pas de manière très lisible et très exhaustive donc il y a des enjeux derrière ça qu'on est en train de mettre en place et ensuite il y a un autre enjeu qui est tout récent et je pense qu'au moment où tu sortiras de ce podcast on pourra en parler donc il n'y a pas de soucis c'est qu'il y a un enjeu de consolidation des pannes en France il y a le pan multimodal qu'on parle depuis le début il y a le pan routier l'enjeu va être de faire fusionner ces deux pannes et de faire que Transports Data Group soit l'unique point d'accès national en France pour toutes les données de transport routes comprises et donc il va y avoir un enjeu pour le pan de s'élargir aux données routières qui ne sont pas forcément les mêmes types de données pas forcément les mêmes interlocuteurs donc là dessus on va devoir repartir un peu à zéro donc il y a ces enjeux là aussi qui est fort pour la suite.
Et de paire avec ça, l'enjeu des financements, évidemment, sans savoir qu'on est dans une actualité politique hyper instable, hyper complexe. Les financements publics sont évidemment pointés du doigt et analysés finement. Et donc, moi, depuis que je suis arrivé, on m'a déjà coupé du budget. Donc, il y a un fort enjeu d'aller convaincre les décideurs que l'argent public serait et sera investi utilement dans le pan. à long terme. Et donc, là-dessus, pour ça, on revient au problème de qui vient chez nous, etc. Donc, on a ce fort enjeu de pérennisation financière du produit parce que là, aujourd'hui, on travaille un peu à vue. Moi, tu vois, j'ai toujours pas de budget pour 2026. Je sais pas si je vais avoir combien d'argent que je vais avoir, si je vais devoir virer deux personnes ou avoir en côté deux, si je vais pouvoir prioriser mon travail sur les IRVE, enfin, sur les bandes de recharge ou pas. Tu vois, il y a plein de sujets qui sont en suspens et ça c'est tous les 6 mois et du coup c'est compliqué d'avoir une vision long terme quand ta vision court terme elle est un peu floue donc il y a des forts enjeux là-dessus aussi des pérennisations
Ok, on arrive à la fin de l'entretien, je vais juste te laisser avant qu'on se quitte un mot de la fin est-ce que tu veux faire passer un message, même si tu viens d'en faire passer un intéressant juste avant, mais est-ce que tu as un message particulier à faire passer avant qu'on se quitte ?
Particulier non je veux te remercier pour l'invitation c'était hyper intéressant de pouvoir présenter ce qu'on faisait au PAN qui est un produit qui est que je trouve moi super intéressant et qui répond à un grand nombre de besoins et qui est pas forcément connu donc j'espère ça pourra appeler d'autres initiatives si moi j'ai un mot de la fin c'est que si les écouteurs ont des suggestions qu'ils reviennent à la suite de nos échanges et qu'ils se disent mais en fait pourquoi le pan fait pas ça c'est débile en fait il manque ça ça et ça je comprends pas bah moi je suis preneur d'avoir ces retours là parce que nous nous, on est un peu dans le guidon au quotidien. Et des fois, d'avoir des retours de personnes qui ne sont pas forcément initiées, ça fait du bien. Et des fois, on a des idées qui tombent grâce à ça. Donc moi, je suis prudent d'avoir ces retours-là de ton auditoire. Et encore merci d'avoir... Où est-ce qu'on vous contacte ? La meilleure façon de nous contacter, c'est contact.transport.data.gouv.fr Adresse générique, mais qui est consultée par tout le monde de l'équipe, et j'y ai aussi accès. Donc en envoyant un mail à cette adresse là on vous répondra très rapidement et on sera disponible on est aussi disponible on est aussi une plateforme sur LinkedIn où on communique très régulièrement donc la page publique transport.data.gouv.fr et enfin on a une newsletter qui est mensuelle sur laquelle on communique de manière publique notre travail c'est aussi une valeur importante du PAN c'est que tout ce qu'on fait est public nos budgets sont publics, nos travaux sont publics notre roadmap est public donc on partage tout de manière mensuelle là-dessus donc si vous voulez suivre nos évolutions vous pouvez souscrire à la newsletter qui est accessible via la page d'accueil de transport.data.gouv.fr
super et bien Maxime merci beaucoup c'était un vrai plaisir pour les auditeurs comme d'habitude si ça vous a plu n'hésitez pas à faire tourner cet épisode en parler autour de vous à mettre des commentaires sur les réseaux sociaux vous trouverez toutes les informations dans le bas de page du site ou dans les notes de l'épisode sur votre plateforme de podcast podcast qui est disponible sur toutes les bonnes plateformes donc voilà et puis rendez-vous bientôt pour d'autres épisodes sur de l'open data à bientôt à toutes et à tous Maxime merci beaucoup et puis au plaisir de te retrouver dans un en vrai dans un événement on s'est loupé au meetup transport il y a quelques mois mais voilà le
bientôt à bientôt
bientôt à bientôt