34 KiB
Qu’est-ce que Datalab Onyxia GENES ?
Onyxia est une application web permettant d'accéder à un environnement de travail disposant de multiples services liés à la Data (Jupyter, RStudio, Mongodb, Kafka, Mlflow etc...) sans avoir à se préoccuper du déploiement de l’infrastructure.
Au-delà de la simple facilitation d'accès aux outils de traitement de données modernes, Onyxia promeut activement les bonnes pratiques en matière de traitement des données et de programmation, en favorisant la reproductibilité des résultats.
Pour les élèves et chercheurs, Onyxia est une opportunité unique d'autoformation. Grâce à son interface intuitive, les étudiants peuvent explorer, expérimenter et approfondir leurs compétences en temps réel, tout en s'adaptant aux standards actuels du monde professionnel.
Onyxia permet de travailler sur des environnements facilement reproductibles, grâces à l’enregistrement de la configuration des services et la capacité de paramétrer des scripts d’initialisation.
Via Onyxia, chaque utilisateur disposera d'un répertoire Git et d'un espace de stockage de type S3, qui seront automatiquement connectés à chaque service que l'utilisateur créera.
L’utilisation de Git permet de synchroniser le projet local avec un serveur distant, rendant la perte de code quasi impossible. Il permet également de conserver un historique complet des choix et modifications effectuées sur le projet, favorisant ainsi le partage des modifications avec d'autres utilisateurs.
En ce qui concerne la solution de stockage de fichiers S3, celle-ci est un système de stockage d'objets basé sur le cloud, compatible avec l'API S3 d'Amazon :
- Les fichiers stockés sont facilement accessibles depuis n'importe quel endroit via une simple URL, pouvant être facilement partagée.
- De plus, l'accès aux fichiers stockés est possible directement dans les services de data science (R, Python, etc.) proposés sur le Datalab, sans nécessiter de copie préalable des fichiers localement, améliorant ainsi considérablement la reproductibilité des analyses. L'avantage d'Onyxia réside dans la possibilité de partager chaque service avec d'autres collaborateurs en un clic.
Les fonctionnalités du Datalab Onyxia GENES en bref :
-
Accès à un Catalogue de services déployable en libre-service
-
Les utilisateurs peuvent définir le nombre de RAM, CPU et GPU qu’ils souhaitent allouer à leurs services avec une limitation par utilisateur de : 5 services, 20 CPU, 50Go RAM, et 1 GPU.
-
Possibilité de faire des demandes auprès du DSIT du GENES pour ajouter de nouveaux services au catalogue selon vos besoins (à rajouter la méthode de formulation)
-
Capacité de partager l'accès à vos services et ressources d'Onyxia avec un groupe de personnes.
-
Possibilité de spécifier un script init personnalisable exécuté au lancement des services. (à rajouter lien vers guide)
-
Enregistrer, restaurer et partager la configuration de vos services avec vos collaborateur (à rajouter lien vers guide)
-
Intégration de secrets sous forme de variables d'environnement dans les services du Datalab, permettant de stocker les informations sensibles de type clés d'API dans Vault et de les rendre accessibles dans les services sous forme de variable. (à rajouter lien vers guide)
-
(à rajouter lien vers guide) (A ETE VU, CE SERA BIEN MIS EN PLACE) Possibilités d’accéder et de créé des formations techniques sur différents outils mis à disposition pour vos collaborateurs ou élèves (comme sur : https://www.sspcloud.fr/formation), en terme de présentation cela pourrait être pas mal démontrant avec un exemple détaillés du genre: Un professeur créé un tutoriel, ajoute une URL de configuration, sur lequel les élèves cliques pour déployer un service dans leurs propre namespace, démontrant ainsi la facilité de déployer un environnement de travail stable.
Présentation rapide d’Onyxia en vidéo :

FAQ
J’ai besoin d’un service spécifique qui n’est pas disponible sur le Datalab Onyxia du Genes, où puis-je faire une demande pour que celui-ci soit ajouté au catalogue de services ?
Une plateforme de mutualisation
Le projet Onyxia part du constat de difficultés communes rencontrées par les datascientists du secteur public :
- des agents souvent isolés, du fait de la relative rareté des compétences data dans l'administration ;
- des infrastructures inadaptées, aussi bien en matière de ressources que de technologies, qui constituent un frein à l'innovation ;
- une difficulté à passer de l'expérimentation à la mise en production, du fait de multiples séparations (séparation physique, langage de développement, modes de travail) entre les directions métier et la production informatique.
Face à ce constat, le Datalab Onyxia GENES a été construit pour proposer une plateforme de mutualisation à plusieurs niveaux
- partage d'une infrastructure moderne, centrée autour du déploiement de services via des conteneurs, et dimensionnée pour les usages de data science ;
- partage de méthodes, via une mutualisation des services de data science proposés, auxquels chacun peut contribuer ;
- partage de connaissances, via des formations associées au Datalab ainsi que la constitution de commaunautés d'entraide centrées sur son utilisation.
::: {.callout-note} Onyxia, Datalab SSP Cloud : quelles différences ?
Onyxia est un projet open-source qui propose une plateforme de services de data science, accessible via une application Web. Le Datalab Onyxia Genes est une instance du projet Onyxia, hébergée au GENES. :::
Principes fondamentaux
L'architecture du Datalab est basée sur un ensemble de principes fondamentaux :
- une production orientée data science, en proposant une infrastructure dimensionnée à la plupart des usages et un catalogue de services couvrant l'ensemble du cycle de vie des projets data ;
- des choix qui favorisent l'autonomie des usagers, en évitant tout enfermement propriétaire et en permettant l'accès aux couches basses de l'infrastructure pour couvrir les besoins avancés et spécifiques ;
- un projet 100% cloud-natif, mais également cloud-agnostique, permettant un déploiement simple sur n'importe quelle infrastructure ;
- un projet complètement open-source, à la fois du point de vue de ses briques constitutives que de sa diffusion (licence MIT).
Offre de services
Le Datalab est accessible via une Interface utilisateur moderne et réactive, centrée sur l'expérience utilisateur. Celle-ci constitue le liant technique entre les différentes composantes d'Onyxia :
- des technologies open-source qui constituent l'état de l'art du déploiement et de l'orchestration de conteneurs, du stockage et de la sécurité ;
- un catalogue de services et d'outils pour accompagner les projets de data science ;
- une plateforme de formation et de documentation pour faciliter l'onboarding sur les technologies proposées.

Le catalogue de services est pensé de manière à accommoder l'essentiel des usages des data scientists, du développement en self-service à la mise en production de traitements ou d'application. L'ensemble du cycle de vie d'un projet data est ainsi couvert, et le catalogue des services est régulièrement étendu pour répondre aux nouveaux besoins des utilisateurs.
Un projet ouvert
Le projet du Datalab Onyxia est résolument ouvert, à de multiples niveaux :
- le Datalab est accessible via son interface Web à tous les agents du service public ainsi qu'aux élèves des écoles de statistique liées à l'Ensae (Cepe, Ensai, Ensae) ;
- le code source ouvert et la modularité du projet rendent possible le déploiement d'une instance Onyxia personnalisée sur n'importe quelle infrastructure basée sur un cluster Kubernetes ;
- le projet est ouvert aux contributions extérieures, qu'elles concernent le catalogue des services, l'interface graphique ou l'agencement des briques logicielles qui le constituent.
Première utilisation
Visite guidée du Datalab
Bienvenue sur le Datalab Onyxia, plateforme de libre service mutualisée de traitement de données, destinée aux statisticiens et data scientists de l'Etat. Ce tutoriel propose une visite guidée du Datalab pour être rapidement opérationnel dans l'utilisation de ses services.
Il s’agit d’une présentation sommaire, chaque page web d’onyxia, vous trouverez un guide détaillant chaque page web d’onyxia ici (LIEN VERS GUIDE DETAIL).
::: {.callout-warning} Les conditions d'utilisation du Datalab sont consultables à adresse (A DEFINIR). Nous rappelons que le Datalab est destiné exclusivement au traitement de données publiques et non-sensibles. Des projets d'expérimentation mobilisant des données non ouvertes peuvent être menés en concertation avec l'équipe du Datalab, sous réserve de se conformer aux règles de sécurité spécifiques au projet. :::
Le catalogue de services
Le catalogue de services est au centre de l'utilisation du Datalab. Il propose un ensemble de services destinés aux traitements statistiques de données ainsi qu'à la gestion complète des projets de data science.
Lancer un service
Pour lancer un service, il suffit de cliquer sur le bouton Lancer
du service désiré.
Une page centrée sur le service demandé s'ouvre alors, qui offre plusieurs possibilités :
-
cliquer à nouveau sur le bouton
Lancer
pour lancer le service avec sa configuration par défaut ; -
personnaliser le nom que portera l'instance une fois le service lancé, Attention, si vous enregistrer la configuration d’un service et que celui-ci a le même nom d’un service que vous avez déjà enregistré, sa configuration sera écrasée ;
-
dérouler un menu de configuration afin de personnaliser la configuration du service avant de le lancer ;
-
sauvegarder une configuration personnalisée en cliquant sur le signet en haut à droite du service, ce qui vous permettra d’enregistrer l'entièreté de la configuration du service et de le relancer depuis l’onglet Mes services.
La configuration précise de S3, Kubernetes, Init etc... sur les services constitue un usage avancé, chaque onglet du site web seront expliqués en détails plus loin (LIENS VERS DOCUMENTATION).
Utiliser un service
L'action de lancer un service amène automatiquement sur la page Mes services, où sont listées toutes les instances en activité sur le compte de l'utilisateur.
Une fois le service lancé, un bouton Ouvrir
apparaît qui permet l'accès au service. Un mot de passe et, selon les services, un nom d'utilisateur est généralement requis pour pouvoir utiliser le service. Ces informations sont disponibles dans le README
associé au service, auquel on accède en cliquant sur le bouton du même nom.
Supprimer une instance
Supprimer une instance d'un service s'effectue simplement en cliquant sur l'icône en forme de poubelle en dessous de l'instance.
::: {.callout-caution}
Pour certains services, la suppression d'une instance entraîne la suppression de toutes les données associées, et cette action est irrémédiable. Il est donc nécessaire de toujours bien lire le README
associé à l'instance, qui précise les conséquences d'une suppression de l'instance. De manière générale, il est très important de s'assurer que les données ainsi que le code utilisés sont sauvegardés avant de supprimer l'instance. L'idéal est de versionner son code avec Git et de procéder à des sauvegardes régulières des données à l'aide du système de stockage S3.
:::
::: {.callout-caution} Les ressources mises à disposition pour l'execution des services sont partagées entre les différents utilisateurs du Datalab. Veuillez à ne pas laisser en cours des services dont vous ne faites plus l'usage. Nous procédons parfois à une suppression systématique des instances inactives depuis un certain temps, afin de libérer des ressources. :::
Partager un service
A VOIR, option activée par défaut ou sur demande ? Il faudra créé manuellement les groupes etc avec des bucket policy manuellement, il y a pas un style de IAM AWS qui est liable avec minios et qui pourrait facilité/automatiser ce proccess ? Il est possible de partager un service à un groupe de personnes en cochant la case "Partager le service" à l'ouverture du service. Les autres membres du groupe verront le service et pourront l'utiliser. La création de groupes se fait en écrivant aux administrateurs sur Tchap (en privé) ou par mail à l'adresse A DEFINIR en communiquant le nom de groupe, les noms d'utilisateurs des membres, le besoin ou non d'un espace de stockage associé sur MinIO.
Pour un besoin ponctuel, il est aussi possible de partager un service que l'on a créé à une autre personne, Attention via cette méthode, une seule personne à la fois peut se connecter à un service.
Il vous suffira donc de lui communiquer l'URL lors ce que vous êtes sur votre service (type https://user-aaaaaaaaaaaaaa-xxxxxxx-x.lab.groupe-genes.fr/):
Ainsi que le mot de passe du service, qui est configurable et récupérable de différentes manières, lors de la création du service dans le sous onglet “Security”:
Cependant attention, car par défaut lors de la configuration d’un service, le mot de passe sera toujours le mêmes et qui a été spécifié dans l’onglet Mon compte puis Information du compte:
Si vous ne vous rappelez plus du mot de passe que vous avez attribué lors de la configuration d’un service, celui-ci est affiché automatiquement à chaque fois que vous re-lancer votre service via l’onglet Mes services:
La meilleure pratique est donc, pour un service que vous souhaitez partager directement en fournissant l’URL du service, de modifier le mot de passe par défaut lors de la création du service comme vu précédemment dans le sous onglet “Security”.
Le nom d'utilisateur reste Onyxia. Par ailleurs il ne faut pas cocher Enable IP protection et Enable network policy dans l'onglet “Security”, par défaut elles ne sont pas cochées. Pour rappel, via cette méthode une seule personne à la fois peut se connecter à un service.
Mon compte
Dans cet onglet vous pourrez modifier différents paramètres, les plus important étant :
-
Modification des comptes et jetons Gitlab, Github et Kaggle qui seront par lié par défaut a tous les services que vous créérez, disponible dans le sous onglet Services externes ;
-
La capacité de récupérer des scripts d’initialisation dans le language de programmation de votre choix, qui vous permettrons d’accéder au stockage S3 en dehors des services du datalab Onyxia GENES. Disponible dans le sous onglet Connexion au stockage (attention, les token fournit dans ces scripts d’initialisation expirent rapidement) ;
-
Récupérer les identifiants Vault afin de pouvoir l’utiliser dans votre terminal, disponible dans le sous onglet https://onyxia.lab.groupe-genes.fr/account/vault ;
Information du compte
Dans le sous onglet Information du compte vous retrouverez les informations générales de votre compte Datalab Onyxia GENES et la capacité de modifier le mot de passe pour accéder aux différents services déployer dans votre espace :
Services externes
Dans le sous onglet Services externes vous pourrez récupérer et modifier les informations des comptes et jetons Gitlab, Github et Kaggle qui seront par défaut, lié à tous les services que vous créerez. Nous vous conseillons donc de laisser ces paramètres par défaut et que si vous avez besoin d’utiliser un Git différent de celui du GENES pour un service en particulier.
Et d’effectuer la modification lors de la configuration du service dans le Catalogue de services (explication de la configuration en détail disponible ici LIEN A RAJOUTER) exemple:
Connexion au stockage
Dans le sous onglet Connexion au stockage vous trouverez toutes les informations de votre stockage S3 fournit par le GENES et qui sera automatiquement lié à tous les services du Datalab Onyxia GENES que vous créerez. Dans cet onglet vous trouverez également toutes les informations pour connecter vos ressources externes à votre stockage Onyxia S3.
Cependant Attention, tous les tokens de cet onglet expire et se renouvelle automatiquement toutes les 24 heures. Si vous utiliser un token pour connecter des ressources externes a votre stockage S3 Onyxia, bien se rappeler que la durée de vie des tokens est courte et qu'il faudra mettre à jour le token d'accès pour vos ressources externes.
Attention, concernant l’obtention du Session token S3, il n’est pas affiché dans son entièreté, éviter donc de le copier directement en le sélectionnant puis “copier”. Utiliser bien l'icône “Copier dans le presse-papier" à droite de celui-ci : Possibilité de modifier cette partie et d'afficher entièrement le token ? dans le mail de nesrine qui avait eu un problème d'accès S3, elle n'avait pas mis le token en entier et faire un copier/coller manuel
Vous pourrez également générer un script d’initialisation dans le langage de programmation de votre choix (R, Python, shell, MC client, s3cmd, etc...) qui connectera automatiquement vos ressources à votre stockage Onyxia S3, disponible en bas à gauche via un menu déroulant :
Vault
Dans le sous onglet https://onyxia.lab.groupe-genes.fr/account/vault, vous aurez la possibilité de copier les variables d’environnement afin de configurer votre Vault CLI local : (VOIR PLUS D’INFO SUR LE FONCTIONNEMENT)
Attention, concernant l’obtention du token Vault, comme pour le token S3, il n’est pas affiché dans son entièreté, éviter donc de le copier directement en le sélectionnant puis “copier”. Utiliser bien l'icône “Copier dans le presse-papier" à droite de celui-ci :
Modes d’interfaces
Dans le sous onglet Modes d’interfaces vous pourrez modifier le thème d’Onyxia, changer la langue, et activer la fonctionnalités “béta-testeur” qui actuellement vous ajout l’accès à un nouvelle onglet “Coquille SQL OLAP” A VOIR PLUS EN DETAIL LE TERMINAL DUCKDB
Catalogue de services
L’onglet Catalogue de services va vous permettre de lancer, paramétrer et sauvegarder la configuration de vos différents services, qui posséderons plus au moins de sous onglets paramétrables S3, Init, Git etc... qui seront plus détaillé dans “LIEN VERS Configuration avancée du Catalogue de services“ .
Pour lancer et paramétrer un service, il suffit de cliquer sur “Lancer”.
Chaque service son dans différent sous onglet selon leurs catégories (IDE, Databases etc...), par ailleurs sur quasiment chaque pages web d’onyxia, peu importe la page. Vous trouverez en haut, une redirection en lien avec la page sur laquelle vous vous trouvez et qui peut vous fournir des informations/guide additionnel.
Par exemple dans le Catalogue de services dans la catégorie Interactive services vous trouverez une redirection vers un dépôt helm qui rassemble la collection des charts helm qu’utilise Onyxia pour déployer les services:
Configuration général du catalogue de services
Dans Catalogue de services après avoir cliquer sur “lancer” du services que vous souhaitez utiliser, vous pourrez :
Attribué un nom personnalisé au service, une fois le service lancé ou enregistré, celui-ci apparaitra dans l’onglet Mes services.
Le choix de la version du service.
Sauvegarder l’entièreté de la configuration du service, que vous pourrez redéployer à volonté dans l’onglet Mes services.
Une extension est cliquable en bas à droite de la page, en parallèle de “Configuration %nom_du_service%”, cela déroulera un menu supplémentaire où vous pourrez configurer beaucoup plus de paramètre qui sont expliqué dans la section suivante.
Copier l’URL de lancement automatique, cela vous permettra de configurer un service, puis d’obtenir une URL que vous pourrez partager avec des collaborateurs. En cliquant sur cette URL, cela déploiera le service que vous avez configurer dans leurs espace onyxia. Cette option est aussi accessible dans l’onglet Mes services, sur vos services déjà enregistrés.
Par ailleurs, l’option de la copie URL de lancement automatique ne s’affiche pas avant que vous ayez modifié un paramètre sur le service. L’option “Enregistrer la configuration” s’élargit également lors d’une quelconque modification, sinon c’est une petite icône de sauvegarde situé en haut à droite.
Configuration avancée du Catalogue de services
A VOIR POUR EXPLIQUER PLUS EN DETAIL LE PARAMETRAGE DES SERVICES HORS CATEGORIE TYPE “INTERACTIVE SERVICES” genre database, mlflow...
S3
La configuration par défaut est celle de votre stockage S3 fournit par le groupe GENES, il vous sera donc possible d'accéder aux fichiers stockés directement dans les services de data science (R, Python, Jupyter...) proposés sur le Datalab, sans avoir besoin de copier les fichiers localement au préalable, ce qui améliore fortement la reproductibilité des analyses.
Modifier uniquement ces paramètres si vous possédez par exemple un stockage AWS S3 et que vous souhaitez le monter sur un service Onyxia ou que vous avez besoins d’accéder à un stockage S3 GENES autres que celui qui vous a été attribué par défaut.
Pour apprendre à utiliser cet onglet, voir là page dédiée.
Kubernetes
Cette option est relativement technique et spécifique, vous ne devriez pas en avoir l’intérêt, hors manipulation direct dans l’environnement Kubernetes. Cependant cette option vous permettra, depuis les différents services que vous avez déployés (pods aux seins de votre namespace Onyxia), de pouvoir effectuer des interactions Kubernetes avec le Master Node et exécuter des commandes kubectl dans un terminal de service (kubectl get pods, kubectl edit deployment etc...). Les interactions seront limitées à ce qui est déployé au sein de votre namespace. Vous avez également la possibilité de modifier le rôle Kubernetes attribué aux services, restreignant les actions possibles : view, edit ou admin.
Init
Grâce à Init vous allez pouvoir personnaliser les environnements de vos services via des scripts, qui seront exécuté au lancement de votre services, pour automatiser l’installation d’un plugin sur un de vos services IDE ou autres.
Exemple simple, je souhaite ajouter automatiquement sur mon service onyxia Jupyter un fichier .txt avec comme contenu “Hello World” dans le dossier work/hello-onyxia.txt.
Pour cela je créé un script onyxia-init.sh, dont le contenu est le suivant :
#!/monscript.sh
Echo “Hello World” > work/hello-onyxia.txt
::: {.callout-warning} Le script est exécuté en tant que superutilisateur (Root) et les fichiers qu'il crée sont ainsi la propriété du superutilisateur. Ceci génère des erreurs ensuite quand ces fichiers sont appelés, par exemple des fichiers de configuration de RStudio. Pour rendre à l'utilisateur normal (qui s'appelle onyxia) les droit sur son dossier personnel :
chown -R ${USERNAME}:${GROUPNAME} ${HOME}
:::
Ce script peut être hébergé n’importe où, du moment qu’il possède une URL publique (example: https://raw.githubusercontent.com/test/monscript.sh/) que j’ajoute ensuite dans le Init parameters “PersonalInit” de l’onglet Init:
PersonalInit
Ajouter un lien vers un script shell (enchaînement de commandes linux) qui est exécuté juste après le lancement du service. Pratique pour automatiser la mise en place de certaines configurations.
Ce lien du script doit être accessible sur internet, par exemple sur https://code.groupe-genes.fr/ ou autres Git avec un projet public. ou sur le stockage S3 accessible dans l’onglet Mes fichiers sur l’interface Onyxia. (A VOIR SINON SUPPRIMER DU GUIDE)
Exemple de script d'initialisation{:target="_blank"} qui clone un projet à partir d'une instance Gitlab privée, configure les options globales de RStudio, ouvre automatiquement le projet RStudio cloné, installe et sélectionne la correction orthographique française, personnalise les bribes de codes (snippets).
::: {.callout-warning} Le script est exécuté en tant que superutilisateur (Root) et les fichiers qu'il crée sont ainsi la propriété du superutilisateur. Ceci génère des erreurs ensuite quand ces fichiers sont appelés, par exemple des fichiers de configuration de RStudio. Pour rendre à l'utilisateur normal (qui s'appelle onyxia) les droit sur son dossier personnel :
chown -R ${USERNAME}:${GROUPNAME} ${HOME}
:::
PersonalInitArgs
Des options à passer au script d'initialisation, séparées par des espaces et que l'on peut ensuite appeler avec $1
, $2
...
Par exemple si on inscrit dans le champ PersonalInitArgs fichier1.txt fichier2.txt
, et qu'on utilise ce script d'initialisation :
#!/bin/bash
touch $1
touch $2
Le script créera via la commande touch
deux fichiers fichier1.txt
et fichier2.txt
.
Resources
C’est l’endroit où vous allez pouvoir configurer le minimum à maximum de ressource à vos services, pour rappel, vous êtes limités par compte à 5 services, 20 CPU, 50Go RAM et 1 GPU.
Networking
Cette option permet d’ouvrir un port en particulier sur votre service. (A VOIR, possibilité d’ouvrir 2 ports en séparant par une virgule ? Ou alors permet de faire du ingress/egress ??)
Security
Permet de restreindre l’accès au différent service, filtrer selon IP (A VOIR possibilité d’en ajouter plusieurs avec une virgule entre + possibilité de faire un range (127.0.0.1-127.0.0.5) + normalement oui mais confirmer si accessible depuis l’exterieur de l’infra kubernetes), n’autoriser l’accès à ce service uniquement aux autres pod du mêmes namespace de l’utilisateur
Password
C'est le mot de passe à saisir lorsqu'on ouvre un service, celui donné par "Copier le mot de passage" sur la page des services. Il est fourni par le paramètre général "Mot de passe pour vos services" que l'on trouve dans "Mon Compte" > "Informations du compte", sauf si on en a défini un particulier au niveau du service.
Enable IP protection
Si coché, le service n'est accessible que par une seule IP, à décocher si l'on souhaite travailler de deux endroits différents.
Enable network policy
Git
Par défaut cette option est activée sur chaque service, ce qui configure Git et tente un clone d’un dépôt au démarrage du service. Attention, vous devez renseigner l’URL du dépôt Git dans l’option “Repository”.
Repository
Attention, l’option “Repository” est L'URL à renseigner obligatoirement et qui obtenue sur la plateforme utilisée (Gitlab, Github...) en cliquant sur "Cloner" > HTTPS:
Par example, pour le Github du GENES qui est paramétré par défaut, celle-ci sera obtenu sur le lien https://code.groupe-genes.fr/aguyot-ensae/test-gitop puis en cliquant sur l’icône “Copier l’URL”. Vous obtiendrez l’URL https://code.groupe-genes.fr/aguyot-ensae/test-gitop.git à renseigner dans l’option “Repository”, ce qui clonera ce dépôt automatiquement sur votre service :
Exemple sur un service Jupyter où l’URL du dépôt a été renseigné et donc cloné au démarrage :
Name
Le nom qui apparaîtra dans les commits (pas le nom d'utilisateur du compte Gitlab ou Github).
L'adresse email qui apparaîtra dans les commits (pas forcément le mail associé au compte Gitlab ou Github).
Token
Jeton d'accès défini sur la plateforme utilisée (Gitlab, Github...).
Pour apprendre à utiliser plus en détails cette partie de Git, voir là page dédiée.
Il n'est pas possible de cloner automatiquement un projet privé d'une instance privée (c'est-à-dire autre que gitlab.com et github.com). Pour le faire, il faudra recourir à un script shell comme indiqué ici.
Service
Discovery
Les différentes options du discovery sont activées, elles permettent de détecter si vous avez un service Hive metastore, mlflow ou metaflow de lancer et d’automatiquement les rattacher à votre service. A VOIR comment l’interconnexion s’effectue
Persistence
Vous permet de modifier la taille du disque alloué à votre service. A VOIR car non persistent normalement, bien préciser que les données utilisateurs doivent impérativement être stocker sur git/s3 et non pas sur le service directement.
Vault
Pour apprendre à utiliser cet onglet, voir la page dédiée.