datalab/helm-charts-datalab/chart helm emilien to delete/index.md

2.6 KiB

dépôt pour déploiement automatique d'un serveur shiny (R + python) pour mise à disposition à des étudiants pour quelques mois

A voir la configuration de l'ingress dans le fichier values.yaml du helm chart activetigger

Image docker où les consignes de déploiement ont été ajoutées : https://code.groupe-genes.fr/DSIT/datalab/src/branch/main/docker-images-datalab/activetigger

CONSIGNE DE DEPLOIEMENT

Voici le git d'Active Tigger : https://gitlab.univ-lille.fr/julien.boelaert/activetigger Le programme nécessite python, R et shiny server.

Packages R (à installer depuis l'exécutable R employé par shiny server)

install.packages(c("arrow", "class", "data.table", "DT", "foreign", "glmnet", "haven", "LiblineaR", "Matrix", "Metrics", "quanteda", "quanteda.textmodels", "ranger", "readODS", "readxl", "RJSONIO", "rlang", "Rtsne", "shiny", "SparseM", "stringi", "uwot"))

Environnement python

conda create -n tigger python==3.10
conda activate tigger
pip install argparse datasets fasttext numpy pandas pyarrow sklearn
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers[torch]
pip install sentence_transformers
pip install -U typing-inspect==0.8.0 typing_extensions==4.6.1
pip install spacy

Téléchargement des modèles spacy et fasttext

Français

python -m spacy download fr_core_news_sm
cd ~
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.fr.300.bin.gz
gunzip cc.fr.300.bin.gz

Anglais

python -m spacy download en_core_web_sm
cd ~
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.en.300.bin.gz
gunzip cc.en.300.bin.gz

A chaque création d'instance

Clone git pour créer la nouvelle instance (remplacer "tigger-name" par le nom que prendra l'instance, ie https://analytics.huma-num.fr/Prenom.Nom/tigger-name/)

cd ~/zPublish/shiny
git clone https://gitlab.univ-lille.fr/julien.boelaert/activetigger.git tigger-name

Dans l'application

Tout en haut à gauche, bouton "+" pour "create project". Puis dans les champs :

  • data directory: moi j'utilise toujours ~/tagging/domaine (genre ~/tagging/radio ou ~/tagging/journaux), mais c'est à toi de voir où tu veux que les données et tags soient stockées sur ton serveur
  • je conseille de cocher toutes les cases : python, spacy, fasttext, sbert, gpu
  • python : "~/conda/envs/tigger/bin/python"
  • fasttext : "~/cc.fr.300.bin" (càd qu'il faut donner le chemin du modèle sur ton serveur, pas juste le nom)
  • spacy et SBERT : garder les valeurs par défaut pour la langue choisie