# dépôt pour déploiement automatique d'un serveur shiny (R + python) pour mise à disposition à des étudiants pour quelques mois

A voir la configuration de l'ingress dans le fichier values.yaml du helm chart activetigger

Image docker où les consignes de déploiement ont été ajoutées : https://code.groupe-genes.fr/DSIT/datalab/src/branch/main/docker-images-datalab/activetigger

# CONSIGNE DE DEPLOIEMENT

Voici le git d'Active Tigger : https://gitlab.univ-lille.fr/julien.boelaert/activetigger
Le programme nécessite python, R et shiny server.

## Packages R (à installer depuis l'exécutable R employé par shiny server)
```
install.packages(c("arrow", "class", "data.table", "DT", "foreign", "glmnet", "haven", "LiblineaR", "Matrix", "Metrics", "quanteda", "quanteda.textmodels", "ranger", "readODS", "readxl", "RJSONIO", "rlang", "Rtsne", "shiny", "SparseM", "stringi", "uwot"))
```

## Environnement python
```
conda create -n tigger python==3.10
conda activate tigger
```

```
pip install argparse datasets fasttext numpy pandas pyarrow sklearn
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers[torch]
pip install sentence_transformers
pip install -U typing-inspect==0.8.0 typing_extensions==4.6.1
pip install spacy
```
## Téléchargement des modèles spacy et fasttext

### Français
```
python -m spacy download fr_core_news_sm
cd ~
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.fr.300.bin.gz
gunzip cc.fr.300.bin.gz
```
### Anglais
```
python -m spacy download en_core_web_sm
cd ~
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.en.300.bin.gz
gunzip cc.en.300.bin.gz
```

# A chaque création d'instance

## Clone git pour créer la nouvelle instance (remplacer "tigger-name" par le nom que prendra l'instance, ie https://analytics.huma-num.fr/Prenom.Nom/tigger-name/)
```
cd ~/zPublish/shiny
git clone https://gitlab.univ-lille.fr/julien.boelaert/activetigger.git tigger-name
```
## Dans l'application

Tout en haut à gauche, bouton "+" pour "create project". Puis dans les champs :

- data directory: moi j'utilise toujours ~/tagging/domaine (genre ~/tagging/radio ou ~/tagging/journaux), mais c'est à toi de voir où tu veux que les données et tags soient stockées sur ton serveur
- je conseille de cocher toutes les cases : python, spacy, fasttext, sbert, gpu
- python : "~/conda/envs/tigger/bin/python"
- fasttext : "~/cc.fr.300.bin" (càd qu'il faut donner le chemin du modèle sur ton serveur, pas juste le nom)
- spacy et SBERT : garder les valeurs par défaut pour la langue choisie