* Objectifs ----------- - Rendre service aux usagers le plus simplement possible - Assurer disponibilité et sécurité sur les données - Libérer le maximum de temps d'administration pour - avoir le temps de faire du support aux usagers - gérer une infra. assez conséquente avec peu d'ETP * Principes ----------- - KISS - le moins de HA possible - le plus (réputé) robuste possible - le moins nouveau possible * Hébergement ------------- - CC-IN2P3 - disponibilité totale - libération de l'esprit et du temps pour faire autre chose - minimisation des interruptions de service en tous genres * Virtualisation : KVM "nu" --------------------------- - 0 complexité : plus de collègues peuvent intervenir - pas de BDD, pas de HA, pas de processus compliqué - 100% béton * Stockage : NetApp ------------------- - c'est cher, ce n'est pas forcément très rapide - mais ca marche 100% du temps durant 10 ans - et finalement, avoir 0 ennui avec le stockage, c'est la clef de tout - accès par NFS : c'est simplissime, c'est souple * Supervision : Shinken ----------------------- - y mettre le maximum de choses possibles - mais il faut s'astreindre 1/ à ce que tout soit tout le temps "vert" ou "ack/downtime" 2/ à lire les graphes importants : courbe d'évolution des partitions 3/ à ajuster les seuils, les scripts sinon, ca ne sert à rien - NB : Shinken est mort depuis 2015 - regarder du coté d'Icinga. * MAJ : tous les paquets tous les jours --------------------------------------- - pdsh -g debian "apt-get update ; apt-get -y dist-upgrade" - pdsh -g centos "yum -y update" - pas via cron, à la main, mais tous les jours - ainsi tout est tout le temps à jour au sens des distributions - 0 temps passé à lire les CVE, les avis, les forums * Firewall : PaloAlto --------------------- - la Rolls - impossible de qualifier/quantifier ce que cela apporte - mais de fait les qqs intrusions étaient soit sur des CMS pas à jour soit des sites web "maison" * Sauvegarde : service TSM du CC -------------------------------- - le maximum de partitions, avec une grande rétention - mais besoin de travailler pour - vérifier continuement (via "script") que tout est programmé pour être sauvé - vérifier que les sauvegardes se passent bien (via "script") - ca reste l'angoisse principale - que qqch n'ait pas été sauvegardé - que la sauvegarde ne marche plus depuis xxx jours - 100% de réussite sur les restitutions faites (1 fois par semestre ?)