Suivant Index

Les banques de données biologiques à l'Institut Pasteur

Depuis septembre 1997 la mise à jour des banques de séquences biologiques disponibles au Service d'Informatique Scientifique a été entièrement réorganisée sous la forme d'une procédure automatique. Nicolas Joly, Christophe Wolfhugel et moi-même avons produit un ensemble logiciel qui met en place 30 banques biologiques selon les formats nécessaires. Christophe a apporté ses compétences en système et réseau, Nicolas a écrit la majeure partie des modules logiciels, et ma contribution est de vérifier la cohérence et la mise à jour des banques. La difficulté de la tâche réside en un volume de données important à gérer, et en un changement fréquent de la majeure partie des données.

Transfert de fichiers

Les banques de séquence sont disponibles auprès des centres distributeurs sous forme de fichiers de données à transférer via le réseau Internet. Étant donné le nombre important de banques à maintenir, nous avons écrit une procédure automatique qui s'enclenche chaque nuit. Elle compare la date de modification des données locales avec celle des données présentes chez le distributeur, et si celles-ci diffèrent, la décision est prise de rapatrier le fichier. Pour réduire le volume des données transportées, seul le format d'origine des banques est transféré, ou à défaut le format Fasta. Dans la mesure de leur disponibilité, nous nous efforçons de ne ramener que des fichiers compressés.

Version complète et mise à jour

Les banques Embl, GenBank, Genpept disposent de fichiers de mise à jour qui sont diffusés tous les jours, ou toutes les semaines pour Swissprot. Au bout d'un délai variable les fournisseurs incorporent à la version courante tous les fichiers de mise à jour pour former la nouvelle version, qui est alors distribuée. À ce moment tous les fichiers reçus antérieurement deviennent caducs. Genbank et Genpept distribuent une nouvelle version tous les 2 mois, EMBL tous les 3 mois, et Swissprot tous les 6 mois environ. La banque Pdb s'écarte du schéma général de version complète plus mise à jour. Elle est simplement constituée de fichiers individuels dont le nombre va croissant au cours du temps, actuellement 10000 fichiers la composent. La banque Pdb évolue donc par ajout de fichiers qui viennent compléter la base existante.

Volumes transférés

Version Version Cumul des Volume transféré pour
complète Acnuc des mises à jour pour les mises à jour
GenBank 2500 Mo 436Mo 660 Mo 13 Mo / jour
Embl 2250 Mo 400 Mo 1137 Mo 15 Mo / jour
SwissProt 155 Mo 50 Mo 13 Mo 12 Mo / semaine
Genpept 140 Mo - 10 Mo 10 Mo / jour
Pir 140 Mo 24 Mo - -
Pdb 1200 Mo - - 1 Mo / jour
Autres 675 Mo 443 Mo - -
TOTAL: 7060 Mo 910 Mo 1820 Mo   40 Mo / jour



En comparant avec le même tableau établi en octobre 1998([sta98]) on constate que les versions complètes et les versions Acnuc ont augmenté de 33% en 8 mois. (Les cumuls de mise à jour sont moins facilement comparables, mais ils ont toutefois augmenté de 50% pendant cette période).

Génération des différents formats

Les programmes qui utilisent les banques ont tous besoin de formats spécifiques et différents. Par convention ces formats sont nommés comme le programme auquel ils sont liés. C'est ainsi que notre automate construit les formats Fasta, Blast, Blast2, Gcg, Staden/Efetch, Acnuc, Srs pour toutes les banques nucléiques ou protéiques à partir du format de distribution de chaque banque. Pour ce faire nous avons développé une panoplie de 10 traducteurs de format plat (un par type de banque) vers le format Fasta, duquel sont dérivés les formats Blast et Blast2. Les formats Gcg, Staden/Efetch, Acnuc, Srs sont créés en repartant du format plat. Les logiciels qui procédent à la traduction de formats sont soit des programmes distribués, soit des traducteurs écrit par nous, comme pour Staden/Efetch, SignalScan, Modeller, etc. Pour assurer la cohérence des tables propres à Gcg nous avons dû adjoindre une procédure qui recalcule celles-ci chaque fois que le format Gcg est modifié. Nous sommes en préparation du format Lassap dont le logiciel va bientôt être mis en service.

Synchronisation et mise en service

Pour une banque donnée notre système assure la synchronisation entre ses différents formats, c'est-à-dire qu'à un moment donné les différents formats disponibles sont tous issus de la même source : les fichiers de distribution de la même version avec les mêmes mises à jour. Chaque programme Fasta, Blast ou Acnuc accède donc à la même banque. Quand tous les formats de toutes les banques sont préparés l'automate de mise à jour est prêt à mettre en service la nouvelle version, mais à ce moment il doit être le seul à travailler sur les banques. Ce qui impose l'arrêt des programmes qui utilisaient les banques. À la demande des biologistes présents à la réunion du 5 mars 1999 nous avons modifié le rythme de mise en service et nous nous sommes réservé le mercredi à minuit et le dimanche à minuit un intervalle de 15 minutes pour pouvoir basculer de l'ancienne version à la nouvelle. Tout programme fonctionnant sur les banques à ces instants-là sera arrêté par l'automate. La réduction de la fréquence de mise à jour permettra l'exécution de programmes de plus longue durée (3 ou 4 jours) et c'est d'ailleurs pour cela que le changement de rythme de mise en service des banques a été demandé.

Compléments d'information

À côté des banques généralistes nous disposons d'une banque de génomes complets constituée de Borrelia, E.coli, M.tuberculosis, H.pylori, B.subtilis et S.cerevisiae. Les informations relatives à l'état actuel des banques disponibles, numéro de version, date de mise à disposition locale, formats disponibles et lien vers le site distributeur se trouvent à partir de la page web http://bioweb.pasteur.fr/docs/gendocdb/banques.html et dans le fichier /local/databases/release/versions sur central. Les banques sont elles-mêmes situées dans le répertoire /local/databases/release et disponibles pour la consultation directe ou par programmes. L'automate est écrit de telle façon qu'on puisse lui adjoindre d'autres banques non encore disponibles au SIS, que vous pouvez suggérer en écrivant à help@pasteur.fr.

Bernard Caudron, Nicolas Joly


Édité par :
Service Informatique Scientifique
Institut Pasteur
28 rue du Docteur Roux
75724 Paris CEDEX 15
Tél. : +33 (1) 45 68 85 10
Fax. : +33 (1) 40 61 30 80
Câble : mcb@pasteur.fr

Les contributions et suggestions
sont à adresser à :
Laurent Bloch   bloch@pasteur.fr
Directeur de la publication :
Maxime Schwartz
ISSBN : 1244-524 X

Copyright © Institut Pasteur


Suivant Index