Etude des interactions protéine-protéine et protéine-ligand par bio- et chimie-informatique structurale : Identification de petites molécules bio-actives

Dominique Douguet

Résumé

In this document, I describe my contribution into 2 complementary aspects of structural bioinformatic : the modelling of the 3D structure of proteins and the modelling of their modulators. The identification and the structural analysis of protein binding sites (by proteins or small molecules) allow the modulation of their biological function by using new synthetic entities. The last may act as useful tools for further in vivo and in vitro physiopathologic studies. Such interactions can be predicted by docking programs.
First, I developed an integrated system for the modelling of the 3D structure of proteins by using homology modelling. The server @TOME ((@utomatic Threading Optimisation Modelling & Evaluation) was the first, in France, that allows the whole automatic modelling of protein structures by performing the 4 usual steps: fold recognition, alignment, model building and model evaluation (http://bioserver.cbs.cnrs.fr). @TOME was evaluated during the CASP5 session in 2002 (http://predictioncenter.llnl.gov/). Results indicate that our server performed well over the 67 targets. @TOME was ranked 26th of the 187 registered groups. More importantly, results validated the use of the fully automatic mode of @TOME on cases where the sequence identity between the target and the template structure is more than 30%.
During a sabbatical stay at the University of Stony Brook, NY, USA at Ilya Vakser's lab, I developed a database of annotated protein-protein co-crystallized structures. This bound-bound database provides the foundation of a more ambitious system of databases called DOCKGROUND. It is designed to become a comprehensive public environment for developing and validating new methodologies for modelling of protein interactions. Concerning the bound-bound part, programs filter and annotate structures coming from the Biological Unit database. Our data has several options to exclude particular complexes as well as redundancies based on sequence or structural similarities. The database is accessible by the web (http://dockground.bioinformatics.ku.edu) and is regularly updated. Thanks to a NIH grant, the DOCKGROUND project is under expansion with the release of 3 new databases.
De novo drug design and virtual screenings constitute a major part of my researches. More particularly, I develop a de novo drug design program called LEA3D. LEA3D is able to optimally combine fragments to generate ideal putative ligands. These methods have been applied successfully to the Thymidine Monophosphate Kinase (TMPK) of Mycobacterium tuberculosis. In collaboration with chemists and biochemists of Pasteur Institute, new structural families of inhibitors have been identified comprising one synthetic inhibitor with a 3-fold better affinity than the substrate dTMP. A new hit ‘hunting' strategy based on fragment screenings is also described. It combines cheminformatic, NMR and crystallography experimental methods. This strategy aims to identify low molecular weight compounds that are optimized into more elaborated and potent binders.

Mes recherches ont eu pour objectif de concilier deux aspects complémentaires de la bioinformatique structurale : la modélisation de la structure 3D des protéines et la modélisation des petites molécules modulatrices des premières. La connaissance de la structure tridimensionnelle des protéines est un élément déterminant pour la compréhension fine de leur mécanisme d'action et indispensable pour le développement d'approches thérapeutiques rationnelles. Ainsi, l'identification et l'analyse structurale des sites de fixation de leurs ligands (protéine ou petite molécule) permettent d'envisager la modulation de leur fonction biologique. Les interactions protéine-protéine ou protéine-ligand peuvent être prédites, par exemple, par des programmes d'amarrage (ou ‘docking').
La modélisation par homologie permet d'obtenir un modèle tridimensionnel d'une protéine lorsque sa structure n'a pas été déterminée expérimentalement. Ma contribution dans ce domaine fut la réalisation du serveur @TOME avec le soutien de la GENOPOLE Languedoc-Roussillon (accessible à l'adresse http://bioserver.cbs.cnrs.fr). Ce serveur était le premier de ce type à avoir été développé en France. Le serveur @TOME rassemble et traite d'une manière automatique toutes les étapes nécessaires à la construction d'un modèle 3D d'une protéine. Cela inclut la reconnaissance du repliement, la construction des modèles protéiques et leur évaluation. Les résultats du CASP5 en 2005 (session internationale d'évaluation des méthodes de prédiction de la structure des protéines ; http://predictioncenter.llnl.gov/) ont montré que notre serveur utilisé en mode automatique propose des modèles très proches de la structure expérimentale lorsque l'identité de séquence avec la structure support est supérieure à 30%. Le serveur a été classé 26ième sur 187 groupes inscrits.
Dans un second temps, mes recherches m'ont permis de réaliser une base de données de complexes protéiques co-cristallisés, base fondatrice du projet DOCKGROUND. Ce projet de grande envergure, soutenu par le NIH depuis 2005, vise à établir un système intégré et dynamique de bases de données dédié à l'étude et à la prédiction des interactions entre protéines et permettre ainsi d'améliorer nos connaissances des interactions et de développer des outils de prédiction plus fiables. Ce travail a été effectué au sein de l'équipe du Pr. Ilya Vakser à l'Université de Stony Brook, NY, USA. Dans la réalisation de cette première base de données, un ensemble de programmes collectent, classent et annotent les complexes protéiques qui ont été co-cristallisés (données sur la séquence, la fonction, le repliement 3D, les particularités telles qu'une fixation à de l'ADN, ...). Ensuite, j'ai mis en œuvre une sélection dynamique des représentants des complexes contenus dans cette base. Les représentants sont essentiels pour éviter une surreprésentation de certaines familles de protéines. Cette base de donnée est accessible par Internet et est régulièrement mise à jour (http://dockground.bioinformatics.ku.edu). Le projet DOCKGROUND va être poursuivi par la réalisation de 3 autres bases de données qui s'ancreront sur la présente appelée ‘Bound-Bound'.
L'objectif principal de mes travaux est d'identifier de nouveaux composés bio-actifs afin de comprendre le fonctionnement de leur cible dans un contexte biologique. Les méthodes que j'utilise se basent sur la chémoinformatique, le criblage virtuel et le de novo ‘drug design'. Dans le cadre de ce dernier, j'ai mis au point un programme propriétaire LEA3D (‘Ligand by Evolutionary Algorithm' 3D). Le programme génère des petites molécules à partir de la combinaison de fragments moléculaires issus de drogues et de molécules ‘bio' (substrats ou produits de réactions enzymatiques). Le criblage virtuel basé sur la structure protéique et le de novo ‘drug design' par LEA3D, ont été appliqués avec succès à la thymidine monophosphate kinase (TMPK) de Mycobacterium tuberculosis dans le cadre d'une collaboration avec une équipe de chimistes et de biologistes de l'Institut Pasteur. De nouvelles familles d'inhibiteurs ont été identifiées dont un inhibiteur synthétique trois fois plus affin que le substrat naturel. Plusieurs publications et une demande de brevet couvrent les résultats de ces recherches. Dans la continuité de ces travaux, je m'intéresse maintenant, plus particulièrement, à développer des stratégies de criblages de fragments (molécules de petit poids moléculaire). Il a été montré que de petites chimiothèques contenant des petites molécules polaires sont plus efficaces pour identifier des touches. Ce travail doit être réalisé conjointement avec des criblages structuraux expérimentaux comme la RMN ou la diffraction des rayons X. Ces derniers se posent comme une alternative aux tests in vitro avec pour avantage de donner une information détaillée, au niveau atomique, des interactions entre le ligand et sa cible. S'ensuit une étape d'optimisation/maturation des touches en ligands plus élaborés et plus affins par l'utilisation d'outils de chémoinformatique.

Protein-Protein and Protein-ligand interaction studies by structural bio- and cheminformatics : identification of small bio-active molecules

Etude des interactions protéine-protéine et protéine-ligand par bio- et chimie-informatique structurale : Identification de petites molécules bio-actives

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager