CURRICULUM VITAE - École des mines d'Alès...Développement d’une application de banc d’essai...

10
1 CURRICULUM VITAE A. Activités de professionnelles de recherche & éducation 2018- Enseignant-chercheur, LGI2P, IMT Mines Alès, Équipe KID 2016 2017 Post-doc équipe SMILE/ADVANSE au LIRMM (Montpellier) avec C. Jonquet et S. Bringay. Travail sur l’ANR PractickPharma et de SIFR Bioportal/Agroportal. 2012 2016 Doctorat (puis ATER 2015-2016) au Laboratoire d’Informatique de Grenoble dans l’équipe GETALP de l’Université Grenoble Alpes, sous la direction de G. Sérasset et J. Goulian. Enseignement en mission complémentaire à Polytech Grenoble (2012-2015). Enseignement en ATER à l’IUT2 de Grenoble. 2010 2012 M1 & M2R en parcours international MoSIG à l’Université Joseph Fourier & Ensimag (Mention Bien). Intelligence Artificielle et Web sémantique. Sujet de M2R : « Combinaison de sources d’informations multilingues pour la désambiguïsation lexicale à Base de Savoir » avec D. Schwab. 2007 2010 DUETI/Bsc Computer Science (Hons) équiv. L3, Oxford Brookes University, United Kingdom. First Class Honours (mention très bien). DUT Informatique, IUT2 Grenoble. B. Publications Principales (86 citations, H-index = 5, I-Index=3) A. Tchechmedjiev, A. Abdaoui, V. Emonet, S. Melzi, J. Jonnagadala and C. Jonquet. 2017. Enhanced Functionalities for Annotating and Indexing Clinical Text with the NCBO Annotator+. Bioinformatics, Accepted for Publication, Oxford University Press (Impact factor: 7.307). A. Tchechmedjiev, T. Mandon, M. Lafourcade, A. Laurent, K. Todorov. 2017. Ontolex JeuxDeMots and Its Alignment to the Linguistic Linked Open Data Cloud. Proceedings of the 16th International Semantic Web Conference, October 21-25, Vienna, Austria. (Rang Core A) D. Schwab, J. Goulian, A. Tchechmedjiev et H. Blanchon. Ant Colony Algorithm for the Unsupervised Word Sense Disambiguation of Texts: Comparison and Evaluation, Coling’2012, the 24th International Conference on Computational Linguistics, 8-15 Décembre 2012, Mumbai, India. (Rang Core A) C. Responsabilités d’encadrement Niveau Nb. Nature Durée cumulée M2R 1 M2 IA à Montpellier (stage avec mobilité sur Stanford d’1 mois) en 2017 5 mois M1 10 8 M1 Info (Univ. Grenoble Alpes) (2014-2016). 2 En M1 WIC (Double cursus Info./Sci. Cog., en 2013) 30 mois L* 3 2 Stagiaires d’excellence en L1/L2 Info. (Univ. Grenoble Alpes, 2016), 1 Stagiaire ENS Cachan (2012). 6 mois D. Formations professionnelles Formation de 20j au Collège Doctoral de la COMMUE Grenoble Alpes (pédagogie, insertion pro.) dans le cadre de la mission complémentaire d’enseignement durant mon doctorat. E. Enseignement Année Modules Vol. (Tot. 450h) 2017-2018 Vacataire Fouille de Données (M1, Université de Montpellier) 25h 2015-2016 ATER, IUT 2 Grenoble Bases de données (TD/TP/CM/Exam) ; Réseaux (TD/TP/Exam) ; IHM (TP, Exam), Prog. Web (TD/TP/Proj.) ; Systèmes d’exploitation (TD/TP/Proj. /Exam) ; Algo. Avancée (TD/TP/Exam) ; Méthodes de dév. d’applications (Proj., 1 semestre) ; Proj. Personnel et Professionnel. 204h Andon Tchechmedjiev, Marié, 31 ans https://andon.tchechmedjiev.eu/ [email protected] Trilingue Anglais (C2) / Français (C2) / Bulgare (Natif) Russe (A2) ; Indonésien (Notions)

Transcript of CURRICULUM VITAE - École des mines d'Alès...Développement d’une application de banc d’essai...

Page 1: CURRICULUM VITAE - École des mines d'Alès...Développement d’une application de banc d’essai pour des applications MapReduce (Hadoop). 2009 Développeur pour Exselt Services

1

CURRICULUM VITAE

A. Activités de professionnelles de recherche & éducation

2018- Enseignant-chercheur, LGI2P, IMT Mines Alès, Équipe KID

2016 2017

Post-doc équipe SMILE/ADVANSE au LIRMM (Montpellier) avec C. Jonquet et S. Bringay. Travail sur l’ANR PractickPharma et de SIFR Bioportal/Agroportal.

2012 2016

Doctorat (puis ATER 2015-2016) au Laboratoire d’Informatique de Grenoble dans l’équipe GETALP de l’Université Grenoble Alpes, sous la direction de G. Sérasset et J. Goulian. Enseignement en mission complémentaire à Polytech Grenoble (2012-2015). Enseignement en ATER à l’IUT2 de Grenoble.

2010 2012

M1 & M2R en parcours international MoSIG à l’Université Joseph Fourier & Ensimag (Mention Bien). Intelligence Artificielle et Web sémantique. Sujet de M2R : « Combinaison de sources d’informations multilingues pour la désambiguïsation lexicale à Base de Savoir » avec D. Schwab.

2007 2010

DUETI/Bsc Computer Science (Hons) équiv. L3, Oxford Brookes University, United Kingdom. First Class Honours (mention très bien). DUT Informatique, IUT2 Grenoble.

B. Publications Principales (86 citations, H-index = 5, I-Index=3) A. Tchechmedjiev, A. Abdaoui, V. Emonet, S. Melzi, J. Jonnagadala and C. Jonquet. 2017. Enhanced Functionalities for Annotating and

Indexing Clinical Text with the NCBO Annotator+. Bioinformatics, Accepted for Publication, Oxford University Press (Impact factor: 7.307).

A. Tchechmedjiev, T. Mandon, M. Lafourcade, A. Laurent, K. Todorov. 2017. Ontolex JeuxDeMots and Its Alignment to the Linguistic Linked Open Data Cloud. Proceedings of the 16th International Semantic Web Conference, October 21-25, Vienna, Austria. (Rang Core A)

D. Schwab, J. Goulian, A. Tchechmedjiev et H. Blanchon. Ant Colony Algorithm for the Unsupervised Word Sense Disambiguation of Texts: Comparison and Evaluation, Coling’2012, the 24th International Conference on Computational Linguistics, 8-15 Décembre 2012, Mumbai, India. (Rang Core A)

C. Responsabilités d’encadrement Niveau Nb. Nature Durée cumulée M2R 1 M2 IA à Montpellier (stage avec mobilité sur Stanford d’1 mois) en 2017 5 mois

M1 10 8 M1 Info (Univ. Grenoble Alpes) (2014-2016). 2 En M1 WIC (Double cursus Info./Sci. Cog., en 2013)

30 mois

L* 3 2 Stagiaires d’excellence en L1/L2 Info. (Univ. Grenoble Alpes, 2016), 1 Stagiaire ENS Cachan (2012).

6 mois

D. Formations professionnelles Formation de 20j au Collège Doctoral de la COMMUE Grenoble Alpes (pédagogie, insertion pro.) dans le cadre de la mission complémentaire d’enseignement durant mon doctorat.

E. Enseignement Année Modules Vol. (Tot. 450h)

2017-2018 Vacataire

Fouille de Données (M1, Université de Montpellier) 25h

2015-2016 ATER, IUT 2 Grenoble

Bases de données (TD/TP/CM/Exam) ; Réseaux (TD/TP/Exam) ; IHM (TP, Exam), Prog. Web (TD/TP/Proj.) ; Systèmes d’exploitation (TD/TP/Proj. /Exam) ; Algo. Avancée (TD/TP/Exam) ; Méthodes de dév. d’applications (Proj., 1 semestre) ; Proj. Personnel et Professionnel.

204h

Andon Tchechmedjiev, Marié, 31 ans https://andon.tchechmedjiev.eu/ [email protected]

Trilingue Anglais (C2) / Français (C2) / Bulgare (Natif) Russe (A2) ; Indonésien (Notions)

Page 2: CURRICULUM VITAE - École des mines d'Alès...Développement d’une application de banc d’essai pour des applications MapReduce (Hadoop). 2009 Développeur pour Exselt Services

2

2012-2015 Moniteur Polytech’ Grenoble

Bases de données (TIS, L3. TP). Modélisation et Systèmes d’Information (UML/POO, TIS, L3. TD/TP). Projet informatique en C (Projet/Soutenances). Communication Langagière (Traitement Automatiques des Langues, Responsable de module/CM/TD/TD/Exam).

221h

F. Activités administratives et collectives 1. Responsabilités administratives

• 2015-2017. Élu au conseil de la recherche du conseil académique de l’Université Grenoble Alpes (collège D) 2. Responsabilités collectives et scientifiques

• Membre du comité de programme de la journée commune AFIA-ATALA 2018 • 2015-2016. Membre de l’association du personnel du LIG, organisation d’animations. • Rapporteur pour Journal of Information Science (2018) • Rapporteur pour le journal MDPI Information, Special Issue on the Multilingual Web of Data (2018) • Sous rapporteur pour LDK 2017, COLING 2014, 2012 • Rapporteur pour NLDB 2017, 2018. • Volontaire dans le comité d’organisation de COLING 2012 (Mumbai, Inde), participation à l’élaboration du programme

scientifique de la conférence avec les présidents du comité de programme (M. Kay et C. Boitet). • Tête d’un groupe de travail au « 1st Summer Datathon on Linguistic Linked Open Data » (Été 2015). Proposition d’un sujet

de travail au « 2nd Summer Datathon on Linguistic Linked Open Data » (Été 2017). 3. Implication dans des projets

• Projet Hospitalier Paradise (CHRU Nancy) : Collaboration avec le Dr. Girerd du CHRU de Nancy dans le cardre du projet de recherche médical Paradise. Annotation sémantique automatique de rapports de sortie des urgences pour le renseignement automatique des fiches informatisées de sortie.

• ANR PractikPharma : Extraction de triplets (expression phénotypique, molécule, maladie effet) en pharmacogénomique à partir de dossiers patients électroniques en Français. Construction de modèle ontologiques au travers de techniques d’annotation sémantiques par ontologies (avec SIFR Bioportal) et confrontation à des données extraites du corpus de l’état de l’art en langue anglaise. Collaboration entre LIRMM (Clément Jonquet), LORIA (Adrien Coulet), CHU St Étienne (Cédric Bousquet), Hôpital Européen George Pompidou/APHP (Bastien Rance).

• ANR SIFR : Extension et amélioration de la plateforme SIFR Bioportal par des techniques de traitement automatique des langues, notamment dans le contexte de l’annotation du texte clinique.

• AGIR LOL : Linked Open Lexica (Projet UJF Grenoble) 2014-2016 : Production de données lexicales liées ouverte (LLOD) multilingues et application à l’alignement d’ontologies multilingues. Projet entre l’équipe LIG GETALP (Gilles Sérasset) et l’équipe projet EXMO (Jérôme Euzenat).

• Formica 2012-2014 (Projet UPMF Grenoble) – Projet visant au développement d’algorithmes globaux de Désambiguïsation avec comme objectif une valorisation par la participation à la campagne d’évaluation SemEval (participation en 2013). Avec Jérôme Goulian et Didier Schwab.

G. Expériences industrielles

2011 Développeur (2 mois), Inria Rhône-Alpes. Développement d’une application de banc d’essai pour des applications MapReduce (Hadoop).

2009 Développeur pour Exselt Services (1 mois), Grenoble.

2009 Développeur, (3 mois) Réusinage de kolekti une suite d’applications pour l’édition de documentation technique, Exselt Services. Montbonnot - Saint Martin.

H. Compétences techniques • Syst. Expl. (Administration) : Linux (Arch Linux, Debian, Ubuntu), Mac OSX, Windows. • Programmation : Java, C/C++, Python, PHP, Ruby, Scala, Ada, AspectJ, Assembleur, Matlab • SGBD/Triple Stores : PostgreSQL, MySQL, Oracle 11g, Virtuoso, TDB, 4store, Blazegraph, Modèles EA • Web/Web Sémantique : OWL/RDFS, Protegé, SKOS, Ontolex, LLOD/LOD, XSLT, JavaScript, (X)HTML, HTML5, Ajax • Typographie : LATEX, Open/LibreOffice.org, Microsoft Office, Apple Pages

• Versionnement et Dev. Opts. : Git, Subversion, Apache Maven, Docker, Virtualisation • Bibliothèques& Outils : Apache Jena, OWLAPI, Weka, DeepLearning4j, Keras, DKpro, UIMA(-fit), Unitex, Apache Spark,

YARN, JMS, OpenViBE, Swing

Page 3: CURRICULUM VITAE - École des mines d'Alès...Développement d’une application de banc d’essai pour des applications MapReduce (Hadoop). 2009 Développeur pour Exselt Services

3

• Apprentissage Automatique : Algorithmes supervisés & non supervisés classiques, Word embeddings, clustering de graphes, réduction de dimensionnalité & séparation aveugle de sources, Matlab, Keras

I. Dissémination & Rayonnement 1. Séminaires

• Décembre 2016. Séminaire donné aux deuxièmes rencontres du projet PractikPharma. LORIA, Nancy. 2016. • Juillet 2015. Participation au « 1st Summer Datathon on Linguistic Linked Open Data » où j’ai été à la tête d’une équipe de

travail et où j’ai effectué un séminaire : multilinguisation d’ontologies de domaine par des données lexicales liées et alignement de DBnary (données lexicales liées) avec Saldo (le WordNet suédois) et le Oxford Dictionary of English. Collaboration avec Oxford University Press.

• Mai 2015. Séminaire donné au LIRMM, Montpellier portant sur les ressources lexicales multilingues. • Avril 2014. Séminaire aux symposiums des doctorants de l’EDMSTII et du laboratoire LIG, Grenoble. • Mars 2012. Séminaire sur la désambiguïsation lexicale à la journée commune ATALA/AFIA sur l’Intelligence Artificielle

en Traitement Automatique des langues en 2012. 2. Participation à des écoles d’été

• Août 2015. Participation à l’école d’été du LABEX Persyvac sur l’optimisation convexe à grande échelle en 2015, Gipsa-lab, Grenoble.

• Août 2014. Participation à l’école d’été ESSLLI (école d’été européenne en logique, linguistique et informatique en 2014 à Tübingen, Allemagne. C’est une école d’été interdisciplinaire à la croisée des trois mondes.

3. Mobilités internationales

• Novembre 2017. Mobilité à Stanford University (1 mois) au sein du laboratoire d’informatique biomédicale de Mark Musen (BMIR, Biomedical Informatics) autour de mes travaux sur le projet SIFR.

4. Appartenances à des sociétés savantes

• ACL (Association for Computational Linguistics), • ATALA

5. Prix et distinctions

• Juin 2014. Prix de la meilleure ressource au 3rd Workshop on Linked Data in Linguistics: Multilingual Knowledge Resources and Natural Language Processing.

6. Production logicielle et technique

• 2017. Système de déploiement docker-compose pour BioPortal https://github.com/agroportal/docker-compose-bioportal/tree/develop

• 2017. Proxy SIFR Bioportal réécrit et modularisé https://github.com/sifrproject/annotators • 2014. Relations de traduction désambiguïsés pour DBNary http://kaiko.getalp.org/about-dbnary/lemon/disambiguated-

translations/ • 2012-2016. Lexsema, une boite à outils pour l’alignement de ressource lexicales multilingues et pour le traitement

sémantique (mesures de similarité, désambiguïsation lexicale) : https://github.com/twktheainur/lexsema • 2012. Système de désambiguïsation GETALP http://getalp.imag.fr/static/wsd/GETALP-WSD-ACA/

I. ACTIVITES D’ENSEIGNEMENT

Année Modules Vol. (Tot. 450h)

2017-2018 Vacataire

Fouille de Données (M1, Université de Montpellier) 25h

2015-2016 ATER, IUT 2 Grenoble

Bases de données (TD/TP/CM/Exam) ; Réseaux (TD/TP/Exam) ; IHM (TP, Exam), Prog. Web (TD/TP/Proj.) ; Systèmes d’exploitation (TD/TP/Proj. /Exam) ; Algo. Avancée (TD/TP/Exam) ; Méthodes de dév. d’applications (Proj., 1 semestre) ; Proj. Personnel et Professionnel.

204h

2012-2015 Moniteur Polytech’ Grenoble

Bases de données (TIS, L3. TP). Modélisation et Systèmes d’Information (UML/POO, TIS, L3. TD/TP). Projet informatique en C (Projet/Soutenances). Communication Langagière (Traitement Automatiques des Langues, Responsable de module/CM/TD/TD/Exam).

221h

Page 4: CURRICULUM VITAE - École des mines d'Alès...Développement d’une application de banc d’essai pour des applications MapReduce (Hadoop). 2009 Développeur pour Exselt Services

4

A. Synthèse analytique Ayant enseigné à la fois en école d’ingénieur durant ma thèse et en DUT en ATER, j’ai acquis une expérience d’enseignement très diverse et variée, à la fois à des niveaux d’études différents, mais aussi avec des techniques pédagogiques innovantes et avec des étudiants de provenances académiques diverses. À Polytech Grenoble j’ai enseigné dans l’ensemble des trois départements (RICM, 3I, TIS) et donc à la fois à des futurs ingénieurs en informatique/réseaux (RICM), systèmes industriels (3I) et en informatique médicale (TIS).

La formation d’ingénieur interdisciplinaire TIS est unique en France et allie enseignement informatique et médical à la fois à l’école et au CHU de Grenoble. Elle produit donc des ingénieurs en informatique médicale, à même de travailler sur des solutions logicielles dans les entreprises de biotechnologie et les hôpitaux. La plupart des étudiants viennent de formation de Biologie ou de Médecine, avec un tronc commun composé majoritairement d’informatique (que j’ai enseigné) et complétée par de la bio statistique et de la médecine (cours au CHU). Enseigner l’informatique à ce public à nécessité une approche pédagogique adaptée par l’utilisation de métaphores rapprochant ce que les étudiants apprennent en informatique (modélisation orientée objet et bases de données) et des notions qui leurs sont familières en biologie (par exemple un rapprochement ontologique de la taxonomie des espèces et des hiérarchies de type hérités en programmation orientée objet). J’ai par ailleurs aussi eu l’occasion d’enseigner aux élèves ingénieurs RICM (informatique réseau) les bases du traitement automatique des langues statistique (traduction automatique statistique, réseaux markov cachés pour le décodage de la parole, et d’autres techniques d’apprentissage non-supervisé appliqués au TAL) et les notions en linguistique et en mathématiques associées, ce qui a également nécessité une adaptation pédagogique afin d’amener les étudiants à une compréhension intuitive des notions interdisciplinaires. J’ai également encadré les élèves ingénieurs en systèmes industriels lors de leur projet de fin d’année en C portant sur la programmation graphique.

Enfin, j’ai participé à un programme pilote unique visant à offrir aux étudiants de DUT avec un bac technologique une voie d’accès privilégié à Polytech’ Grenoble, en leur proposant des enseignements supplémentaires en plus de leur cursus. J’étais chargé d’offrir un soutien en mathématiques à ces élèves, afin de s’assurer que leur niveau en mathématique serait suffisant pour intégrer l’école d’ingénieur.

Lors de mon ATER, j’ai été confronté à un plus large éventail d’enseignements, cette fois ci en DUT en cycle initial (à des bacheliers scientifiques et technologiques) et en année spéciale (reprise d’étude, réorientations, en formation professionnelle). J’ai ainsi enseigné en systèmes d’exploitation (principes de bases des systèmes d’exploitation Unix, programmation système Unix), en algorithmique avancée (arbres et structures de données complexes), en programmation web, en architecture des réseaux, en interaction homme machine, en bases de données avancées (administration, droits, transactions, normalisation. Année spéciale. J’étais responsable du module). J’ai été confronté à des nouvelles techniques pédagogiques, notamment en réseaux où un système de pédagogie inversée était en place (préparation du cours en amont et évaluation de la préparation avant le cours en question).

J’ai également eu le privilège de participer à l’encadrement du projet logiciel de groupe de fin d’année des deuxièmes années, où ils étaient chargés par groupe de 6 de travailler sur un vrai sujet de développement logiciel émanent d’un besoin professionnel réel. Les étudiants rencontrent des vrais professionnels visés par l’application en question qui expliquent leurs besoins. Les étudiants sont évalués sur la partie informatique du travail en trois phases (requirements, spécification fonctionnelle, prototype fonctionnel), puis à l’issue de cela ils sont évalués par un panel de professionnels de l’industrie à qui ils doivent réussir à vendre leur solution. Ainsi les étudiants sont confrontés à une situation professionnelle réaliste. Cette forme d’enseignement par projet est unique pédagogiquement, car encadrée simultanément à l’échelle du bâtiment par toute une équipe pédagogique multi compétences où il y avait des enseignants spécialisés dans chaque aspect du processus de développement (spécification, modélisation, développement, outils). Une application mobile développée pour l’occasion était utilisée par les étudiants pour invoquer les enseignants spécialisés à même de répondre aux questions.

Lors de mon post-doc j’ai effectué une vacation sur un projet d’extraction de connaissances à l’Université de Montpellier visant à faire de la classification de sentiment pour des reviews de films par l’utilisation de modèles vectoriels de mots/documents, de techniques de prétraitement/normalisation des données, d’ingénierie des traits et de techniques d’apprentissage supervisé.

En conclusion, je suis en mesure d’être opérationnel rapidement et de m’adapter aux conditions pédagogiques diverses sur une large gamme d’enseignements et d’enseigner à des étudiants avec des backgrounds très différents.

B. Projet d’enseignement à l’IMT Mines d’Alès Les besoins d’enseignement principaux pour ce poste se situent au niveau du tronc commun de la formation initiale

d’ingénieurs généralistes, la formation initiale d’ingénieurs en apprentissage, les formations spécialisées, la formation doctorale.

Page 5: CURRICULUM VITAE - École des mines d'Alès...Développement d’une application de banc d’essai pour des applications MapReduce (Hadoop). 2009 Développeur pour Exselt Services

5

Mon expérience extensive sur l’enseignement des bases me permettra d’être opérationnel immédiatement sur tous les enseignements d’informatique du tronc commun de la formation généraliste, en particulier sur l’orientation EMACS (Engineering and Management of Complex Systems) : ingénierie système (1/2), pratique du génie logiciel (web, projet génie logiciel), système et réseaux, optimisation, langages de modélisation pour la production, architecture des systèmes d’Information, outils d’optimisation, ingénierie des connaissances, programmation distribuée. Il en est de même avec les enseignements en informatique du M2P CTIN : Théorie du SIC, outils et méthodologies des SHS pour les études, modèles, algorithmique, analyse de données et des réseaux sociaux, réseaux et sécurité, technologies du web sémantique, conception de projets web, technologie numérique et web dynamique. Mon recul et mon expérience pédagogique interdisciplinaire me permettrons de m’adapter quel que soit le format pédagogique (enseignement par projet, pédagogie inversée, encadrement de projets d’étudiants de fin d’études) et l’origine académique des étudiants (DUT, prépa, business). J’ai une vision d’équipe pour l’enseignement et place mes objectifs et pratiques pédagogiques dans la logique d’une stratégie d’enseignement globale à l’échelle de l’école, afin de garantir une expérience optimale aux étudiants tout en minimisant les redondances et incohérences à l’échelle des formations.

Je prête une grande attention à produire des supports pédagogiques clairs et esthétiquement harmonieux, avec une langage graphique adapté à une transmission de connaissances optimale en fonction du public, comme l’illustrent la description de mon projet de recherche du présent document ou encore mon manuscrit de thèse.

J’ai enseigné à plusieurs reprises des sujets relatifs à l’apprentissage automatique et à la science des données et je suis issu d’une formation spécialisée en intelligence artificielle, ce qui me permettra de prendre en charge des nouveaux enseignements autour de la science des données.

J’ai étudié en Angleterre et j’ai un niveau quasi natif en Anglais (C2) ainsi qu’un accent Britanique standard et je serais en mesure d’enseigner en Anglais si jamais le besoin venait à apparaître. J’ai déjà eu l’occasion d’être responsable de cours durant mon ATER et service complémentaire et serais en mesure de prendre la responsabilité administrative de cours ou de formations à l’IMT rapidement.

C. Interactions avec le monde économique et industriel En plus de mes expériences de travail en industrie, sur Montpellier je m’investis activement dans les groupes de tech et de

data science regroupant principalement des industriels et des startups au travers de la plate-forme Meetup.com, et je réalise moi-même des présentations de mes travaux de recherche (groupe Big-Data/Data science Montpellier) vus au travers du prisme industriel (notamment sur les technologies du Web Sémantique). J’ai également participé à des hackathons, comme le Agro Hackathon (co-organisation) de l’institut de convergence DigitAG de Montpellier autour des applications des sciences de données au milieu Tech en agronomie. Ce sera un plaisir pour moi d’organiser des hackathons regroupant industriels et étudiants dans le cadre des formations proposés à l’IMT.

II. ACTIVITES DE RECHERCHE J’ai entamé mon travail de recherche avec la désambiguïsation lexicale (trouver le sens d’un mot dans un texte qui dénote

son usage par rapport aux sens identifiés dans un dictionnaire ou une ressource lexico-sémantique (Tchechmedjiev, 2012). J’ai plus particulièrement travaillé sur des techniques d’apprentissage non supervisées à base de savoir qui exploitent directement des ressources lexicales, à la fois pour des langues riches en ressources telles que le Français et l’Anglais (Schwab et al., 2013b), mais aussi pour des langues peu dotées en ressources langagières telles que l’arabe (Bakhouche et al., 2015) ou le bengali (Nasiruddin et al., 2015) avec des algorithmes d’optimisation stochastique (Tchechmedjiev et al., 2012; Schwab et al., 2013a). Dans ce contexte j’ai participé à la campagne d’évaluation internationale de référence de mon domaine (SemEval) où mon équipe est arrivée en troisième position (Schwab et al., 2013c).

La limitation principale de ces approches, est qu’elles sont dépendantes de la qualité des mesures de similarité sémantique ainsi que des ressources lexicales sur lesquelles elles sont basées (Schwab et al., 2015). Tout comme la construction de ressources à échelle massive est dépendante de l’utilisation d’algorithmes de désambiguïsation et de mesures de similarité sémantique. L’état de l’art allant dans le sens de l’apprentissage de représentations par plongements sémantiques (word embeddings), que j’ai moi-même exploré par un travail sur l’enrichissement de signatures sémantiques par word embeddings pour l’amélioration des techniques de désambiguïsation lexicale et des mesures de similarité à la fois monolingues et multilingues (Nasiruddin et al., 2014; Vial et al., 2016). J’ai ainsi encadré avec D. Schwab trois stagiaires de M1 sur ces thématiques.

J’ai ensuite étendu mes activités aux ressources lexicales multilingue (compagnon indispensable à la désambiguïsation) par ma collaboration avec Gilles Sérasset sur l’axe de la construction de ressources lexicales multilingues et de leurs applications, avec qui j’ai entamé mon travail de thèse. La limitation principale est longtemps restée la construction manuelle de ces ressources ou une création automatique basée sur des approximations (par exemple utiliser les sens de l’anglais comme pivot

Page 6: CURRICULUM VITAE - École des mines d'Alès...Développement d’une application de banc d’essai pour des applications MapReduce (Hadoop). 2009 Développeur pour Exselt Services

6

d’alignement) qui mènent à des incohérences et des erreurs de construction (une perte de distinctions de sens entre des langues ayant des conceptualisations similaires, mais différentes de l’anglais, par exemple dans des ressources telles que BabelNet).

La notion d’acception interlingue permet de créer des ressources lexico-sémantiques multilingues qui évitent ces erreurs, cependant depuis leur apparition il y a 20 ans, aucun des nombreux sujets de thèse n’a pu obtenir de résultats probants pour la construction automatique de ce type de ressources. J’ai alors proposé une formalisation des pivots par acceptions interlingues et j’ai proposé des algorithmes de construction automatique le tout dans le contexte d’une infrastructure basée sur les technologies du Web Sémantique et des Données Liées Ouvertes avec des formats tels que Ontolex (ontologie OWL pour la représentation interopérable des ressources lexicales et terminologiques) visant à réconcilier les ressources lexicales et sémantiques avec les ressource terminologiques et ontologiques (Tchechmedjiev et al., 2014), et plus particulièrement sur DBNary, une version Ontolex de 21 des éditions de langue de Wiktionary. Mes contributions ont permis d’obtenir la première formalisation axiomatique compréhensive des acceptions interlingues, des algorithmes de construction automatique ainsi qu’une boite à outil générique et libre (Lexsema) qui est déjà utilisée dans la communauté (Tchechmedjiev, 2016).

Cependant, au cours de ces travaux je me suis rendu compte que la portée de mes travaux allait bien au-delà des ressources lexicales uniquement. En effet les problèmes de contraste que j’ai identifié, apparaissent également au niveau des ressources terminologiques et ontologiques ou encore avec des segments de texte. Pour des domaines complexes tels que le domaine biomédical, les ontologies et terminologies sont construites de manière hétérogène et inconsistante, avec des objectifs et des méthodologies différentes et souvent pour des sous-domaines différents, ce qui se manifeste par des ambiguïtés lors de l’alignement et de la consolidation de ces ressources.

Cela m’a mené vers mon travail actuel en tant que Post-doc au sein du LIRMM avec Clément Jonquet et Sandra Bringay. Le projet ANR (PractikPharma) vise à extraire des informations pharmacogénimiques à partir de dossiers patients électroniques (avec l’Hôpital Européen Georges Pompidou à Paris, le CHU de Saint-Étienne, et le LORIA. Je travaille dans ce contexte autour de la plateforme SIFR BioPortal (Jonquet et al., 2016), regroupant des ontologies et terminologies biomédicales en français développée sur la base de NCBO BioPortal (Whetzel et al., 2011), et plus particulièrement l’amélioration du processus de reconnaissance de concepts et d’annotation par des techniques de TAL (utilisation de word-embeddings, désambiguïsation) afin de permettre l’annotation de texte clinique, son évaluation dans des campagnes (CLEF eHealth (Tchechmedjiev et al., 2017a)), l’ajout de fonctions de filtrage sémantique des annotations (groupes sémantiques UMLS), ou encore la détection du contexte clinique (travaux en cours de soumission dans le journal JBI, second auteur). Ces travaux ont été effectués pour l’anglais (Tchechmedjiev et al., 2018) et pour le français (soumission en cours à BMC Bioinformatics). J’ai effectué un séjour d’1 mois à Stanford (Center for Biomedical Informatics) afin de collaborer avec l’équipe d’NCBO BioPortal autour de l’intégration de mes contributions à leur processus d’annotation sémantique (article Bioinformatics). Je collabore aussi avec le CHRU de Nancy afin d’instrumentaliser l’annotation sémantique pour la saisie automatique des fiches de sortie à partir des comptes rendus des urgentistes. Je continue en parallèle mes travaux sur les ressources lexicales et leur interopérabilité avec les formalismes ontologiques (article ISWC).

A. Publications H-index = 5, I10-index = 3 https://scholar.google.fr/citations?user=EBGU8j8AAAAJ

Année Rang A/A+ Rang B Rang C Hors CORE RICR Chap. CICR CNCR Total Citations 2018 1 (Impact factor >7) 1 1 0 2017 1 1 2 3 1 4 7 2016 1 1 1 2 2015 3 1 1 1 3 2 2014 3 2 1 3 8 2013 1 1 2 2 2 4 20 2012 1 2 2 1 3 51 Total 2 2 1 14 4 1 9 5 19 90

RICR - Revues internationales avec comité de relecture (4) A. Tchechmedjiev, A. Abdaoui, V. Emonet, S. Melzi, J. Jonnagadala and C. Jonquet. 2017. Enhanced Functionalities for Annotating and Indexing Clinical Text with the NCBO Annotator+. Bioinformatics, Accepted for Publication, Oxford University Press (Impact factor: 7.307). A. Bakhouche, T. Yamina, D. Schwab, A. Tchechmedjiev. Ant colony algorithm for Arabic word sense disambiguation through English lexical information. International Journal of Metadata, Semantics and Ontologies, 10(3): 202—211, 2015. Inderscience Publishers (IEL). Non classé dans CORE, choix contraint administrativement pour l’auteur principal.

Page 7: CURRICULUM VITAE - École des mines d'Alès...Développement d’une application de banc d’essai pour des applications MapReduce (Hadoop). 2009 Développeur pour Exselt Services

7

D. Schwab, J. Goulian, A. Tchechmedjiev. Désambiguïsation lexicale de textes : efficacité qualitative et temporelle d’un algorithme à colonies de fourmis. Traitement Automatique des Langues, 54(1) : 99-138. Non classé dans CORE, mais revue de référence du domaine en France avec publications internationales. D. Schwab, J. Goulian and A. Tchechmedjiev. Worst-case Complexity and Empirical Evaluation of Artificial Intelligence Methods for Unsupervised Word Sense Disambiguation, International Journal of Web Engineering and Technology, 2013. Rang C au classement CORE.

Chapitres de livre (1) D. Schwab, J. Goulian and A. Tchechmedjiev and Gilles Sérasset. Comparisons of Relatedness Measures Through a Word Sense Disambiguation Task, Chapter of Language Production, Cognition, and the Lexicon. Eds. Núria Gala, Reinhard Rapp, Gemma Bel-Enguix. Springer International Publishing, Text, Speech and Language Technology Volume 48, ISBN 978-3-319-08042-0, pages 221-243, (2015). Travail expérimental, analyse des résultats, protocole, relecture et traduction complète.

Conférences internationales avec comité de relecture (9) A. Tchechmedjiev, T. Mandon, M. Lafourcade, A. Laurent, K. Todorov. 2017. Ontolex JeuxDeMots and Its Alignment to the Linguistic Linked Open Data Cloud. Proceedings of the 16th International Semantic Web Conference, October 21-25, Vienna, Austria. Rang CORE A. Taux d’acceptation 23%. A. Tchechmedjiev and C. Jonquet, 2017. Enrichment of French Biomedical Ontologies with UMLS Concepts and Semantic Types for Biomedical Named Entity Recognition Though Ontological Semantic Annotation. In Proceedings of Language, Ontology, Terminology and Knowledge Structures Workshop, September 19-22 Montpellier, France (LOTKS 2017). Conférence principale de rang CORE B. A. Tchechmedjiev, A. Abdaoui, V. Emonet and C. Jonquet, 2017, September. ICD-10 coding of death certificates with the NCBO and SIFR Annotators at CLEF eHealth 2017. In Working Notes of CLEF eHealth Evaluation Lab (Vol. 1866). CEUR. Pas dans CORE, mais workshop d’évaluation de référence en recherché d’information pour la santé. A. Tchechmedjiev, G. Sérasset, J. Goulian, and D. Schwab, Attaching Translations to Proper Lexical Senses in DBnary, in Proceedings of the 3rd Workshop on Linked Data in Linguistics: Multilingual Knowledge Resources and Natural Language Processing, (2014). Workshop principal pour les ressources lexicales en données lexicales liées. G. Sérasset, A. Tchechmedjiev, DBnary: Wiktionary as Linked Data for 12 Language Editions with Enhanced Translation Relations, Proceedings of the 3rd Workshop on Linked Data in Linguistics: Multilingual Knowledge Resources and Natural Language Processing, pp. 68-71 (2014). Prix Ex-aequo de la meilleure ressource. D. Schwab, A. Tchechmedjiev, J. Goulian, M. Nasiruddin, G. Sérasset and H. Blanchon. GETALP System: Propagation of a Lesk Measure through an Ant Colony Algorithm, Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), June 2013, Atlanta, Georgia, USA, Association for Computational Linguistics, p 232–240.Article présenté. Campagne d’évaluation de référence en sémantique computationelle. Rédaction complète, travail expérimental, analyse des résultats, protocole. A. Tchechmedjiev, J. Goulian and D. Schwab. Fusion strategies applied to multilingual features for a knowledge-based Word Sense Disambiguation algorithm: evaluation and comparison, in 14th International Conference on Intelligent Text Processing and Computational Linguistics, CICLING’2013, March 2013 24–30, Samos, Greece. Article Présenté. Taux d’acceptation 24.6%. Rang B au classement CORE. D. Schwab, J. Goulian, A. Tchechmedjiev et H. Blanchon. Ant Colony Algorithm for the Unsupervised Word Sense Disambiguation of Texts: Comparison and Evaluation, Coling’2012, the 24th International Conference on Computational Linguistics, 8-15 December 2012, Mumbai, India.Taux d’acceptation 16%. Rang A au classement CORE. Article présenté, rédaction complète, travail expérimental, implémentation, analyse des résultats. A. Tchechmedjiev, D. Schwab, J. Goulian et G. Sérasset, Parameter estimation under uncertainty with Simulated Annealing applied to an ant colony based probabilistic WSD algorithm, Coling-Workshop 1st International Workshop on Optimization Techniques for Human Language Technology, 9 December 2012, Mumbai, India. Format conférence, le comité de relecture est un sous ensemble du comité de la conférence principale qui est rang A.

Conférences nationales avec comité de relecture (5) A. Abdaoui, A. Tchechmedjiev, W. Digan, S. Bringay and C. Jonquet. 2017. French ConText : Détecter la négation, la temporalité et le sujet dans les textes cliniques Français. In 4e édition du Symposium sur l’Ingénierie de l’Information Médicale. November 23-24. Toulouse, France. L. Vial, A. Tchechmedjiev, D. Schwab. Extension lexicale de définitions grâce à des corpus annotés en sens. Actes de la 23ème Conférence sur le Traitement Automatique des Langues Naturelles. 2016. Paris, France. Juin 2016.

Page 8: CURRICULUM VITAE - École des mines d'Alès...Développement d’une application de banc d’essai pour des applications MapReduce (Hadoop). 2009 Développeur pour Exselt Services

8

M. Nasiruddin, A. Tchechmedjiev, H. Blanchon, and D. Schwab. Création rapide et efficace d’un système de désambiguïsation lexicale pour une langue peu dotée. In Actes de la 21ème conférence sur le Traitement Automatique des Langues Naturelles. 2015. Conférence principale du domaine en France. Travail expérimental, analyse des résultats, travail technique, relecture. M. Nasiruddin, D. Schwab, A. Tchechmedjiev, G. Sérasset, Induction de sens pour enrichir des ressources lexicales. Actes de la 21ème conférence sur le Traitement Automatique des Langues Naturelles, P-L2.3. 2014. Conférence principale du domaine en France. Article présenté. A. Tchechmedjiev. État de l’art : mesures de similarité sémantique locales et algorithmes globaux pour la désambiguïsation lexicale à base de connaissances. In Proceedings of the Joint Conference JEP-TALN-RECITAL, volume 3: RECITAL, ATALA/AFCP, pp 295–308. Grenoble, France. 2012. Conférence principale du domaine en France.

B. Projet de recherche et d’intégration au LGI2P (KID) 1. Projet de Recherche

Mon projet de recherche se situe à l’intersection de la sémantique lexicale computationnelle et du web sémantique. Mon premier axe porte sur la construction de ressources lexicales et ontologiques multilingues de manière interopérable. Mon deuxième axe porte sur des applications textuelles (annotations sémantique, reconnaissance d’entités nommées, apprentissage d’espaces sémantiques). Mon troisième axe porte sur l’étude de la structure topologique des pivots d’alignement interlingues (géométrie de l’information). Je me focalise particulièrement sur l’apprentissage de représentations par plongements (embeddings) de manière transversale aux trois axes. Plongements de ressources lexicales et ontologiques dans le premier (visant à un meilleur alignement et enrichissement). Plongements lexicaux, sémantiques et conceptuels de texte multilingues, indexation conceptuelle de texte pour le deuxième axe. Plongements préservant la topologique des structures d’alignement interlingues et réconciliation des plongements de ressources (lexicales, ontologiques) et de texte autour des plongements de pivots dans un espace unique.

Page 9: CURRICULUM VITAE - École des mines d'Alès...Développement d’une application de banc d’essai pour des applications MapReduce (Hadoop). 2009 Développeur pour Exselt Services

9

Mon domaine d’application principal est celui de la santé (extraction de connaissances, reconnaissance d’entités et de concepts), avec des déploiements de systèmes au sein des infrastructures informatiques d’hôpitaux traitant des volumes de donnés massives. Mes thématiques de recherche s’alignent bien avec celles de l’équipe KID en ce qui concerne les applications, en particulier autour de la santé avec les technologies du web sémantique (extraction de connaissances, indexation). Mon projet s’articule selon les axes suivants : Axe 1 Ressources lexicales, ontologiques et terminologiques

Axe 1.1 Construction automatique/par myriadisation de ressources lexicales et ontologiques Axe 1.2 Alignement automatique de sens et de concepts

Axe 2 Annotation sémantique de textes des de corpus Axe 2.1 Reconnaissance de concepts, annotation sémantique, désambiguïsation Axe 2.2 Plongements de mots et de sens

Axe 3 Modélisation et topologies des structures d’alignement pivot interlingues Axe 3.1 Alignement de ressources lexicales multilingues par pivots interlingues Axe 3.2 Plongement de structures d’alignement par pivot interlingues

2. Projet d’intégration dans l’équipe KID du LGI2P

Le poste porte sur un sous-ensemble des thématiques de l’équipe KID du LGI2P, en particulier l’axe décision et l’axe recherche de connaissances. De manière plus détaillée :

• [D] Décision o [D.PC] Résolution de problèmes combinatoires de grande taille o [D.ADMCF] Systèmes d’aide à la décision multicritères et multi-facteurs

• [R] Recherche de connaissances o [R.IC] Recherche d’information conceptuelle o [R.FDDB] Fouille de données appliquée au domaine biomédicale o [R.V] Visualisation

Je présente ci-dessus un tableau récapitulant la correspondance entre mon projet de recherche et les axes de l’équipe, puis je détaillerais un peu plus l’insertion ainsi que les axes/interfaces d’application.

Mon projet Axes d’insertion Axe 1.1 Construction automatique/par myriadisation de ressources lexicales et ontologiques [R] Axe 1.2 Alignement automatique de sens [D.ADMCF] [R] Axe 2.1 Reconnaissance de concepts, annotation sémantique, désambiguïsation [D.PC][R] Axe 2.2 Plongements de mots et de sens [R] Axe 3.1 Alignement de ressources lexicales multilingues par pivots interlingues [R] Axe 3.2 Plongement de structures d’alignement par pivot interlingues [R]

Au sein de mon Axe A1.1, il y a une correspondance avec l’axe recherche de connaissances [R] de manière générale, puisque cet aspect de mes recherches couvre la construction et curation d’ontologies dans un contexte biomédical (travail sur SIFR BioPortal). Au sein de mon Axe A1.2 il y a une correspondance avec la thématique recherche d’information conceptuelle [R.IC] du fait que mon axe inclue des approches d’alignement d’ontologies, en particulier dans le domaine biomédical. Ces techniques d’alignement sont basés sur des décisions basées sur des facteurs et/ou critères multiples, d’où, je pense, une bonne synérgie avec la thématique sur les systèmes d’aide à la décision multicritères et multi-facteurs [D.ADMCF]. Mon Axe 2.1 correspond à la fois aux thématiques de recherche de connaissance [R] de manière générale (annotation sémantique et conceptuelle de textes clinique) et d’optimisation combinatoire de problèmes de grande taille [D.PC] (les approches de désambiguïsation à base de savoir sont formulées comme des problèmes combinatoires complexes). Le reste de mes Axes (A2.2, A3.1, A3.2) portent principalement sur les thématiques de recherche de connaissances. Le premier (A2.2) comme outil pour la RI conceptuelle (embeddings conceptuels), le second et le troisièmes (A3.1, A3.2) du point de vue de l’alignement d’ontologies multilingues (en particulier dans le contexte biomédical).

Page 10: CURRICULUM VITAE - École des mines d'Alès...Développement d’une application de banc d’essai pour des applications MapReduce (Hadoop). 2009 Développeur pour Exselt Services

10

Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier - UMR 5506

161 rue Ada l F - 34095 Montpellier Cedex 05 l Tél : 33 (0)4 67 41 85 85 l Fax : 33 (0)4 67 41 85 00 l www. lirmm.fr

Montpellier, le 7 Janvier 2018

Objet : Soutien de la candidature aux fonctions de Maître de Conférences pour Dr. Andon Tchechmedjiev

Nous (Clément Joncquet et Sandra Bringay) avons recruté (01/11/2016) Andon Tchechmedjiev en tant que chercheur postdoctoral au LIRMM (UMR 5506) dans le cadre du projet ANR PratikPharma (2016-2019).

Ce projet porte sur l’annotation sémantique (à l’aide d’ontologies) de textes issus de dossiers patients électroniques en français pour en extraire de la connaissance en pharmacogénomique (effet secondaire de la prise d’un médicament en fonction du profil génétique d’un patient). Cette nouvelle connaissance est alors confrontée à d’autres connaissances extraites à partir des données de l’état de l’art en anglais (par ex., publications). Dans ce contexte, l’expérience de Andon Tchechmedjiev dans le domaine du traitement automatique des langues ainsi que sur l’alignement de ressources lexicales multilingues s’est montrée d’une grande valeur.

Grace à son expérience scientifique, Andon Tchechmedjiev a pris en main les outils et méthodologies que nous utilisons dans le projet avec aisance et fait de nombreuses propositions concrètes pour identifier les verrous scientifiques et leurs possibles solutions. Il fait preuve d’excellentes compétences de méthodologie scientifique (création de corpus, évaluation de résultats, analyse, rédaction d’articles et de rapports de projet, etc.). Il fait également preuve compétences techniques pointues. Il a notamment fait évoluer nos outils dans le sens d’une maintenabilité accrue en suivant les meilleures pratiques en vigueur dans l’industrie.

Dans le contexte du projet PractikPharma, l’interopérabilité́ sémantique des données est cruciale. Nous travaillons avec des ontologies du domaine et les technologies du web sémantique (OWL, RDF, SPARQL, etc.). Malgré le fait qu’il entamait un travail sur des thématiques en marge de ces travaux précédents, Andon Tchechmedjiev a tout de suite montré un intérêt et une importante capacité d’apprentissage et d’adaptation qui se sont transformés rapidement en une grande expertise.

En outre, Andon Tchechmedjiev s’est très rapidement intégré à l’équipe et fait preuve de proactivité et responsabilité dans les nouvelles tâches qui lui sont confiées. Nous avons encadré ensemble un stage de M2R au printemps 2017 (reconnaissance de concepts avec Unitex). Andon Tchechmedjiev de par son expérience extensive d’encadrement a su prendre en main l’encadrement scientifique et technique au jour-le-jour du stage.

Nous travaillons maintenant sur plusieurs collaborations avec des hôpitaux (HEGP à Paris, CHU Nancy) pour l’utilisation et le transfert des technologies que nous développons pour l’extraction de savoir clinique et l’automatisation du renseignement de formulaires de sortie à l’aide de rapports cliniques en texte libre. Andon Tchechmedjiev est responsable des interactions opérationnelles avec les équipes techniques dans les hôpitaux.

En plus des 4 publications préalables, les travaux postdoctoraux de Andon Tchechmedjiev ont donné lieu à des publications de haut niveau scientifique notamment un article dans Bioinformatics (impact factor 7.307) qui décrit les travaux effectués sur l’extension de SIFR bioportal en vue d’applications sur le texte clinique mais aussi un article dans ISWC 2017 (Rang Core A) portant sur la standardisation et l’interopérabilisation de jeux de mots (jeu sérieux qui produit un réseau sémantique) avec les données

liées ouvertes. Deux autres articles de journaux sont en cours de soumission dont 1 en premier auteur (BMC Bioinformatics) et un en second auteur (JBI).

Cette dernière publication porte sur le projet de recherche propre d’Andon Tchechmedjiev visant à réconcilier le monde du web sémantique et des ontologies avec celui de la sémantique et lexicographie des langues naturelles. Nous sommes donc très enthousiastes pour la suite du projet de recherche de Andon Tchechmedjiev qui viendra enrichir les travaux sur l’extraction de connaissances en santé de la communauté francophone.

Pour toutes ces raisons, nous souhaitons fortement continuer et étendre cette collaboration à l’avenir avec Andon Tchechmedjiev et nous recommandons très vivement Andon Tchechmedjiev pour une candidature en tant que Maître de Conférences.

Clément Jonquet Maître de conférences LIRMM – Montpellier University France Email: [email protected] Tel : http://www.lirmm.fr/~jonquet

Sandra Bringay Professeurr, LIRMM – Montpellier University France Université Paul-Valéry Email: [email protected] Tel: 33(0)6 83 24 79 33 http://www.lirmm.fr/~bringay