.ad 1i .fo no .im symbol;.im symbchgs Received: from UKACRL.BITNET by UICVM (Mailer R2.03B) with BSMTP id 8292; Mon, 20 Nov 89 07:04:09 CST Received: from RL.IB by UKACRL.BITNET (Mailer X1.25) with BSMTP id 6355; Mon, 20 Nov 89 12:57:55 GMT Received: from RL.IB by UK.AC.RL.IB (Mailer X1.25) with BSMTP id 5803; Mon, 20 Nov 89 12:57:53 GM Via: UK.AC.OX.VAX; 20 NOV 89 12:57:44 GMT Date: Mon, 20 Nov 89 12:57 GMT From: Lou Burnard To: U35395@UICVM Subject: des nouvelles de paris .sk;.co [Just returned from pleasant couple days in Paris where I spoke at a one-day affaire organised by the IRHT folks. They paid my expenses but not travel, so I hope the budget can stand an extra 66 quid for my train fare. will post a short englang summary shortly, time permitting. I thought you might like my speech for the archives anyway. Sorry about the accents - blame it on WordPerfect -- Lou ] C'est pour moi un grand plaisir de me trouver encore une fois a`` Paris et vous dire quelques mots au sujet de la standardisation des textes electroniques, sujet de''ja`` traite'' dans un volume re''cemment publie'' par le CNRS gra^ce aux efforts de notre ho^te, Lucie Fossier, et de JP Genet. Ce sujet constituait le the``me d'une confe''rence tenue au LISH en 1987, ou`` des experts franc,,ais, allemands, sue''dois, italiens (et me^me quelques amateurs anglais) ont discute'' les possibilite''s de la standardisation et d'e''change des bases de donne''es historiques. On a parle'' surtout des immenses variations parmi les sources historiques et des pre''conceptions ine''vitables de ceux qui les transformaient en forme analysable par ordinateur. Pour mai^triser ces immenses volumes d'octets, qui menacent de nous submerger, l'historien doit toujours comprendre les sources d'ou`` elles parviennent. Evidemment, on n'e''chappera jamais aux erreurs de transcription et de codage, non moins genantes et peut-e^tre plus fre''quentes dans les labos d'aujourd'hui que dans les scriptoria d'antan. Mais ce genre de proble``me est assez bien connu, et au moins est-il susceptible d'e^tre re''solu. Plus serieux, me parait-il, sont les proble``mes d'interpre''tation. Lorsqu'un historien du moyen-a^ge se met a codifier (disons) les me''tiers (ou meme les noms) atteste''s dans une source quelconque, assure''ment il ne pre''tendrait jamais que les me^mes codes serviront a`` codifier une source de la renaissance, ou une autre source. Pourtant, le but de la standardisation ne serait-il pas de permettre exactement ce genre de comparaison? A quoi bon e''changer nos textes et nos bases de donne''es sans accord au sujet de leurs fondations the''oriques? Ce qui nous manquait dans nos discussions il y a deux ans, c'e''tait une metalangue pour de''crire ces fondations, une terminologie neutre qui jouera pour les textes la meme ro^le que les me''thodes d'analyse de donne''es bien connues dans le monde de l'informatique. Car il ne suffit pas simplement de re''produire (me^me exactement) les mots seuls d'un re''cit pour le comprendre et pour s'en servir. Saisir un texte est toujours et doit toujours e^tre l'interpreter. Si j'insiste sur ce point, c'est parce qu'il existe partout - regrettablement - des fanatiques d'informatique qui vous assureront qu'une fois saisies sur support magnetique, une fois gere''es par logiciel, les donne''es textuelles se transformeront en re''alite objective. C'est faux, mais pas entie``rement. Car, si on inclus dans cette saisie l'e''xpression en langage standardise''e des interpre''tations que l'on veut porter sur les donne''es - si on exprime et les donne''es elles- me^mes et la structure dans laquelle on les croit fonctionner - on atteindra peut-e^tre le niveau de l'objectivite''. On pourrait donc au moins comparer les mots appartenants aux me''tiers selon M. Untel avec ceux qui fonctionne sur le meme plan selon Mlle. Unetelle. On pourrait ve''rifier dans quels genres de textes de tels mots se trouvent, pour en construire de nouveau une typologie. Ces comparaisons exigent, assure''ment, un accord entre les gens au sujet des fonctions textuelles qui doivent e^tre distingue''es - et c'est sur cette ta^che non negligeable que nos efforts devraient se concentrer. Dans le cours de hiver 1987, j'ai eu le plaisir (un peu douteux du point de vue me''te''o) d'assister a`` une autre confe''rence sur la standardisation qui avait lieu a`` New York. La``, il n'e''tait plus question de la possibilite'' de standardisation des formats e''lectroniques des textes, mais pluto^t d'une ne''cessite'' absolue. Cette confe''rence, organise''e par l'Association for Computers and the Humanities, re''unissait les repre''sentants d'une trentaine de grandes organisations et socie''te''s de re''cherche ame''ricaines et europe''enes, et aussi de la plupart des archives et des collections de textes e''lectroniques connues sur le plan mondial. A la surprise ge''neral, on constata unanimement les re''sultats de''/astreux de l'absence d'une me''thode d'encodement universellement consentie. Chaque projet important ayant d de''couvrir en partant de ze''ro ses propres solutions a`` des problemes fondamentalement semblables, on voyait partout un gaspillage des moyens restreints et un veritable me''li-me''lo de codages. On ne s'attendait plus a`` une cacophonie - on l'avait. De cette confe''rence, gra^ce aux efforts d'une petite bande de fanatiques, dont j'ai l'honneur de faire partie, est ne''e la Text Encoding Initiative, un effort vraiment international, finance''e par le National Endowment for the Humanities et par la Communaute'' Europe''ene, mais dirige''e surtout par la communaute'' internationale des chercheurs. Cette initiative a pour but l'e''laboration et la promotion d'un ensemble de "guidelines" - lignes directrices - pour la pre''paration et l'e''change des textes e''le''ctroniques dans la recherche, dont la premie``re version sortira en juin 1990. Malheureusement le temps me manque pour vous expliquer toute la structure de l'entreprise, pour interessante qu'elle soit pour les amateurs des structures byzantines. Pour simplifier, je ne dirai que deux mots sur ses principes. D'abord, il faut distinguer les recommendations sur deux plans - le "quoi" et le "comment". Par le "quoi" j'entends les traits des donne''es textuelles - quels ele''ments des discours e''tudie''s - devraient etre signale''s dans une texte; par le "comment", la manie``re de les signaler. Je ne dirai pas grand chose sur ce dernier: heureusement, il e''xiste de''ja`` une me''talangue standardise''e, e''labore''e par les informaticiens pour de''crire les codages divers dont se sert l'e''dition e''lectronique. Cette langage, la SGML (Standard Generalised Markup Language) est de''ja`` accepte''e par la ISO et c,,a serait vraiment be^te de la re''inventer. C'est un langage qui a e''te'' invente'' expre``s pour de''crire les structures des textes, inde''pendement et de leur re''alisation et de leur application. Tout ce qui nous concerne a`` son e''gard est que ses pouvoirs soient a`` la hauteur des besoins des chercheurs en sciences humaines - une race, je le dis avec fierte'', a`` la fois e''xigeante et tetue. C'est plutot le "quoi" de nos efforts que je voudrais porter a votre attention. Il s'agit de de''finir un ensemble minimal de traits textuels, sur lequel on peut etre d'accord. Avec ce minimum on peut garantir notre premier but: l'e''change et l'integration consequente de textes prepare''es en des lieux diffe''rents pour des recherches diverses. On peut e''galement garantir de traduire en ce format les grands masses de textes de''ja existantes dans le monde, pourvu qu'elles reconnaissent l'e''xistence de cet ensemble minimal de traits. De''finir cet ensemble est le travail de trois des quatre commite''s operatifs de l'Initiative. Un commite'' s'occupe des traits relatifs a`` la description bibliographique des sources textuelles; un autre des traits conventionellement re''alise''s physiquement, par exemple l'orthographe, les structures telles que les paragraphes, les titres etc. mais aussi les structures formelles de certain genres de re''cit litteraire; le troisie``me vise tout le plan interpretatif. Pour commencer, ce commite'' e''numerera les traits linguistiques - la phonologie, la morphologie et le syntaxe par exemple. On sait bien que les standards ne s'imposent pas: ils doivent e^tre accepte''s, me^me voulus, et par tous. Il faut donc que nos "Guidelines" soient extensibles et qu'elles soient capables de soutenir diffe''rents mode``les the''oriques. Il faut aussi qu'elles soient cre''e''es par la communaute'' intellectuelle qui en jouirra. Si vous voulez participer a`` nos efforts, n'hesitez pas - on a besoin de vos connaissances! ===============================