Cliquez pour m'envoyer un message

4 – Au seuil du monde virtuel Cliquez pour retrouver, en bas de cette page, des boutons de navigation

Même si une bonne partie de ce qu'écrivit McLuhan était obscur et contestable, la somme de ses écrits fut pour moi un choc dont je ressens encore les ondes aujourd'hui. L'ordinateur est un média ! Moi qui l'avait toujours considéré comme un outil, voire comme un véhicule, je trouvai d'un coup ma vision des choses bien étriquée. McLuhan indiquait que si le micro-ordinateur était réellement un nouveau média, alors son utilisation même devrait changer la manière de penser de toute une civilisation. Il était clair qu'il avait eu raison sur les effets de ce vitrail électronique qu'est la télévision : elle avait opéré, au mieux, une retribalisation de type médiéval. Par son caractère éminemment interactif et prenant, le micro-ordinateur s'apparentait à une antiparticule qui avait le pouvoir d'annihiler cette passivité teintée d'ennui amenée par la télévision. Mais il promettait également de supplanter le livre en annonçant une nouvelle Renaissance qui nous ferait passer des images inanimées aux simulations dynamiques. Jusqu'où se développerait notre cerveau si l'on grandissait en compagnie d'un micro-simulateur développant non pas un seul point de vue, mais tous les points de vue des âges représentés, que l'on pourrait adopter tour à tour dans leur dynamique et que l'on pourrait comparer ? J'appelai le concept d'ordinateur-carnet le Dynabook, pour graver la métaphore de McLuhan dans le silicium des années à venir.

Alan Kay
« User Interface: A Personal View », 1990



Dans la catégorie des simulateurs d'environnement, le Sensorama fut l'un des premiers efforts pour reproduire les sensations d'un observateur plongé dans une scène de la vie réelle. L'utilisateur du Sensorama est en effet entièrement immergé dans une cabine conçue pour permettre d'imiter une démarche exploratoire tandis que la scène explorée est rendue par l'intermédiaire de plusieurs sens. L'effort suivant consiste à permettre à l'utilisateur de contrôler son déplacement au sein de la base d'informations disponibles, et d'inaugurer ainsi une fonctionnalité d'interaction extrêmement personnalisée, plaçant l'utilisateur au seuil d'un monde virtuel.

Scott Fisher
« Viewpoint Depending Imaging », 1981




Placer sa conscience et ses sens perceptifs dans un monde virtuel, c'est avoir fait la moitié du chemin : pour se sentir présent dans ce monde, on doit disposer d'un moyen de se déplacer à l'intérieur de cette simulation. C'est pourquoi l'idée de « naviguer » au sein de cet espace informatique afin d'en apprendre plus influença la manière dont furent conçues les applications liées à ces nouvelles technologies. C'est dans les années 70, au MIT, que des chercheurs qui allaient devenir les pionniers de la RV développèrent le concept selon lequel l'informatique pouvait être mariée à d'autres médias audiovisuels pour réaliser des « environnements informatiques exploratoires ». Ces hommes et ces femmes cherchaient également à développer une « coopération étroite » entre le cerveau humain et la machine.

Lorsqu'on enquête sur certaines racines de la RV aujourd'hui, on retrouve un appareil (par exemple les lunettes stéréoscopiques), une discipline (les images de synthèse) ou une idée (explorer un monde artificiel) ; en d'autres termes, on traverse les frontières des différentes disciplines scientifiques et des diverses institutions académiques. Des inventeurs ou des scientifiques indépendants et souvent ignorants les uns des autres ont chacun travaillé sur des pièces du puzzle qui commence à s'assembler aujourd'hui. D'autres racines sont plantées à différentes époques, en différents lieux, auprès de groupes de gens qui se sont succédés dans la même recherche ou qui ont collaboré, dans le cadre de divers organismes, à des projets conçus pour mener à quelque chose de très proche de la RV d'aujourd'hui. Le Laboratoire de Sunnyvale d'Atari fut un de ces lieux au début des années 80. J'y étais moi-même en 1983, à la recherche de plusieurs « infonautes » qui allaient devenir plus tard des « cybernautes ». Ayant appris à les connaître un peu mieux, je me rendis compte que ces jeunes technologues du Laboratoire Atari s'étaient déjà rencontrés en d'autres temps et d'autres lieux. Tout comme les infonautes de l'ARC, de l'ARPA et du PARC se connaissaient pour avoir collaboré auparavant, le groupe des cybernautes d'aujourd'hui qui sont des anciens d'Atari s'étaient connus avant même que Nolan Bushnell fonde Atari, commercialise le premier jeu vidéo, Pong , et revende sa société à Warner. Les connaissant mieux, je découvris que c'étaient des vétérans d'un groupe encore plus ancien, fondé au sein du MIT dans les années 70, le Architecture Machine Group, connu sous le diminutif de « Arch-Mac » (prononcé « Ark-Mac »), et dirigé par Nicholas Negroponte et Richard Bolt.

Leur nom était bizarre — qu'est-ce donc qu'une « machine à architecture » ? — et ils faisaient appel à des technologies étranges et étrangères au milieu informatique, tels des systèmes de poursuite du regard ou des vidéodisques. Negroponte était le leader et le guide inspirationnel d'Arch-Mac et du groupe qui lui succéda, le Media Lab. Bien que son nom ne soit pas souvent mentionné lorsqu'on parle de la recherche de pointe en RV, sa conception d'environnements de coopération multisensorielle homme-ordinateur poussa, il y a quinze ou vingt ans, d'autres chercheurs à réfléchir et à travailler à des systèmes fonctionnels de ce type. « Comment adapter la technologie aux caractéristiques humaines ? » se demandaient Negroponte et ses collègues. Quinze ans avant que Stewart Brand, dans son livre The Media Lab: Inventing the Future at MIT, mette en valeur le rôle de ce groupe, il n'était connu que des spécialistes de ces technologies. Mais Arch-Mac était fortement soutenu par l'ARPA.

En 1970, Nicholas Negroponte avait indiqué pour la première fois comment, à son avis, l'informatique pouvait améliorer la pensée et l'imaginaire de l'homme : par combinaison du pouvoir de présentation du cinéma et des qualités de traitement des données des ordinateurs. Il prédit le jour où les médias distincts d'aujourd'hui seraient combinés, où un hybride numérique-optique-audiovisuel-réseau hertzien-réseau câblé fusionnerait en une technologie médiatique intégrée. Si tous les types de codage de l'information (sons, images, mots, nombres, données informatiques) deviennent numériques, et si tous les supports de communication de l'information (diffusion hertzienne et réseau câblé, disquettes et services télématiques) sont reliés entre eux, la technologie résultante risque de devenir un peu plus que la somme de tous ces domaines ; ce nouveau « métamédia », comme l'appelle Alan Kay, constituera un monde à part entière. L'équipe du Media Lab désirait mener plus qu'une simple exploration du potentiel des technologies catalyses. Ils voulaient visualiser le futur de ces technologies de communication, puis matérialiser ces visions sous forme de prototypes. « Démontre ou meurs » était leur slogan, comme le révéla Steward Brand dans son ouvrage, The Media Lab.

Comme les infonautes de l'ARPA, de l'ARC et du PARC, qui s'étaient projetés au-delà de la technologie informatique de leur époque, les gens d'Arch-Mac avaient le regard fixé sur les prochaines découvertes, des ordinateurs à commande vocale aux films holographiques. En collaboration avec le chercheur en interface homme-machine Richard Bolt et avec d'autres, Negroponte s'employa à bâtir un groupe de recherche d'un genre nouveau, au sein duquel les sciences cognitives et l'informatique flirtaient avec les technologies de l'animation et des télécommunications ; leur regard était tourné vers l'avenir à long terme. Arch-Mac devint plus tard le Media Lab, un endroit où, comme l'indiquait Steward Brand, on s'occupait à « inventer le futur ».

Le Media Lab n'a jamais succombé aux charmes d'appareils malcommodes comme les « gants et lunettes », objets emblématiques de la RV d'aujourd'hui. Mais à la charnière des années 70 et 80, plusieurs expériences clefs permirent la création des fondations sur lesquelles les systèmes de RV allaient s'appuyer. Christopher Schmandt et Eric Hulteen, qui travaillaient sous la supervision de Bolt, combinèrent un écran mural, un périphérique de saisie gestuelle (par pointage du doigt) et un système de commande vocale pour réaliser un prototype connu depuis sous le nom de sa commande verbalo-gestuelle générique : « Mets ça là ». L'opérateur était assis sur une chaise, face à l'écran sur lequel était affiché un paysage maritime de synthèse. Ce prototype avait été démonté des années avant que j'en entende parler, mais je pus visionner en 1983 une vidéo de Hulteen dans cette Media Room ; il pointa le doigt en direction d'un bateau voguant sur cet océan et dit « Mets ça… », puis déplaça son doigt dans une autre direction et dit « …là », et l'ordinateur, comme le génie des contes orientaux, obéit à l'ordre. Les objets apparaissant à l'écran pouvaient être rapetissés, agrandis, déformés, manipulés, déplacés, grâce à des commandes vocales et à des gestes du doigt. Le capteur magnétique de position de la main utilisé dans le cadre de « Mets ça là » — une paire de petits dés très coûteux fabriqués par la société Polhemus Navigation Systems — allait jouer un rôle majeur dans le développement ultérieur de la réalité virtuelle.

Plusieurs des voies de recherche ouvertes — sinon réellement suivies — par le Media Lab ont servi de schéma directeur pour les efforts de recherche en RV d'aujourd'hui. D'autres travaux des groupes Arch-Mac et Media Lab ont démontré l'intérêt des affichages en relief et des techniques de communication des expressions faciales et de la direction du regard en réseau ; le concept de transmission de la « présence » développé par Arch-Mac les amena à imaginer une « animation partagée de la communication » dans laquelle les interlocuteurs se présenteraient sous forme d'objets virtuels dont les visages pourraient s'animer et dont la direction du regard changerait en synchronie avec leurs mouvements physiques. Richard Bolt fit en effet valoir il y a longtemps que l'observation de la direction du regard d'un interlocuteur était un élément essentiel de la communication entre êtres humains ; une décennie plus tard, du côté de Yokohama et de Kyoto, je devais rencontrer d'autres chercheurs travaillant sur des techniques de poursuite du regard et de reconnaissance d'expressions faciales. Les scientifiques d'Arch-Mac poursuivirent également les travaux de Kenneth Knowlton aux Laboratoires Bell dans les années 70, qui entraînèrent par ailleurs l'émergence de la notion d'« environnements virtuels ». Knowlton réalisa en effet un poste de travail virtuel à l'intention des agents du téléphone qui devaient effectuer des tâches complexes sur des claviers dont la configuration des touches changeait souvent.

Avec un miroir sans tain, placé à un angle adéquat, on peut créer une sorte d'image virtuelle qui semble flotter dans l'espace réel. Ken Knowlton avait superposé un clavier de commande réel à une image virtuelle pour créer une sorte de poste de travail virtuel. Il avait pour cela placé un miroir sans tain dont l'image recouvrait le clavier aux touches vierges de toute inscription. Un écran présentait différentes configurations de touches qui permettaient d'obtenir différents « claviers virtuels » par superposition de ces images avec les touches vierges. Fisher et d'autres s'intéressèrent à la façon dont Knowlton avait ainsi créé un espace virtuel dans lequel les utilisateurs pouvaient placer leurs mains. Au début des années 80, Christopher Schmandt et Scott Fisher placèrent un moniteur couleur face à plat contre un miroir sans tain à l'horizontale. L'équipe d'Arch-Mac réalisa alors un petit environnement virtuel dans lequel l'opérateur pouvait placer les mains, dessiner des objets en 3D, saisir ces derniers et les déplacer. « Nous pouvions configurer à volonté la totalité de ce monde virtuel », se rappelait Fisher des années après. Les cybernautes d'Arch-Mac ne faisaient pas appel à des gants, mais ils exploraient une voie importante et suivaient la trace de Dan Vickers, l'assistant d'Ivan Sutherland à l'Université d'Utah, en ajoutant des possibilités de manipulation à leurs explorations d'environnements virtuels, ainsi que des indications de navigation purement visuelles.

Voici un concept essentiel dégagé par Arch-Mac à la fin des années 70 ; il fallut des années pour le traduire dans la pratique : les océans de données conservées dans les ordinateurs peuvent être représentés sous forme visible (ou « visualisés », comme ont pris l'habitude de dire les scientifiques) et explorés de manière cognitive par le biais d'une navigation physique de cet océan. Ce concept amena Arch-Mac à réaliser un prototype de ce qu'ils appelèrent Dataland (« Au pays des données »). Les mathématiciens parlent d'« espaces multidimensionnels » et les informaticiens de la « topologie » de leurs données, tous faisant référence à une sorte de lieu abstrait dans lequel certaines opérations formelles sont menées. Et si ces espaces pouvaient devenir visibles ? Et si l'on pouvait y naviguer et manipuler les objets qu'ils contiennent ? Pourrions-nous alors amener nos systèmes neuraux d'exploration de l'espace réel à fonctionner de manière analogue pour parcourir les mondes de données que nous livrons aujourd'hui en pâture à nos ordinateurs de manière plus ou moins aveugle ? Dataland, c'était la matérialisation de cette idée dans la Media Room.

La Media Room d'origine comportait plusieurs écrans muraux, des moniteurs couleurs supplémentaires, des appareils de poursuite du regard, de prise de commande vocale et de reconnaissance des gestes. Mais elle n'était qu'une infrastructure, un moyen pour réfléchir, pour communiquer ou pour faire telle ou telle expérience. Quels types d'outils pouvaient être créés en son sein qui ne pouvaient l'être ailleurs ? Le SDMS (Spatial Data Management System, ou « Système de traitement spatial des données »), qui permettait de naviguer visuellement dans les bases de données, fut mis en œuvre dans la Media Room. Dataland en faisait partie, c'était une fenêtre visuelle sur l'ensemble des données appartenant à l'opérateur (les programmes et les fichiers que les utilisateurs des micro-ordinateurs d'aujourd'hui voient s'afficher sous forme d'icônes sur leurs « bureaux électroniques »). L'opérateur, assis sur une chaise, pouvait exploiter une tablette sensitive pour donner des commandes du bout des doigts, ou bien manier de petits manches de commande pour survoler une représentation bidimensionnelle (2D) d'une structure de données à trois dimensions.

Cette notion de Dataland fut détournée un temps du côté de la science-fiction avant de réapparaître dans le cadre de la recherche en RV : Lorsque William Gibson inventa le terme « cyberespace » dans son roman Neuromancien, il décrivit d'énormes structures virtuelles de données placées au sein de l'« hallucination consensuelle » à laquelle des millions de gens se prêtaient en y « branchant » directement leur système nerveux. Ces pyramides bleues de données financières, ou ces hémisphères rougeoyantes de données d'entreprises étaient protégées des regards indiscrets par des murs de protection visibles que Gibson appelait « la glace ». Lorsque les systèmes de RV commencèrent à se multiplier, l'idée de pouvoir voler à travers un espace de données refit surface dans les milieux informatiques, pour la simple raison suivante : le flot toujours croissant de données créées sur toutes les machines à traiter de l'information que nous avons disséminées de par le monde n'est plus réellement gérable, et les concepteurs de bases de données, censés imaginer de nouveaux moyens de structurer et de présenter ces données aux entreprises, aux institutions scientifiques, à l'administration ou à des indépendants pour qu'ils puissent continuer à opérer, ne savent plus trop quoi faire. Comme l'a noté Engelbart en 1950, nous sommes menacés d'être submergés par la complexité de nos outils et peut-être notre seule échappatoire consiste-t-elle à inventer de nouveaux outils pour gérer cette complexité. En 1990, plusieurs groupes de recherche dans le monde s'activaient à développer des versions de systèmes SDMS faisant appel à des visiocasques et à des moteurs de réalité, pour aboutir peut-être à un moyen de prise en compte de ces océans d'informations incroyablement denses ou complexes.

« Un monde de fenêtres » désignait une autre expérience de Media Room qui continue aujourd'hui d'influencer le cours des recherches en RV, et dans laquelle de grandes fenêtres informatives s'ouvraient sur des écrans muraux, tandis qu'un système de poursuite du regard servait de commande à l'affichage. Dans une des fenêtres s'inscrivait du texte, dans une seconde étaient projetées des images fixes, dans une troisième était présentée de l'animation vidéo, etc. Chaque fenêtre était alimentée par une branche d'un réseau de collecte d'informations — fils d'agences de presse, diffusion satellitaire, bases de données sur ordinateur ou sur vidéodisque, caméras vidéo — et là où l'observateur faisait porter son regard, la bande-son appropriée était diffusée et/ou la fenêtre concernée était agrandie. Il s'agissait d'un moyen d'exploration de données par « feuilletage » de flots structurés d'informations.

En dehors de quelques contrats importants avec les militaires — notamment des SDMS et des systèmes multimédias pour la Marine américaine —, les démonstrations de navigation à travers des espaces informationnels d'Arch-Mac et du Media Lab ne changèrent pas d'emblée la face du monde. Les spécialistes du Media Lab, par exemple, sont encore en train de travailler à mettre au point l'animation des hologrammes. Les disques laser ont remplacés les technologies existantes dans le secteur de la musique (disques microsillons et bandes audio analogiques) avant de commencer à pénétrer, en ce moment, le monde des micro-ordinateurs. Comme pour l'IA et pour la RV, le potentiel des supports optiques a été quelque peu obscurci par la quantité d'articles qui ont été écrits à leur sujet dans la grande presse. Comme le faisait remarquer récemment Michael Naimark à l'occasion d'une autre conférence sur l'avenir de la RV, « le vidéodisque interactif a été annoncé au son des trompettes sur l'air de « une bibliothèque entière sur un disque », mais il a fallu attendre plus de 15 ans entre cette prophétie et la sortie par Sony de son Data DiscMan en 1990. »

Les premières démonstrations faites à Cambridge de ces éléments constitutifs de la RV d'aujourd'hui n'eurent pas immédiatement d'écho dans les laboratoires de recherche industrielle mondiaux. Mais ces expériences donnèrent tout de même certaines idées aux quelques hommes et femmes clefs qui se chargeraient d'assurer cet écho quelques années plus tard. Le Media Lab continue aujourd'hui de consacrer une part non négligeable de ses efforts à la recherche en RV : au programme des années 90, deux des problèmes majeurs de la RV d'aujourd'hui — la création de « personnages » de synthèse autonomes pour habiter les mondes virtuels, et la réalisation d'appareils de transmission des sens tactile et kinesthésique humain — sont étudiés par David Zeltzer, Margaret Minsky et leurs collègues dans le cadre de la « caverne » souterraine du laboratoire.

Des projets liés à la RV sont donc en cours dans l'élégant bâtiment que leur a construit I. M. Pei[1] à Cambridge, mais je ne dirais pas que le Media Lab constitue aujourd'hui un des centres principaux de recherche en RV. La téléprésence, par exemple, ne représente qu'une partie de leur plan de travail, relativement peu importante. Lorsque je rendis visite au Media Lab en 1989 et abordai cette question auprès de leur chargé des relations publiques, Tim Browne, il me répondit sur un ton qui semblait indiquer qu'il avait fait patiemment cette même réponse des dizaines de fois déjà que le Media Lab « n'était pas intéressé par tout ce qui pourrait venir s'intercaler entre le cerveau humain et l'ordinateur. » Malgré ce démenti, l'influence de Cambridge sur la RV reste forte, même en ces hauts lieux que sont Chapel Hill ou la Silicon Valley. Près d'une douzaine d'anciens d'Arch-Mac, du Media Lab, d'Atari, forts de leurs connaissances des chambres multimédias, des techniques de poursuite du regard, des vidéodisques, des visiocasques, des capteurs de position, des voyages par procuration, de la commande vocale, de la stéréoscopie et des images de synthèse sont passés cadres spécialistes de la RV dans de grands organismes commerciaux ou scientifiques. De plus, ce « vocabulaire » partagé de concepts qu'ils avaient développés à partir d'expériences ratées ou réussies a influencé toute la génération actuelle de chercheurs en RV.

[NdT 1] Également arhitecte de la pyramide du Louvre à Paris.

La nuit où j'avais observé les cybernautes d'Atari, des années auparavant, ils l'avaient passée à une sorte d'improvisation théâtrale qui devait les aider à réfléchir à la nature du dialogue futur homme-machine. Tous les participants, à l'exception de Scott Fisher, avaient placé leur improvisation dans le contexte d'une chambre multimédia. Quand son tour vint, Scott ne mima pas une entrée dans une chambre imaginaire. Il fit plutôt mine de placer sur sa tête un visiocasque virtuel, ce qui fit rire toute l'assistance. Son intérêt pour les affichages stéréoscopiques était, semblait-il, suffisamment connu de ses pairs pour être considéré comme une private joke. Et si son attirance pour les visiocasques constituait bien une des nombreuses voies que les chercheurs d'Atari avaient l'intention d'explorer, j'eus l'impression que les autres chercheurs estimaient (et à l'époque je partageais leur sentiment) que l'approche « chambre multimédia » était plus excitante, plus porteuse. Michael Naimark fit remarquer à l'occasion que, même avant l'époque d'Arch-Mac, lorsque Fisher enseignait au « Centre d'Etudes Avancées sur la Vision » du MIT, « nous l'appelions « Monsieur 3D ». »

Fisher témoignait d'un vif intérêt pour l'utilisation des technologies dans la création artistique. Il avait été attiré par le « Centre d'Etudes Avancées sur la Vision », une enclave technologiquement avertie mais centrée sur les domaines artistiques au sein d'un MIT plus orienté vers l'ingénierie, pour y donner des conférences sur l'imagerie 3D et y mener des recherches entre 1974 et 1976. Lorsqu'Arch-Mac débuta ses expériences de « voyage par procuration » en 1978, Fisher se joignit au groupe pour aider le directeur de recherche, Andrew Lippman, et d'autres à créer un nouvel outil d'information qu'ils appelaient « Carte animée ». La « Carte d'Aspen », comme on a parfois appelé cette application, a été un prédécesseur important de la technologie de la RV. C'est à ce moment-là qu'on a commencé à abandonner le terme d'« utilisateur » pour celui d'« opérateur ». Pour donner à un opérateur l'impression qu'il se trouve à l'intérieur d'un espace simulé, il faut travailler sur deux aspects des choses : premièrement, les appareillages gérant la perception doivent arriver à convaincre l'opérateur que la simulation met en œuvre un environnement à trois dimensions qui l'entoure ; cet aspect est désormais connu sous le terme d'« immersion ». Deuxième point clef : de savoir si l'opérateur sera un observateur passif dans cet environnement (comme dans le Sensorama) ou s'il aura la possibilité de se déplacer et de l'explorer. Ces deux aspects, immersion et navigation, constituent ensemble les éléments de définition d'un objet d'un genre nouveau, le « micro-simulateur » (ou « simulateur personnel »). Arch-Mac représenta donc un jalon important — et même plusieurs jalons importants — dans l'histoire de la RV, ayant autant d'influence sur les esprits des gens qui en faisaient partie que sur la recherche elle-même.

Comme l'écrivit Fisher des années plus tard, le prototype réalisé par Arch-Mac démontrait un ensemble de possibilités qui devait s'avérer cruciales pour la technologie de la RV :

La technologie a progressivement évolué vers un niveau de coût abaissé pour les environnements de « simulation personnelle » dans lesquels l'observateur peut également commander son point de vue ou ses mouvements, ce qui équivaut à une possibilité importante qui manquait au prototype de Sensorama. La « Carte animée d'Aspen » est un des premiers exemples de ces nouveaux environnements… Les vues de la ville d'Aspen, dans le Colorado, ont été prises avec un système de caméra monté sur le toit d'une voiture et orienté légèrement vers le bas, qui a servi à filmer toutes les rues. Des prises de vues ont également été effectuées du haut de grues, d'hélicoptères et d'avions, et d'autres à l'intérieur des bâtiments de la ville. La « Carte animée » permettait à l'opérateur de s'asseoir face à un écran à sensibilité tactile et de parcourir la ville d'Aspen à son propre rythme, en prenant l'itinéraire de son choix, et ceci par simple effleurement de l'écran. Il indiquait de cette manière où il souhaitait tourner et dans quels immeubles il voulait pénétrer.

Dans une des configurations de cette application, l'opérateur était entouré d'images à l'avant, à l'arrière et sur les côtés, de sorte qu'il était entièrement immergé dans une représentation virtuelle de la ville. Il n'était fait appel ni à un visiocasque, ni à un gant, ni à des techniques d'imagerie en relief, mais la « Carte animée » était néanmoins une manière de monde virtuel.

On pouvait s'asseoir dans une pièce d'un bâtiment quelconque, et se trouver entouré d'une représentation photographique de celle-ci. En regardant droit devant soi, le long d'une rue de la ville, il suffisait de faire un geste et l'on commençait à descendre cette rue. On pouvait s'arrêter à tout moment et « geler » la projection. Un coup d'œil vers la droite, par exemple, permettait de tourner dans une autre rue ; le point de vue des quatre écrans changeait alors pour s'adapter à la nouvelle direction choisie. Telle maison attirait l'attention ? Il suffisait de s'en approcher pour qu'un texte descriptif de son histoire s'affichât en haut de l'écran qui faisait face. On pouvait alors voyager dans le passé ou dans le futur pour voir l'aspect de cette maison en hiver ou en été. Selon l'humeur, on pouvait pénétrer dans la maison et en admirer l'intérieur. On devine aisément l'intérêt des militaires pour une telle application : ils aimeraient certainement produire des cartes extrêmement détaillées sur vidéodisque de sites stratégiques, ce qui leur permettraient de ménager des répétitions d'opérations sur le terrain très réalistes.

La technologie utilisée était différente de celles auxquelles on fait appel aujourd'hui pour la majeure partie de la recherche en RV. Sur un vidéodisque, on peut stocker du texte et des images sous forme numérique, c'est-à-dire de « bits » (éléments binaires 0 ou 1) qui peuvent être lus par un laser, reconstruits par informatique en images et affichés sur un écran. On peut ainsi faire appel à un vidéodisque pour extraire très rapidement un sous-ensemble de texte, de sons ou d'images à l'intérieur d'un ensemble assez important conservé sur un support compact et peu coûteux. Un certain volume d'information peut être conservé sur chaque « galette » — 54 000 images fixes ou trente minutes d'animation vidéo — et différentes techniques de stockage et d'extraction de ces informations permettent à un opérateur de « naviguer » comme bon lui semble au sein de ces images, ce qui en fait un « système de vidéodisque interactif ». Les informations visualisées ne sont pas obligatoirement de type spatial, comme dans le cas de la « Carte d'Aspen » : elles peuvent être abstraites, comme pour un cours d'histoire d'un pays ou d'une époque. En effet, le concept de « navigation » transcende la technique utilisée pour manipuler l'information et le type d'information elle-même : on peut naviguer dans un ensemble de textes (comme l'ont imaginé Engelbart et Nelson lorsqu'ils commencèrent à rêver d'« hypertexte »), dans une bibliothèque d'images fixes ou animées, dans une simulation du monde physique ou, par l'intermédiaire d'une liaison télérobotique, dans une région éloignée du monde physique. L'opérateur peut agir sur ce qu'il voit en choisissant son mode de visualisation, plutôt que d'avoir une perception passive de ce que lui montre l'ordinateur.

Mais comme l'apprit Scott Fisher, il y a loin de la coupe aux lèvres et du potentiel d'une technologie à son application pratique. Au début des années 80, la puissance de calcul nécessaire pour créer un monde virtuel entièrement simulé par ordinateur était trop coûteuse pour en permettre l'étude par un étudiant en maîtrise. Mais il était tout de même possible d'étudier les phénomènes d'immersion et de navigation en mariant un affichage en relief à un vidéodisque interactif intelligemment conçu. C'est ce sur quoi portait le mémoire de maîtrise de Fisher : deux vidéodisques étaient utilisés, qui contenaient presque exactement les mêmes images, à ceci près que celles de l'un étaient destinées à l'œil droit et celles de l'autre à l'œil gauche. Il s'agissait de photos des mêmes scènes, prises avec un écart latéral de 65 mm, ce qui correspond à la « distance interoculaire » de l'homme. La base de données d'images était conçue de manière à fournir de nombreuses voies d'exploration de l'environnement proposé : pour toute direction dans laquelle l'opérateur était susceptible de regarder, ou de se diriger, il y avait une paire d'images correspondantes prises du point de vue adéquat.

Les images de la base de données étaient liées à un modèle informatique de l'environnement, de sorte que l'image affichée correspondait à la position de l'opérateur. Celle-ci était communiquée à l'ordinateur grâce au capteur magnétique de position utilisé dans l'application « Mets ça là », fourni à l'Armée de l'Air américaine et à d'autres par Polhemus Navigational Systems. Encore aujourd'hui, on appelle l'appareillage lui-même un « Polhemus » dans les milieux de la RV. La paire d'images correspondant à la position de l'opérateur était affichée sur un afficheur 3D appelé PLZT, à cause des lunettes à verre piézocéramique que doit porter l'opérateur pour les visualiser.

Les lunettes PLZT sont des « obturateurs électroniques » qui bloquent alternativement, à fréquence rapide, la vision de l'œil droit puis de l'œil gauche. Elles ont été remplacées depuis par des lunettes à cristaux liquides (LCD), qui fonctionnent sur le même principe de rendu du relief par « découpage temporel ». Les lunettes PLZT et LCD ne laissent pas voir l'image de droite et l'image de gauche en même temps : les deux images sont réparties dans le temps plutôt que dans l'espace ; elles sont « entrelacées » sur deux balayages successifs de l'écran vidéo. Tous les soixantièmes de seconde, l'image destinée à l'œil droit est affichée, et dans le soixantième de seconde suivant, c'est l'image correspondant à l'œil gauche qui l'est. L'opérateur regarde l'écran et les obturateurs des lunettes font que chaque œil ne perçoit que les images qui lui sont destinées, à un rythme suffisamment rapide pour que l'observateur ait l'impression d'une seule représentation en relief. Ainsi, lorsqu'on regarde un objet, il a l'air de flotter dans l'espace. Si l'on essaye de changer légèrement de point de vue pour avoir confirmation de la représentation 3D, le capteur Polhemus signale le changement de position à l'ordinateur, qui à son tour extrait les paires d'images correspondantes du vidéodisque et les projette à l'écran.

Cette méthode de découpage de l'information en tranches gauche et droite alternées rapidement présente une limitation fondamentale : il est impossible de photographier et de stocker toutes les vues d'un espace donné lorsqu'il dépasse une certaine taille, ou lorsqu'il dépasse un niveau élémentaire de complexité. Mais les limites du procédé ne représentaient pas vraiment un problème pour Fisher à cette époque. Il voulait surtout déterminer si ces nouveaux modes de représentation pouvait réellement donner l'impression de navigation dans un espace artificiel. Sa technique des paires d'images destinées à donner l'impression de relief par « parallaxe binoculaire » était analogue à notre mode d'appréhension naturel de la profondeur, qui s'appuie sur un flux d'images parallèles en deux dimensions. Nos deux yeux voient les choses chacun d'un angle légèrement différent et notre cerveau se charge, par des « calculs » très fins, de tirer de ces différences des données de profondeur. Fisher se servit du capteur Polhemus et d'un système de base de données d'images pour rendre cet effet 3D de « parallaxe dynamique », qui permet de faire varier le monde observé en fonction des variations de point de vue de l'observateur, comme le faisait le premier système élaboré par Sutherland.

Scott Fisher et ses collègues faisaient alors leur apprentissage des outils de construction des espaces virtuels. La stéréographie, la parallaxe, la navigation, les capteurs de position sont devenus les briques élémentaires des systèmes de RV d'aujourd'hui. Il fallait que les possibilités de ces technologies catalyses fussent amplifiées de manière radicale pour que les appareillages expérimentaux des années 70 aboutissent à des systèmes de réalité virtuelle réellement exploitables. Les vidéodisques sur lesquels sont conservés les images de synthèse et les modélisations devaient être remplacés par d'autres supports de stockage. Un autre élément crucial — le gant à détection de position qui permet à l'opérateur d'avoir prise sur le monde virtuel, de le manipuler et de naviguer en son sein — n'existait pas encore. De plus, même avec des ordinateurs de puissance suffisante et avec des algorithmes de traitement d'images 3D développés par des centaines de chercheurs des secteurs public et privé, il restait à produire le logiciel qui fédérerait tous ces outils — une tâche longue et ardue. Mais Scott Fisher et d'autres, qu'il devait retrouver à la NASA, étaient déjà en train d'assimiler les connaissances nécessaires pour produire la première génération de moteurs de RV à un coût abordable.

Du Sensorama à Arch-Mac en passant par l'ARC et par le PARC, plusieurs pistes semblent converger, au profit de la RV d'aujourd'hui. De manière assez surprenante, c'est il y a déjà longtemps que l'idée de réalité virtuelle telle qu'on la comprend aujourd'hui a été le mieux exprimée, lorsqu'Ivan Sutherland fut le premier à utiliser conjointement des visiocasques, un mécanisme de suivi de la position de la tête et des images de synthèse en temps réel pour aboutir à placer un homme à l'intérieur d'un monde créé par la machine.

L'utilisation de l'affichage vidéo n'était en effet que la première bonne idée d'Ivan Sutherland. Presque immédiatement après avoir donné un élan à cette technologie, il se mit à réfléchir aux différentes manière de passer au travers de l'écran. Comme l'a noté Theodor Nelson, Sutherland avait tout de suite compris l'importance de jouer sur la coordination œil-main. Si Sketchpad « permettait de manipuler à volonté les objets affichés à l'écran », que ne pouvait-on attendre, en termes de capacité accrue à formuler, à modéliser, à concevoir et à réfléchir de la possibilité de se déplacer autour d'objets virtuels en 3D, de les faire tourner, de les remodeler, bref, de les traiter comme nous le faisons d'objets du monde physique ? Alors que ceux qui s'étaient penchés sur le problème de l'affichage stéréoscopique — notamment Morton Heilig — avait travaillé sur divers types de lunettes et de visiocasques, Sutherland allait plus loin en étant le premier à proposer de monter de petits écrans d'ordinateurs dans des lunettes — ce qui était loin d'être aisé dans les années 60 —, et donc à placer le point de vue de l'utilisateur à l'intérieur du monde informatique des images de synthèse.

¤ ¤ ¤


Sommaire L'indispensable pour communiquer Fin du Chapitre 3 Chapitre 5 Sommaire Communautés virtuelles