Linguistique de l’écrit

Revue internationale en libre accès

Conference | Intervention

Un corpus multi-genres comparable à l'oral et à l'écrit: enjeux théoriques et méthodologiques

Mathilde Carnol, Liesbeth Degand, Anne-Catherine Simon

mercredi 4 décembre 2019

14:15 - 15:00

L’objet de notre contribution sera la présentation d’un corpus multigenres constitué d’un composant oral et d’un composant écrit comparables. L’objectif est de déterminer le poids de la variation médiale par rapport à celui de la variation stylistique: les productions orales et écrites appartenant à des genres similaires sont-elles vraiment comparables ou y a-t-il des différences spécifiquement liées au médium(cf. Benzitoun 2018, Gadet 2017)? Plus précisément, est-il possible de séparer le diamésique du conceptionnel (cf. la notion de «proximité – distance», Koch & Oesterreicher 2001, Gadet 2017)?

Dans cette perspective, nous comptons comparer les usages de certaines constructions syntaxiques en fonction du médium et du genre discursif et identifier les variations entre ces médiums. Le recours à un corpus multi-genre comparable à l’oral et à l’écrit permettra d’identifier ces différences et de déterminer si elles tiennent plutôt à la variation diamésique ou diaphasique.

La partie orale de ce corpus existe déjà: LOCAS-F (LOuvain Corpus of Annotated Speech –French) est un corpus de français parlé annoté au niveau de la syntaxe et de la prosodie (unités prosodiques et syntaxiques, marques de disfluence, etc.). Il compte environ 41 000 tokens pour 48 échantillons répartis en 14 genres de discours (Degand, Martin, Simon 2014; Degand & Simon en prép.). Ces derniers ont été établis dans le but de tendre à une variation stylistique suffisante, en comptant des productions de divers degrés de formalité (ou distance). Ces 14 genres sont décrits par 6 traits: le degré de préparation, le degré de médiatisation, le degré d’interactivité, le degré d’élicitation de la production, le caractère monologué ou dialogué et le caractère professionnel ou privé.

Le corpus écrit correspondant se voudra semblable à LOCAS-F. Cependant, sélectionner des genres de discours comparables n’est pas sans problème. Si dans certains cas l’application des traits stylistiques choisis pour l’oral ne pose pas de difficultés, dans d’autres cas ils s’avèrent inadéquats pour les échantillons écrits, précisément à cause de la dimension médiale. Ainsi, les traits «caractère monologué ou dialogué», «degré de médiatisation» et «degré d’élicitation», nous paraissent s’appliquer sans inconvénient à des productions écrites: le mail ou la conversation par SMS sont des genres dialogués, alors que le discours politique est monologué. Le degré de préparation semble également pertinent car, bien que tout texte écrit soit susceptible d’être préparé, l’on peut dégager divers degrés de spontanéité (un SMS sera moins préparé qu’un billet de blog, qui lui-même le sera moins qu’un éditorial). Cependant, le trait «caractère professionnel ou privé» pose problème pour certains types de productions: par exemple, le billet de blog peut avoir un contenu intime, alors que ces productions sont tout à fait publiques, il est donc difficile de les qualifier de privées. Par ailleurs, d’autres traits que ceux retenus pour le corpus oral pourraient être plus adaptés aux productions écrites, comme par exemple le nombre de destinateurs/destinataires, la notion de permanence dans le temps ou l’anonymat (Herring 2007). Dans le but de mettre en parallèle deux corpus les plus équivalents possible, l’enjeu sera donc de déterminer quels traits sont les plus adéquats, et si des traits peuvent se traduire différemment pour l’oral et pour l’écrit tout en restant comparables. Pour le trait de préparation, notamment, le corpus prévoit les correspondances données dans le tableau en annexe, toutefois la notion même de préparation ne s’actualise pas de la même manière pour l’oral et pour l’écrit. En effet, l’oral non préparé (e.g. la conversation informelle) ne correspond pas exactement, au niveau des structures linguistiques, à l’écritnon préparé (e.g. le SMS), car l’oral est toujours un produit en même temps qu’un processus alors que l’écrit est un seul produit dont on n’a pas les étapes de création. Il en va de même pour l’interactivité, car l’interruption est impossible à l’écrit, les interlocuteurs ne partageant pas le même espace. En somme, les différences linguistiques entre les productions appariées sont-elles causées par le médium ou par ces traits de préparation/interactivité?