Linguistique de l’écrit

Revue internationale en libre accès

Revue | Volume | Article

173667

De la collecte à l'analyse d'un corpus de SMS authentiques

une démarche pluridisciplinaire

Rachel Panckhurst Mathieu Roche Cédric Lopez Catherine Détrie Claudine Moïse

pp. 73-85

Résumé

Nous présentons notre approche fondée sur les données authentiques, en nous concentrant sur des recherches récentes, portant sur le recueil, le traitement et l’analyse d’un grand corpus de SMS en français, intitulé 88milSMS (http://88milsms. huma-num.fr/, Panckhurst, Détrie, Lopez, Moïse, Roche, Verine, 2014), incluant un questionnaire sociolinguistique soumis aux donateurs au moment de la collecte ainsi que leurs réponses. Puis nous expliquons pourquoi, dans une démarche pluridisciplinaire (située entre sciences du langage, informatique et traitement automatique du langage naturel), nous avons décidé de fournir à la communauté scientifique et au grand public le corpus de SMS.

Détails de la publication

Publié dans:

(2016) Constitution de corpus linguistiques et pérennisation des données. Histoire Épistémologie Langage 38 (2).

Pages: 73-85

Citation complète:

Panckhurst Rachel, Roche Mathieu, Lopez Cédric, Détrie Catherine, Moïse Claudine, 2016, De la collecte à l'analyse d'un corpus de SMS authentiques: une démarche pluridisciplinaire. Histoire Épistémologie Langage 38 (2), Constitution de corpus linguistiques et pérennisation des données, 73-85.