Curso de extensión: Procesamiento y exploración de datos lingüísticos espontáneos con el programa CL

La labor de la investigación en lingüística supone el trabajo con datos lingüísticos de diversa índole. Por ejemplo, el análisis de datos lingüísticos espontáneos resulta de interés en el marco de la Sociolingüística, el Análisis de la Conversación, la Etnografía del Habla, la Etnolingüística, la Neurolingüística, la Psicolingüística y la Adquisición del Lenguaje. Con el propósito de explorar distintos fenómenos que se manifiestan en el uso del lenguaje, los lingüistas a menudo emprenden la tarea de recolectar y analizar por medio de metodologías tanto cuantitativas como cualitativas muestras de datos lingüísticos naturales, escritos y orales. Los resultados de las investigaciones realizadas sobre muestras de datos de este tipo han significado grandes aportes para las distintas áreas de la disciplina. Sin embargo, existe considerable incertidumbre respecto de los modos más eficaces para procesar y explorar los datos que han sido recolectados y muchos/as lingüistas se vuelcan sin mayor reflexión a tareas más o menos sistemáticas para su procesamiento y sondeo. Dado que estos procedimientos son laboriosos y consumen mucho tiempo es esencial que se lleven a cabo de una manera sistemática siguiendo criterios claros. Esto permitirá confeccionar un corpus lingüístico cuya potencialidad de uso trascienda los objetivos inmediatos del analista y sirva para realizar una multitud de investigaciones. El programa Computerized Language ANalysis (CLAN) es un software de acceso libre diseñado por Brian MacWhinney y escrito por Leonid Spektor en el marco de su trabajo en la Universidad de Carnegie Mellon. Permite explorar y analizar de manera eficiente y ágil transcripciones realizadas en formato CHAT (Codes for the Human Analysis of Transcripts). Este formato de transcripción y codificación es compatible con los formatos empleados en otros programas de procesamiento de datos lingüísticos como Praat, Phon, ELAN, CoNLL, SALT y LENA. CLAN tiene múltiples utilidades. Permite realizar una multiplicidad de análisis lingüísticos de forma automática (como por ejemplo calcular el largo promedio de las emisiones, la frecuencia y ratio de types y tokens, identificar la coocurrencia de formas lingüísticas, etc.). También cuenta con modos que facilitan los procesos de transcripción y codificación y permite asociar el texto transcripto con archivos multimedia. Para un conjunto de lenguas como el español, el inglés, el francés, el alemán, el italiano, entre otras, dispone también de una serie de comandos como MOR y GRA que llevan a cabo codificaciones morfológicas y sintácticas automáticas (MacWhinney, 2010). El seminario se propone reflexionar acerca del uso de datos lingüísticos en distintas áreas de la disciplina, subrayando el aporte del uso de datos espontáneos y brindar herramientas conceptuales y prácticas para procesarlos y analizarlos de manera sistemática y eficaz. Durante la cursada se introducirá la metodología de trabajo con corpus de datos lingüísticos espontáneos, se presentará el formato sistemático de transcripción y codificación CHAT y el programa CLAN para realizar procesamientos lingüísticos automáticamente. A su vez, se ofrecerán antecedentes de investigaciones realizadas empleando estos recursos para incentivar a los/as alumnos/as a aplicar estas herramientas en sus propios proyectos de investigación.

DOCENTE
Cynthia Pamela Audisio
María Laura Ramírez
Macarena Quiroga
FECHA DE INICIO
5 de septiembre
FECHA DE FINALIZACIÓN
24 de octubre
DÍA Y HORARIO
Lunes – 19 a 21 hs.
ARANCEL
Gratuito

Más información aquí.