Corpus

Listado confeccionado por Nicolás Arellano


Corpus, base de datos, lingüística de corpus, análisis computacional de textos

Lista de recursos en línea o con instalación sencilla, sin necesidad de aprendizaje de lenguajes de programación específicos, con ejemplos de español estándar, americano o no exclusivamente ibérico (salvo en corpus históricos).

Softwares y recursos en formato .txt

COPA-TRAD (Translational Parallel Corpus)
Corpus pensado para investigaciones en traducción, aunque cuenta con pocos textos en español. Su principal utilidad es un etiquetador PoS (part of speech) en línea en español que se modela con TreeTagger (María → NP, lindo → ADJ). Con registro gratuito, se pueden etiquetar grandes bases de datos automáticamente y descargar en forma de lista, .csv o .xml, sin necesidad de descargar ni instalar ningún programa. 

Ismael Olea
Lemarios, listas de nombres propios, apellidos, topónimos y palabras frecuentes en formato .txt. Recursos útiles para descartar palabras con mayúscula inicial en grandes textos o cargar stop lists (palabras hiperfrecuentes funcionales, como preposiciones y artículos). 

Wine
Software indispensable para correr muchos programas pensados para el análisis lingüístico de corpus diseñados para Windows. Se instala fácilmente, es gratuito y funciona para Linux y Mac. 

TextWrangler (BBEdit)
Editor de textos gratuito, de fácil instalación, que sirve para todos los sistemas operativos, con interfaz amigable. Óptimo para editar y organizar .txt y como input para el diseño de archivos .xml. Permite manejar varios archivos al mismo tiempo, sin pérdida de rendimiento en el procesamiento.

AntConc
Quizás el más famoso y amigable entorno para el análisis de textos, permite adicionar varios .txt simultáneamente y analizarlos tanto para encontrar resultados positivos (en formato KWIC), clusters y n-gramas, colocaciones, listas de palabras y de frecuencia, y lista de palabras claves. Permite notación con expresiones regulares y brinda opciones de organización de datos muy diversas. Desde el menú de preferencias pueden incorporarse palabras prohibidas, cambiar el modo de cálculo estadístico, reconocer palabras mayúsculas como minúsculas, entre otras varias opciones para el mejor procesamiento de un texto. 

Corpus actuales

CORPES XXI (Corpus del Español del Siglo XXI)
Uno de los proyectos más nuevos de la RAE y continúa en su versión de prueba. Permite hacer búsquedas por lema, palabra exacta, según clase de palabra, colocaciones, frecuencia de uso e incorpora cálculos estadísticos (MI, t-score, log likelihood). También pone a disposición sus listados de frecuencias de elementos gramaticales y lemas. Todos los documentos cargados son del 2000 en adelante. Permite la búsqueda utilizando comodines (wildcards, expresiones regulares muy sencillas) al estilo de los corpus más modernos, como el inglés BNCweb.

CREA (Corpus de Referencia del Español Actual)
El paso de la variedad ibérica y los textos escritos es significativo (50% y 90%, respectivamente) y abundan los textos de prensa o literarios (98% del corpus). Existe una versión anotada con interfaz similar al CORPES XXI, aun en construcción. Resultados KWIC (keyword in context, es decir, los resultados se alinean sobre la palabra meta), con ficheros y listados de frecuencia.

Banco de neologismos OBNEO
Vigente desde 2004. Pueden realizarse búsquedas por categoría gramatical (verbo intransitivo, adverbio…) y tipo de neologismo (acronimia, composición…). Fuertemente basado en textos periodísticos de Catalunya y España en general, aunque usa como fuentes otros periódicos latinoamericanos. Se puede acceder directamente a la lista de neologismos de cada año. En cada resultado se especifica un ejemplo con su cotexto y la fuente. Con distintas funciones puede accederse desde la plataforma NEOROM (con ejemplos en varias lenguas romances) y el diccionario

Corpus históricos

CORDE (Corpus Diacrónico del Español)
Interfaz idéntica al CREA. Corpus histórico del español con gran peso de documentos de la variedad ibérica y de registro literario (75% y 44%, respectivamente). El 53% de los datos pertenece al período 1713-1974. Pueden utilizarse comodines. Arroja resultados KWIC y pueden verse palabras posteriores y anteriores, aunque sin análisis particulares. Cada resultado ofrece un fichero con su fuente, disponible para ser citada. Provee algunos listados de frecuencia lemáticos.

Corpus del Español (Mark Davies – BYU)
Colección de distintos corpus anotados (histórico, web, español actual) que permite hacer múltiples tipos de búsqueda con comodines, incluso con información PoS, colocaciones lejanas, frecuencias y estadísticas. El tamaño de las muestras es enorme, por lo que permite usarlo como corpus de referencia o bien como base de datos para confeccionar corpus propios. Se encuentra constantemente actualizado y aplica criterios de población para la normalización de las muestras, por lo que la variedad americana se encuentra mejor representada. También hay un mayor peso de las producciones orales y/o informales. Puede descargarse y usarse fuera de línea o bien permite registro sin cargo en línea. Con la misma interfaz, y dirigido por el mismo equipo, se encuentran otros corpus similares en inglés —en todas sus variedades— y portugués —en todas sus variedades, incluso las africanas—, ideales para otras investigaciones translingüísticas, históricas, traductológicas o relacionadas con la lingüística aplicada. 

Corpus Diacrónico y Diatópico del Español de América (CORDIAM)
Corpus histórico basado en la variedad americana, aunque con un importante peso de documentos, prensa y literatura mexicanos y caribeños, por razones históricas e institucionales. Permite búsquedas KWIC, recupera fácilmente el .pdf del texto desde donde se toma el ejemplo y todos los ejemplos se encuentran profundamente detallados, con indicaciones sociodemográficas y lingüísticas varias. Permite búsquedas con comodines.

PostScriptum
Pese a solo contener variedades ibéricas, se destaca por ser un corpus histórico que incluye epístolas, cartas y géneros escritos informales. Permite búsquedas lematizadas, KWIC, con PoS, comodines y otras opciones de registro, lugar y tipo de emisión. 

Corpus ELSE

Corpus de Aprendices de Español (CAES)
Formado a partir de producciones de hablantes de español como lengua segunda o extranjera, procedentes de seis lenguas maternas distintas (árabe, chino mandarín, francés, inglés, portugués y ruso). Se puede buscar frecuencias divididas por nivel de competencia (de A1 a C1) y L1, disponibles en formato alfabético. Permite hacer búsquedas con múltiples criterios sociodemográficos y relativos al nivel de lengua, por proximidad y teniendo en cuenta errores ortográficos, esperables para esta población. 

Otros recursos

Gutenberg en español
Catálogo en línea (legal) de obras en español, disponibles para descargar en formato .html y plain text (.txt). Estos libros pueden funcionar como un corpus de referencia comparativa con una base de datos propia. 

Palabras TIP
Aunque pensado con un objetivo lúdico, ofrece una interfaz amigable que permite hacer búsquedas avanzadas de palabras sobre una base de palabras completa, incluyendo búsquedas por cantidad de palabras, sílabas y clases de palabra. No ofrece resultados KWIC, referencias ni ficheros. 

Otras lenguas

CORIS, CODIS y DIACORIS
Corpus sincrónicos y diacrónicos del italiano, de interfaz amigable y con funciones similares a los corpus desarrollados por la RAE. Puede servir para hacer investigaciones de carácter histórico, traductológico o relacionados con la enseñanza de lengua. 

Linking Latin (LiLa)
En su version user-friendly permite hacer búsquedas complejizadas de palabras, con posibilidad de usar expresiones regulares, segmentación morfológica e información PoS. No arroja resultados KWIC ni frecuencias pero ofrece la posibilidad de conocer toda la información morfológica de un lema latino en una forma gráfica y visual. Funciona más como un diccionario híperanotado de latín.