Prof. Ruslan Mitkov

Corpus exploitation for Natural Language Processing: what matters more?

Quality or quantity? Human-crafted rules or Artificial Intelligence?

The keynote speech will seek to illuminate two important questions relevant to corpus linguistics and natural language processing. The first question is what matters more – the quantity or quality of corpora? To shed light on this perennial question, the results from two NLP studies that exploit corpora of different qualities will be reported. The second question to be answered is whether human-crafted rules based on corpus evidence can compete with artificial intelligence methods.

The first study investigates (and compares) the impact of the size and the quality of comparable corpora on the specific task of extracting translation equivalents of verb-noun collocations from such corpora. The results of a comprehensive evaluation of different configurations of English and Spanish corpora will be reported.

The second ongoing study exploits three Holocaust datasets of different sizes and qualities for the task of Named Entity Classification. The results will be available for (and reported for the first time in) Mitkov’s keynote speech at CILC2024 in Las Palmas de Gran Canaria. In addition to seeking to shed light on whether the quantity or quality of the data is more important, this ongoing study will answer another fundamental question: Which methodology works best? Classical rule-based NER approaches, deep learning methods, or Language Models (LLMs)? Can old-fashioned, corpus-based rules compete with the latest LLMs?

Prof. Mitkov’s talk is sponsored by:

Prof. Patricia Rodríguez Inés

¿(Cómo) ha evolucionado el uso de corpus en la enseñanza de la traducción?

Desde aquellas publicaciones de finales de los años 90 en las que se narraban experiencias didácticas puntuales de uso de corpus para enseñar a traducir, hasta hoy, ha llovido mucho, pero, ¿ha cambiado en esencia la forma de crear, seleccionar, presentar y explotar estos recursos a la hora de formar traductores?

Del interés en la aplicación de corpus en esta área dieron fe la serie de conferencias CULT (Corpus Use and Learning to Translate), celebradas en 1997, 2000, 2004 y 2015. En aquellos primeros tiempos aparecieron publicaciones abundantes, tanto en traducción directa (Piotrowska 1997; Bowker 1998; Pearson 1999; Maia 2000; Rodríguez López 2002; Zanettin 2002; Kübler 2003, etc.), como en traducción inversa (Zanettin 1998, 2001, 2002; Gavioli y Zanettin 2000; Corpas Pastor 2001, 2002; Varantola 2003, etc.), así como trabajos que abordaban ambas direcciones, distintos niveles de competencia y ámbitos de especialización (Rodríguez-Inés 2008, 2009, 2010, 2013, 2014). En muchas de estas referencias, y aunque no se hiciera explícito, lo que se conseguía con los ejercicios descritos no era solo utilizar el corpus para solucionar problemas concretos de traducción, sino, aún más importante, aprender a traducir descubriendo, pensando, evaluando, redefiniendo, reflexionando.

“[…] however paradoxically, corpora can and should be employed to problematise rather than simplify the task of (future) translators. The greatest pedagogic value of the instrument lies, we suggest, in its thought-provoking, rather than question-answering, potential” (Bernardini, Stewart y Zanettin 2003).

Los avances tecnológicos, la disponibilidad de corpus y repositorios de textos digitales, las iniciativas para la construcción colaborativa de corpus, la integración de corpus en software de traducción, y la interactuación con otras disciplinas, entre otros factores, han propiciado el crecimiento de los estudios basados en corpus en las últimas décadas. Con el paso de los años la aplicación de corpus en la enseñanza de la traducción también se ha extendido y diversificado, si bien es cierto que no siempre se es consciente de que se está usando un “corpus”, en el sentido laxo del término. Algunos ejemplos de esto son el enfoque de la web as corpus, las memorias de traducción, los traductores automáticos, y ahora algunas aplicaciones de inteligencia artificial. No son corpus, stricto sensu, porque algunos no pretenden representar una lengua, un estadio o una variante de una lengua, pero como compilaciones de textos, tienen su utilidad, siempre y cuando se sea muy consciente de su composición.

Esta presentación mostrará usos de los corpus en traducción en la enseñanza de la traducción, aportando ejemplos de cómo éstos pueden ayudar no solo a aprender a traducir, sino a concienciar al alumnado sobre la importancia del factor humano y de su capacidad analítica e interpretativa, especialmente en un mundo cada vez más automatizado y tecnologizado.

Prof. Rodríguez-Inés’s talk is sponsored by:

Prof. María Luisa Carrió-Pastor

Interpersonality in Academic and digital genres

In this talk, I focus on the use of interpersonal strategies in academic and digital genres. The way writers communicate their findings in academic papers is crucial for convincing readers about the objectiveness and validity of research and it is also crucial in social media to attract attention and increase the number of followers. Thus, one of the challenges to be faced by human beings is to convince others of the importance of the validity of propositions. Specifically, interpersonal devices are used in different genres to attract the attention of readers or listeners and some categorizations have been proposed for their analysis, such as stance, evaluation, appraisal, metadiscourse, or voice. The use of corpus analysis to identify different patterns has been used by many researchers, who proposed categories and discussed their characteristics. Here I integrate the frameworks of metadiscourse, stance and appraisal theory to propose a notion broad enough to encompass diverse linguistic phenomena that can be considered interpersonal devices. Some examples from academic discourse and social media discourse are also shown to illustrate the validity of the proposal.

Prof. Carrio-Pastor’s talk is sponsored by:

Plenary Speakers/ Conferenciantes plenarios