Corpus, revistas científicas y búsquedas fiables en Internet

Todos sabemos la gran utilidad de Google para realizar búsquedas y confirmar si una expresión existe o decantarnos entre dos alternativas según se frecuencia de uso. En este caso, lo que hacemos simplemente es utilizar Google como corpus lingüistico, es decir, buscamos dentro de un conjunto de textos que reflejan el uso de la lengua.

Ahora bien, ¿es realmente Google un corpus fiable? Sí y no. Si realizamos una búsqueda de neologismos o palabras muy técnicas, es probable que tardemos una eternidad en encontrar algo si utilizamos recursos fiables y que pensemos que hemos errado en nuestra traducción. En tales casos, creo que lo mejor es utilizar Google siempre con precaución y comprobar la fiabilidad de los resultados que nos arroje.

¿En qué corpus debemos hacer nuestras búsquedas, pues, para cerciorarnos de expresiones o términos? Una vez más, depende de la situación. Por ejemplo, si tenemos duda de una colocación del lenguaje general, libre de neologismos y palabras excesivamente técnicas, nuestra mejor arma en español será el Corpus de Referencia del Español Actual (CREA) de la Real Academia Española (RAE). Contiene textos de todo tipo de publicaciones hasta 1999, por lo que hay que tener cuidado si se buscan expresiones coloquiales de hoy en día. Por cierto, algo interesante del CREA es que dispone de un listado de frecuencias de las palabras más usadas en español.

En el caso de la ciencia y la técnica, lamentablemente, los recursos son algo escasos. Parece que la Real Academia Española está en proceso de crear un buen corpus lingüístico científico y técnico, pero lo que importa ahora es que no disponemos de él (eso sí, lo espero como agua de mayo). Por ello, si queremos conocer rápidamente la fraseología científica y técnica, lo que recomiendo es leer artículos científicos en español que no estén traducidos. En español basta con buscar artículos en revistas científicas españolas dedicadas a un tema concreto, como podría ser la Revista Española de Cardiología. Además, en el campo de la medicina, siempre es bueno estar atento a lo que se publica en Panace@, la revista de la Asociación Internacional de Traductores y Redactores de Medicina y Ciencias Afines (TREMÉDICA). Y para rizar el rizo, si quieres buscar artículos en revistas científicas y académicas españolas de todo tipo de temática, lo mejor es probar suerte con Dialnet, el portal de difusión de la producción científica hispana.

En el caso del inglés, los recursos disponibles son notablemente más abundantes comparados con nuestro idioma. Por ejemplo, como corpus de la lengua general tenemos el Collins WordbanksOnline, y si queremos buscar en bases de datos de revistas electrónicas sobre ciencia y tecnología no hay nada como el Medical Subject Headings (MeSH) para medicina o la ingente EServer Technical Communication Library, donde es posible encontrar artículos de libre acceso de todo tipo de temáticas incluso en diferentes idiomas además del inglés.

También hay un recurso que nunca he tenido la oportunidad de probar y cuya utilidad podría ser muy valiosa dependiendo de lo que tengamos que traducir: el corpus paralelo multilingüe de JRC-Acquis. Según se desprende de la página, es un corpus paralelo en diferentes idiomas de los textos que se traducen para la Comisión Europea. Y no solo hay corpus, sino también una memoria de traducción. Tan solo hay que descargarla y usar el software que se ofrece en la página para crear una memoria de traducción en formato TMX de los idiomas con los que trabajemos.

Ahora bien, después de esta parrafada, ¿de verdad es necesario consultar tantas cosas para una traducción? Depende. Lo más probable es que no dispongamos del tiempo suficiente para hacer búsquedas tan exhaustivas o buscar en bases de datos especializadas. Es más, a pesar de lo dicho de Google, lo mejor es buscar sobre un tema en concreto en Google y luego tener criterio suficiente como para seleccionar una fuente fiable y hacer uso de ella. Lo mismo se puede decir de la Wikipedia.

Por otro lado, la teoría nos dice que deberíamos traducir textos cuya temática nos sea más o menos familiar. Por tanto, una vez dicho todo esto como “lo ideal”, me quedo con las siguientes conclusiones para la práctica:

Si vas a traducir un texto cuya temática desconoces, asegúrate de que tienes tiempo suficiente como para documentarte más o menos exhaustivamente antes de ponerte con la traducción y de que realmente te sea rentable esos esfuerzos extra.
No siempre te tienes por qué enterar del 100% de un texto altamente técnico para traducirlo. Eso sí, contrasta la terminología con fuentes fiables.
Si aún no lo haces, considera la idea de leer revistas científicas sobre un tema que te interese para familiarizarte con la fraseología y la terminología propia del lenguaje científico. Tampoco tienes que apasionarte por el tema tratado en un artículo, sino simplemente ser capaz de identificar estructuras comunes de este tipo de textos. Con el tiempo te darás cuenta de que la forma suele ser la misma y que el contenido solo cambia un poco.
Si tienes que argumentar algo con autoridad, usa antes un corpus que Google a ser posible.
La consulta de corpus, artículos científicos y textos paralelos es fundamental en el proceso de formación de un traductor. Es precisamente en este periodo cuando se debe hacer hincapié, no después.

Entradas relacionadas

Facebook

Twitter

Pablo Muñoz Sánchez

English > Spanish Game Translator

Soy traductor inglés > español con más de 15 años de experiencia especializado en localización de videojuegos y software. He traducido juegos como Metroid y Fire Emblem y ahora trabajo, entre otras cosas, como especialista en control de calidad para Google a través de Vistatec. También soy cofundador de Traduversia, una plataforma de cursos online para traductores. Más sobre mí | Mi libro de localización | Mi Instagram

9 comentarios

david dice:

23-10-2008 al 22:38 pm

Estupendo artículo. Gracias por los links

Responder
Judith dice:

23-10-2008 al 23:30 pm

Un artículo muy interesante y útil. Es cierto que los corpus son herramientas a las que se les puede sacar mucho partido a la hora de traducir. Incluso nos podemos hacer nuestro propio corpus con algún programa tipo WordSmith Tools, pero eso ya es otra historia, pues no siempre disponemos de tiempo para documentarnos como es debido.
Por cierto, he echado en falta el British National Corpus: http://www.natcorp.ox.ac.uk/

Responder
Pablo Muñoz Sánchez dice:

26-10-2008 al 22:00 pm

Hola Judith:

Muchas gracias por el enlace, no lo conocía. Y enhorabuena por tu blog, pues con tantos blogs de traducción el tuyo es muy pionero. Ahora mismo lo agrego a la lista de blogs de la derecha 🙂

Responder
Laura dice:

26-10-2008 al 22:20 pm

En efecto, documentarse es a veces una de las tareas más importantes para traducir: ¡qué pesadilla traducir algo que uno no entiende!
En cuanto al corpus paralelo multilingüe de JRC-Acquis, yo me lo he bajado y el problema es que es tan gigantesco que la mayoría de programitas con los que puede verse (yo utilizo AntConc para corpora monolingües) sufren un colapso y no es nada efectivo. Sin embargo, parece ser que pueden extrarse por partes los TMX e importarse en cualquier memoria de traducción, con lo que, a través de la herramienta de Concordancia que casi todos estos programas tienen, podría consultarse. Te dejo aquí en enlace donde yo he ido recopilando enlaces sobre corpora (herramientas, recursos para bajarse, corpora que pueden consultarse online), por si a alguien le interesa:
http://www.uv.es/laurapo/wikibase/cas/Tema6Datos.wiki
Ciao!

Responder
Pablo Muñoz Sánchez dice:

26-10-2008 al 22:29 pm

Vaya, muchísimas gracias por el enlace. En cuanto pueda reviso también los enlaces del resto de temas de tu asignatura, que tienen una pinta inmejorable 🙂

Gracias por los comentarios sobre el corpus de JRC-Acquis. Ya suponía que su magnitud sería un problema también…

Responder
Marta Alarcón dice:

09-11-2008 al 17:05 pm

Hola Pablo
me encanta tu página,todo es util
Me parece especialmente importante lo de los corpus y las memorias.
Podrías explicar un poco más detenidamente cómo se descarga el corpus ese y la memoria de los textos de la UE, y con qué programas se puede abrir o qué se necesita y donde se puede encontrar?
No soy nada buena en informática
Te lo agredecería mucho

Responder
Alma de Leal dice:

16-02-2009 al 23:54 pm

Buenas tardes, les saludo desde Guatemala. En la revista que publica la Asociación de Intérpretes y Traductores de Guatemala, leí del recurso muy valioso en el corpus paralelo multilingue de JRC-Acquis. Me gustaría saber cómo descargo la memoria de traducción.
Veo su página sumamente interesante y útil. Muchísimas gracias,

Alma

Responder