Traducción automática y TAV: poseditar subtítulos

04 lunes Sep 2017

Posted by enlalunadebabel in Subtitulación, Traducción, Traducción audiovisual

Etiquetas

DeepL, Linguee, MT, traducción automática, traducción automática neuronal

Estas semanas ha vuelto a salir el tema en redes de si las máquinas nos van a quitar el trabajo. Es la historia interminable, sí. Al parecer hay dos corrientes de pensamiento entre traductores: los que se niegan en rotundo a pensar que algo así pueda suceder y los que opinan que es una realidad a medio/largo plazo que hay que empezar a asumir. Y por asumir me refiero a que debemos mejorar nuestras habilidades en posedición porque puede que ahí esté parte de nuestro sustento.

Hace unos años, con ese afán juvenil y amor traductoril, me hubiera decantado por la primera, pero ahora me incluyo en el segundo grupo. Avanzo ya que con matices, claro. Se están desarrollando muy buenas herramientas de traducción automática (hay que dejar de pensar únicamente en Google translate y sus meteduras de pata habituales) que pueden ser incluso ventajosas para nosotros, pero no sirven para todo tipo de textos.

La revolución de las redes neuronales artificiales

En twitter hablamos del tema algunos compañeros a raíz de una serie de artículos (me atrevería a decir publicitarios) de DeepL que han aparecido en prensa, como este. Frases como «Los traductores profesionales conservarán sus trabajos durante, al menos, 20 años más» hicieron arquear las cejas a más de uno y no es para menos. Detrás de esta herramienta está la misma empresa que desarrolla Linguee, que supongo que muchos conocéis, con sus luces y sombras.

Estas nuevas herramientas están basadas en redes neuronales, según cuenta Gereon Frahling, director general de DeepL y exempleado de Google: «El servicio, al igual que sucede con otras tecnologías similares, encuentran su motor de crecimiento en el “machine learning” o “aprendizaje automático” basadas en redes neuronales artificiales. Es, pues, una de las revoluciones más recientes y que aplicadas en el campo de la robótica está logrando, junto a los modelos de “deep learning” o “aprendizaje profundo” que la Inteligencia Artificial sea capaz de mejorar rápidamente y “aprender” en función de los supuestos introducidos».

Sin embargo, está por ver que el traductor automático supere la calidad de una traducción humana. Esto dice Frahling: «Esperamos que suceda en unos años, pero no podemos apoyarnos en ninguna base sólida. A veces, ni siquiera el contexto basta: los traductores profesionales traducen según el cliente, el público al que va destinada la traducción, el ámbito de especialidad, el objetivo de la traducción o un producto, el registro deseado, la edad del destinatario, etc. Todos estos son datos que una red neuronal no tiene».

Algunos compañeros que lo han probado en textos periodísticos y generalistas, como Jota o Jordi Balcells, se muestran sorprendidos con la calidad de la traducción, que, en efecto, es mejor que el resultado que ofrece el traductor de Google.

Otros, como Traducción jurídica siguen recelando dada la sinonimia y tecnicidad de los textos jurídicos, como mostraban en esta imagen:

Quise probar con un texto literario y el resultado era de esperar. Como bien dijo Jordi, estas máquinas no están pensadas para la ficción escrita y menos todavía para la audiovisual. Juzgad vosotros mismos:

Y observad la poca diferencia con Google Translate en este caso:

Como vemos, ni tiene el formato de diálogo adecuado ni el contenido acaba de fluir, por decirlo suavemente.

La posedición en TAV

Acabamos de comentar que este tipo de programas no acaban de funcionar bien con ficción y, sin embargo, precisamente esta semana me ha tocado participar en una especie de experimento para un cliente para ver si se puede aplicar la posedición en subtitulación. Para eso, el traductor debía controlar el tiempo con una aplicación como Toggl en dos etapas distintas: la primera, la traducción de un capítulo de una hora de una serie; la segunda, la posedición de la traducción automática de otro capítulo de la misma serie y con la misma duración. En ningún momento se nos ha dicho qué programa o herramienta han usado para traducir automáticamente el texto. Sí nos avisaron que podía haber discrepancias con el tiempo de entrada y salida de los subtítulos y con la segmentación. ¡Y vaya si las había!

En cualquier caso, la consigna era —en posedición— que tratáramos de tocar lo mínimo necesario y evitáramos retraducir siempre que se pudiera. ¿Se consiguió? Solo en parte. He querido recopilar aquí los resultados de esta tarea y algunos ejemplos de lo más llamativo.

Empecemos con los números y la ortotipografía. Por ejemplo, en la traducción automática se dan bastantes errores en medidas y cantidades. En un subtítulo en el que un personaje hablaba de cavar un agujero 5 feet deep, era de 5 metros en la traducción y no de metro y medio. Y en cuanto a ortotipografía, algo parecido: la traducción automática copiaba directamente el formato. En todos los casos de precios, la TA conservaba el orden anglosajón: $80 y no 80$ (no le he puesto el espacio entre número y símbolo porque no suele usarse en subtitulación: se perdería un espacio precioso).

Otros fallos recurrentes se observan en el tratamiento «tú» y «usted», que se pierde completamente, al igual que en número. Sin tener en cuenta la imagen, ese you puede ser tú o vosotros, usted o ustedes. Como sabéis, la imagen manda en TAV y es imprescindible fijarse en la imagen.

Un dato curioso más —que ignoro a qué es debido— es que muchos nombres propios, sobre todo topónimos, se escriben en minúscula. Por ejemplo, sucedía con la ciudad de Boulder, que pasaba a boulder en varios subtítulos. Afortunadamente no lo tradujo como «roca» o «peñasco» en ningún caso. Tampoco me hubiera extrañado.

Ya que hablamos de nombres propios, a veces se traducen literalmente. Barb aparece traducido como «diente» y «barbilla» en varias ocasiones. Un personaje llamado Salty pasaba a ser «salado» en tantas otras.

Al contrario de lo que se pueda pensar, sí se cometen errores ortográficos; por ejemplo, escribe aún así cuando debe ser «aun así» No distingue entre como y cómo y, curiosamente, no tildó casi ningún pronombre interrogativo. Y también lo observé en algunos pronombres personales: He loves me. ☛ El me ama.

También se observó arbitrariedad en los signos ortográficos: a veces usaba correctamente los dos y en otras, desaparecía el de apertura.

Por último, también bailaron algunas preposiciones: I want to see Albert. ☛ Quiero ver Albert. ☛ Quiero ver a Albert.

Sección especial merecen algunas frases y expresiones que sufrieron cambios bastante significativos. Veámoslas:

Original	Traducción automática	Traducción propuesta
Are we done?	Casa patas arriba.	¿Hemos acabado?
As if I didn’t feed you.	Como si no te metiera	Como si no os hubiera dado de comer.
Don’t see him much anymore	No lo veo mucho más.	Ya no lo veo tanto.
Don’t you dare tell another soul	No te atrevas a otra alma	No te atrevas a decir ni mu / a abrir la boca / Como le digas a alguien…
He’s good.	Es bueno.	Está bien.
No.	No hay.	No.
Power-hungry husband	Marido traga-energía	Ávido de poder
Should there be?	¿Si se realiza?	¿Debería?
So help me if…	Entonces ayúdame	Juro que…
There’s a Little buzz going up here…	Hay un ligero zumbido por ahí arriba…	Se rumorea / Hay ciertos rumores…
This is just so incredibly effed up	Esto está tan fuera lastimado	La cosa está muy jodida
…trying to ask me…	…tratando de invitarme…	…quería pedirme…
What’s the hurry?	¿No puedo controlar mis deseos?	¿Qué prisa tienes?

Ahora os preguntaréis si hace algo bien. ¿Qué se traduce correctamente? Pues sobre todo las frases más sencillas sin juegos de palabras:

And I… I said I wasn’t sure.	Y yo… dije que no estaba segura.
Don’t you want a life like mine?	¿No quieres una vida como la mía?
Go sit. Where’d your mom go?	Ve a sentarte. ¿Dónde ha ido tu madre?
I changed my mind. I’m sorry.	Cambié de opinión. Lo siento.
I have told you all this.	Ya te he contado todo esto.
It’s about Marge. I need you to talk to her.	Se trata de Marge. Necesito que hables con ella.
It’s cold.	Hace frío.
Just hold tight.	Aguanta.
Listen to me.	Escúchame.
They’re cowards. You know that.	Son cobardes. Tú lo sabes.
This isn’t North Korea.	Esto no es Corea del Norte.

Con las frases subordinadas se pierde un poco más:

I didn’t hear Lee say

he thought it was preposterous.

Lee no oí decir que le pareciera

absurdo.

Pero a veces sorprende con algún referente que otro:

You’d better hide the Drano, Bill,

‘cause I might drink it.

Ya puedes esconder la lejía, Bill,

‘ porque puede que me la beba.

En total, un capítulo anterior de la misma duración —1 hora, recordemos— se tradujo partiendo de cero en 9 horas 43 minutos, incluyendo las diversas revisiones que requiere este cliente. La posedición supuso 7 horas 6 minutos. Nos hemos ahorrado alrededor de 2 horas 30 minutos. ¿Vale la pena? Pues por dos horas yo creo que no, sinceramente (el cliente, ya no sé). Hay que estar mucho más pendiente que si fuera una revisión normal. Piden que no se toque en exceso y que se evite retraducir, pero muchas veces no queda otra.

En general, sí me parece que hay que ser algo recelosos con el desarrollo y perfeccionamiento de estos programas, pero de momento no debe quitarnos el sueño. Por lo que sí deberíamos luchar ahora es por unas tarifas de posedición dignas (repetimos: no son simples revisiones) y pensar que nada es la panacea.

De algún modo pienso que un sistema de TA es como un(a) Roomba. No puedes encenderla sin más y esperar que te lo deje todo completamente limpio. Primero debes procurar que no haya nada que obstaculice su paso, recoger un poco y luego seguramente veas que ha quedado un rinconcito por aspirar. ¿Que por qué os hablo de esto? Pues porque para que un sistema de traducción automática funcione realmente bien tiene que haber un buen trabajo previo en el texto: hay que escribir para la máquina, de algún modo, y se debe comprobar que el texto esté bien escrito, que no haya errores, etc. Me pregunto si añadiendo todo esto en la ecuación (primera revisión completa del texto + traducción automática + posedición) nos ahorramos tiempo realmente, pero eso ya es otro debate.

Para resumir un poco todo esto, me quedo con las palabras de Ben Screen en este artículo: «Today, machine translation can create rough drafts of relatively simple language, and research shows that correcting this draft is usually more efficient than translation from scratch by a human. But machines do not now – and it is questionable whether they ever will be able to – replace a translator’s brain. No matter how complex the code behind it, an automated system would struggle to get the same sense of the words».

Y a vosotros, ¿qué os parece todo esto?

***

Algunos artículos más para reflexionar:

¿Es Google Translator el Aníbal Lecter de los traductores? por Xosé Castro
¿Es la traducción automática una amenaza para el traductor profesional? por Enrique Torrejón.
Poseditores: ¿Por qué la traducción automática en crudo necesita posedición? En Pangeanic.

13 pensamientos sobre “Traducción automática y TAV: poseditar subtítulos”

Moisés Rivadulla (@moisesrivadulla) dijo:

4 de septiembre de 2017 en 6:04 pm

Es cierto que la mejora es sustancial, pero aún le queda camino, y que esas posediciones pueden requerir mucho más trabajo que una revisión normal a un buen traductor humano. Para textos «publicables», no parece muy lógico pensar que vayan a encomendar esas tareas a traductores que no sean capaces de traducir ellos mismos bastante mejor que ese programa, que por otro lado y simplificando mucho no parece ser más que una TM gigantesca.

Responder
lordvetinari2 dijo:

6 de septiembre de 2017 en 11:47 am

Lo de tarifas de posedición dignas… La idea supongo que es mantener la tarifa horaria de cada una (mi hora de trabajo, independientemente de lo que haga, vale x), pero entendiendo que se tarda más en poseditar que en revisar porque la máquina cuando se lía, se lía de verdad.

Por otra parte, si a un cliente le dices que se puede ahorrar un 27 % de tiempo (el ahorro de coste no sería tanto), que es el resultado de este experimento limitado, obteniendo los mismos resultados, se pone a buscar poseditores pero ya. Lo curioso es que con una máquina no especializada se consiga tanto ahorro.

¡Gracias por compartir tu experiencia en tanto detalle!

Responder
aurorahumaran dijo:

6 de septiembre de 2017 en 2:17 pm

Los cráneos de la traducción automática y las agencias que solo buscan engordar (más) sus bolsillos reciben con alegría este tipo de novedades: sigue mejorando la tecnología.
Esta tecnología depende de nosotros, los profesionales de la lengua, para continuar mejorando. ¿Quién se beneficiará en el (quizás ya no tan distante) futuro? Los que venden TA y las agencias que solo buscan engordar sus bolsillos. Está claro que la TA solita no puede, pero sí funciona el combo (letal): máquina + traductor.
La TA ya nos está dejando sin trabajo porque cada vez que nos llega un trabajo para poseditar ya un traductor o ha sido reemplazado. Cada vez que poseditamos para otro, mejora el corpus más y más. Algún día (no tan lejano), quizás a un documento de 2.000 palabras haya que “arreglarle” dos errores de la máquina. Linda perspectiva.

Ya lo confesó CAPITA (la agencia que se encargó de dejar sin trabajo a 2.000 intérpretes en Reino Unido): “Machine Translation technology is improving all the time and the translations are becoming more accurate and sophisticated. The amount of editing required of a human translator will gradually decrease and this approach to translating will become more and more cost-effective”.

Humildemente, vengo a proponer que no hay dos posturas con respecto al tema: a favor o en contra de poseditar. Hay una tercera mirada que es la mía. Si bien no posedito al día de hoy, sí podría elegir recurrir a la posedición luego de comprar una licencia Systran o luego de dedicarle tiempo a algún programa DIY (como fue Moses en algún momento), pero jamás poseditaré para un cliente.

Del mismo modo, compré mis licencias de SDL y WordFastPRO, pero solamente yo me beneficio de la inversión. También gano tiempo (y aspiro a que también, con ello, mejore la calidad de mi trabajo) cuando uso mouse inalámbrico, dos o tres monitores, cuando pago la licencia de Cosnautas, cuando me capacito, etc., pero son mis herramientas, y la que se beneficia es esta lingüista y mujer de negocios.

Poseditar para otros es un suicidio profesional, un paso más allá (allá abajo) en el camino iniciado cuando se entrega el trabajo profesional servido en bandeja, memorias mediante, para que lo use otro, con el evidente daño que hace a la percepción de nuestra profesión que no necesita enemigos internos para carecer de prestigio.

Sí y mil veces sí a la tecnología que nos ayude a ser mejores profesionales y personas. Una buena infraestructura nos da más tiempo para entregar mejores traducciones y para dedicarnos a hacer desarrollo de negocios o ir a un spa. No somos un eslabón en la cadena de producción de un auto. Somos profesionales.

Responder
Moisés Rivadulla (@moisesrivadulla) dijo:

6 de septiembre de 2017 en 5:24 pm

Quisiera añadir que varios de los ejemplos en los el programa traduce «bien», no suena muy fluido que digamos en español. Para un ahorro de tiempo mínimo, me parece una pérdida de calidad considerable ese enfoque.

Responder
Soledad dijo:

10 de septiembre de 2017 en 3:29 pm

¡Hola! ¡Soy nueva en esto! Estoy con un pequeño grande inconveniente para traducir unos documentos confidenciales que me han enviado. El texto es un PDF que contiene imágenes con texto adentro que necesito traducir. He probado muchos convertores y funcionan pero sigo sin poder editar el texto que está adentro de la imagen. ¿me podrían recomendar alguna herramienta para este propósito? La imagen tiene que quedar igual (es un gráfico) pero el texto es el que tengo que traducir. ¡Gracias!

Responder
- enlalunadebabel dijo:
  
  13 de septiembre de 2017 en 9:54 am
  
  Hola:
  
  En ese caso puede que no sean editables y debas hacerlo a mano. Copiando y pegando la imagen e introduciéndole tú el texto directamente en Word. Además, eso deberías comentárselo al cliente, porque es trabajo extra.
  
  ¡Saludos!
  
  Responder
Francisco Lomana dijo:

19 de septiembre de 2017 en 10:10 am

Coincido totalmente: debemos de ver a la tecnología como un aliado en nuestro trabajo. Yo, cuando trabajé en una agencia de traducción profesional, no podía imaginar mi día a día sin todas estas herramientas porque ya no es que me hicieran la vida más fácil, sino que, directamente, me hacían la vida posible. ¡Te sigo leyendo!

Responder
Littlecatonthemoon dijo:

25 de septiembre de 2017 en 1:16 pm

Totalmente de acuerdo. Mi profesión (y pasión) de programador me lleva a ilusionarme con que algún día los programas puedan llegar al nivel de poder equipararse a un humano en este tipo de labores. Pero coincido con el tal Ben: creo que con el conocimiento y la tecnología actual es imposible llegar a ese nivel de perfección que tiene el cerebro humano. Las redes neuronales necesitan entrenamiento para llegar a especializarse en una labor determinada y me resulta increíble visualizar el día en que puedan llegar a ser tan creativas como nosotros.
Muy buen artículo.
Saluditos.

Responder
Pingback: Los artículos de 2017 en el blog | En la luna de Babel
Eugenio Garcia-Salmones dijo:

1 de marzo de 2018 en 10:44 am

Deepl concretamente es bastante avanzado si, pero estos programas están muy centrados en ciertos idiomas, el chino, el árabe, el ruso por mencionar algunos están completamente fuera de su dominio y no parece que a corto plazo eso vaya a mejorar. Así que ciertos idiomas de momento están de momento un poco al margen del tema. Sin embargo, estos programas están hay y no van a desaparecer al contrario van a mejorar, así que es mejor hacerse a la idea de como aprovechar o beneficiarse de esta tecnología .

Responder
Laura Gras Clemente dijo:

25 de octubre de 2018 en 9:51 am

Hola, sigo desde hace muchos años tu blog y me ha gustado mucho este artículo. Empecé hace un año en esto de ser traductora autónoma y principalmente he trabajado como poseditora.
Mi combinación es alemán-español y los errores que comete la máquina son mucho más importantes que en la combinación inglés-español, principalmente por el orden de las palabras y por los verbos separables, por lo que aún queda mucho por mejorar ahí y eso me da esperanzas.
Me gusta mucho la reflexión que haces acerca de que es más que una revisión, porque nuestra tendencia es a no creernos a ciegas la traducción propuesta por la máquina si no conocemos bien la expresión original y eso nos ralentiza pues tenemos que buscar e investigar el significado para corroborar que está bien.
Creo que no nos queda otra que adaptarnos a la tecnología que nos rodea porque en algunos campos que incluyen menos creatividad o dan menos pie a dobles sentidos el trabajo que hace la TA nos puede ayudar a agilizar el trabajo.

Un saludo.

Responder
Pingback: From liana to liana | Money Training Club
Pingback: Una peli (con subtítulos) de miedo | En la luna de Babel