BLEU
BLEU ( Bilingual Assessment Understudy, ou estudo de avaliación bilingüe ) é un algoritmo para avaliar a calidade dun texto traducido automaticamente dunha lingua natural a outra. A calidade considérase a correspondencia entre a saída dunha máquina e a dun humano: «canto máis se achegue unha tradución automática a unha tradución humana profesional, mellor é». Esta é a idea central de BLEU.[1] Inventada en IBM en 2001, BLEU foi unha das primeiras métricas en ter en conta a correlación cos humanos sobre o un xuízo de calidade,[2][1] e segue a ser unha das métricas automatizadas máis económicas e máis populares.
As puntuacións calcúlanse para segmentos traducidos individuais (xeralmente frases) comparándoos cun conxunto de traducións de referencia de boa calidade. Esas puntuacións fanse a media de todo o corpus para obter unha estimación da calidade global da tradución. Non se teñen en conta a intelixibilidade nin a corrección gramatical.[1]
A saída de BLEU é sempre un número entre 0 e 1. Este valor indica o semellante que é o texto candidato aos textos de referencia, sendo os valores máis próximos a 1 os que representan textos máis semellantes. Poucas traducións humanas acadarán unha puntuación de 1, xa que isto indicaría que o texto candidato é idéntico a unha das traducións de referencia. Por este motivo, non é necesario acadar unha puntuación de 1. Debido a que hai máis oportunidades de coincidencia, engadir traducións de referencia adicionais aumentará a puntuación de BLEU.[1]
Notas
[editar | editar a fonte]- ↑ 1,0 1,1 1,2 1,3 Papineni, Kishore; Roukos, Salim; Ward, Todd; Zhu, Wei-Jing (2001). "BLEU: a method for automatic evaluation of machine translation" (en inglés). Association for Computational Linguistics: 311. doi:10.3115/1073083.1073135.
- ↑ Coughlin, D. "Correlating Automated and Human Assessments of Machine Translation Quality" (PDF). www.mt-archive.info. Arquivado dende o orixinal (PDF) o 06 de setembro de 2008. Consultado o 08 de setembro de 2025.