Apertium WDM

Uma alternativa colaborativa para ampliação de dicionários em Ferramentas de tradução automática baseada em regras

Resumo

A tradução automática é uma subárea do processamento de linguagens naturais que temcomo objetivo a tradução automática de textos de uma língua natural de origem para umaoutra língua natural de destino. Dentre os diferentes paradigmas para se realizar a traduçãoautomática, a tradução automática baseada em regras apresenta-se como forte candidatapara realizar tradução entre línguas com baixa quantidade decorpusdisponível. O Apertiumfoi apontado como uma solução desoftwarelivre e colaborativa para desenvolvimento de sis-temas de tradução automática baseada em regras e foi alvo do presente trabalho. Um dosprincipais obstáculos para o crescimento do Apertium é a ausência de uma interface homem-máquina específica para manutenção de suas bases de conhecimento. Visando superar essesobstáculos, este trabalho propõe um ambientewebque permite com que usuários sem conhe-cimentos específicos de computação possam contribuir com a expansão das bases de co-nhecimento do Apertium. A arquitetura proposta integra-se à atual forma de desenvolvimentodessas bases de conhecimento e permite com que usuários leigos em computação possamcontribuir com a expansão do vocabulário dos dicionários morfológicos do Apertium

Introdução

O processamento de linguagens naturais (PLN) é uma subárea da ciência da computação que tem por objetivo aprender, entender e produzir conteúdos de linguagens naturais. O PLN vem crescendo nos últimos 20 anos tanto como uma área de pesquisa científica quanto uma área de aplicações práticas \cite{hirschberg2015}. Um dos principais desafios da computação para as próximas décadas é desenvolver sistemas capazes de processar com eficiência as linguagens naturais \cite{oller2007}.

Dentro do campo de PLN, destaca-se a tradução automática (TA), que é uma subárea da linguística computacional que tem como objetivo a tradução automática de textos de uma língua natural de origem para uma língua natural de destino, traduzindo todo seu conteúdo de maneira a gerar um resultado inteligível e que preserve suas características, como estilo, coesão e significado \cite{alessio2009}.

Os sistemas de TA são cada vez mais necessários devido à natureza multilíngue da sociedade globalizada e das complexas redes sociais, organizacionais e comerciais existentes \cite{oller2007}. A comunicação entre povos distintos facilitada por meios eletrônicos é uma realidade e com evoluções cadas vez mais esperadas. Contudo, os sistemas de tradução mais bem sucedidos têm sido tradicionalmente \textit{softwares} proprietários, os quais utilizam tanto componentes internos quanto bases de dados fechadas.

Alguns sistemas de TA considerados gratuitos estão disponíveis para uso na internet com algumas restrições. Essas ferramentas são distribuídas % com tecnologia fechada e com propósitos comerciais e não podem ser adaptadas ou aprimoradas para uma finalidade específica \cite{sanchez2006}. Essa forma de distribuição dificulta a inserção de suporte a novos idiomas, que na maioria das vezes é feita objetivando algum retorno financeiro, e sua utilização em outras aplicações.

\citeonline{hirschberg2015} e \citeonline{stein2018} ainda mostram que uma das grandes limitações dos sistemas de PLN em geral é que, muitas vezes, eles estão disponíveis apenas para línguas com alta quantidade de \textit{corpus}\footnote{conjunto de textos escritos e registros orais em uma determinada língua} disponível, como o Inglês, Francês, Espanhol, Alemão e Chinês. Em contrapartida, diversas línguas com baixa quantidade de \textit{corpus} disponível, como Bengali, Indonésio, Punjabi, Cebuano e Swahili, que são faladas e escritas por milhões de pessoas, podem não possuir tais sistemas disponíveis com uma qualidade aceitável.

Dessa forma, surgiram diversos projetos de \textit{software} livre, que buscam na forma livre e colaborativa de desenvolvimento superar tais dificuldades. Dentre esses projetos, destaca-se o Apertium\footnote{https://www.apertium.org}, que é uma plataforma, licenciada sob a \textit{GNU General Public License}\footnote{http://www.gnu.org/licenses}, para desenvolvimento de máquinas de tradução automática baseadas em regras (\textit{Rule-Based Machine Translation} ou RBMT) e que será o foco do presente trabalho.

As RBMT dependem de dados linguísticos explícitos, como dicionários morfológicos, dicionários bilíngues, gramáticas e regras de transferência estrutural \cite{tyers2010}. A base de conhecimento linguístico do Apertium é formada por aquivos XML com formatos bem definidos para diversos pares de línguas e é disponibilizada publicamente na internet através de repositórios Git.

Atualmente, o Apertium oferece suporte a mais de quarenta línguas e o desenvolvimento de novos pares de tradução vem sendo alvo de diversos trabalhos nos últimos anos, como podemos ver em \citeonline{italian-sardinian} o par italiano-sardenho, em \citeonline{sami-finnish} o par sámi-finlandês e em \citeonline{croatian-serbian} o par croata-sérvio.

Problema

% \begin{citacao} A TA baseada em regras tem como vantagens o fato dos recursos linguísticos serem legíveis por humanos e do processamento (tradução de novas sentenças) ser muito simples. Como limitações principais desta estratégia de TA estão o alto custo no desenvolvimento dos recursos linguísticos e na sua extensão para outro idioma, e a cobertura lexical limitada, uma vez que não é possível traduzir uma palavra (ou construção gramatical) que não esteja presente no conjunto de regras \cite{caseli2017}. % \end{citacao}

É evidente que dentre as principais limitações das RBMT, de modo geral, estão o alto custo no desenvolvimento de seus recursos linguísticos e na sua extensão para outros idiomas \cite{caseli2017}. Um dos principais obstáculos para o crescimento do Apertium é a ausência de uma interface homem-máquina específica para manutenção de seus dicionários morfológicos, de pares e regras de tradução. As poucas alternativas de interface existentes visam usuários especialistas tanto em computação quanto em linguística \cite{alessio2009}.

O Apertium conta com poucos contribuidores especialistas, sendo que o número de usuários (que são colaboradores em potencial) é da ordem de milhares. A necessidade de conhecimentos específicos em computação, tais como linguagens de marcação (XML), sistemas de controle de versões (Git) e das estruturas internas do Apertium, acabam limitando o número de colaboradores aptos a contribuir e afastando colaboradores em potencial.

Dessa forma, este trabalho propõe um meio para superar tais limitações e permitir que os usuários com domínio sobre uma língua contribuam com a expansão das bases de conhecimento do Apertium sem precisarem adquirir conhecimentos específicos de computação.

Objetivos

O objetivo principal é propor um ambiente \textit{web} colaborativo - o Apertium \textit{Web Dictionary Maintenance} ou Apertium WDM - para o aumento do vocabulário dos dicionários morfológicos do Apertium, a fim de reduzir a quantidade de conhecimento necessário como pré-requisito para uma pessoa se tornar apta a contribuir.

Com isso, espera-se aumentar o número de contribuidores e, por conseguinte, a capacidade de tradução do Apertium.

Também, objetivam-se mais especificamente:

Especificar uma API RESTful que forneça um conjunto de funcionalidades para adição, de forma colaborativa, de novas palavras aos dicionários morfológicos de línguas de origem latina e germânica do Apertium, que são armazenados em um repositório Git;
Especificar uma GUI (\textit{Graphical User Interface}) que permita ao usuário utilizar de forma prática os recursos fornecidos pela API;
Propor um fluxo de trabalho colaborativo entre os contribuidores e os mantenedores das bases de dados.
Ferramenta para receber sugetoes de usuaŕios.
Workflow

Artigos

2020

2019

2011

2010

2009

Dissertação de Mestrado Aléssio Miranda Júnior 2009 (opens new window).