Tecnologia CAPTCHA usada para traduzir a Internet

Talvez pelo nome não se lembre, mas certamente já lhe aconteceu ao aceder a um site aparecerem umas letras tortas seguidas de um formulário onde lhe é pedido para as repetir.

O CAPTCHA muitas vezes pode parecer irritante e inútil, mas é uma tecnologia que tem ajudado a digitalizar livros e já serviu de base para um projeto que pretende traduzir a web. Ambicioso? Sim, mas o seu criador Luis von Ahn sabe do que está a falar.

CAPTCHA é a abreviação de “Completely Automated Public Turing test to tell Computers and Humans Apart” (Teste de Turing Público Completamente Automatizado para Diferenciar Humanos e Computadores). Ele foi criado por Luis e mais três colegas da Carnegie Mellon em 2000 para separar humanos de robôs na web. Sites que oferecem formulários podem sofrer ataques de scripts que os preenchem e, dependendo da natureza do site, causam estragos bem feios, seja excesso de spam (blogs, fóruns), seja esgotando os recursos do servidor.

Exemplos aleatórios de CAPTCHA.

Computadores são muito bons para lidar com caracteres, mas quando o assunto é imagem, a coisa complica — mesmo se forem imagens de letras e números. Foi justamente essa brecha nos sistemas computacionais que garantiu o sucesso do CAPTCHA: é fácil para humanos identificar caracteres em imagens, mas extremamente complicado para não-humanos, o que permite a separação de ambos os grupos de forma automatizada e sem exigir grandes investimentos em infraestrutura ou desenvolvimento.

Em uma palestra no TEDxCMU de abril de 2011, Luis von Ahn trouxe alguns dados interessantes sobre o uso do CAPTCHA ao redor do mundo. Na época mais de 200 milhões de sequências alfanuméricas aleatórias eram resolvidas por dia e, em média, cada CAPTCHA tomava 10 segundos do usuário. Muito tempo e esforço aqui sendo desperdiçados… Por que não aproveitá-los melhor?

Numa analogia simples, o reCAPTCHA compartilha da filosofia da roda d’água. Por que não aproveitar o potencial natural de algo que aconteceria de qualquer forma para facilitar o trabalho em outra área? A única diferença é que enquanto a roda d’água gera energia, o reCAPTCHA gera conhecimento.

A bem da verdade, os computadores não são incapazesde reconhecer texto e números em imagens, eles só não são tão bons quanto seres humanos. Há bastante tempo existe uma técnica chamada OCR, acrônimo de Optical Character Recognition, que permite tal feito. Mesmo scanners do século passado já contavam com esse recurso.

Exemplo de reCAPTCHA.

Luis e seus amigos da Carnegie Mellon criaram o reCAPTCHA em 2008 (aqui tem a pesquisa) para aproveitar a resolução dos CAPTCHA por seres humanos para provarem que não são máquinas no aperfeiçoamento do OCR. A nova abordagem do sistema mostra sempre duas palavras; o usuário digita ambas, mas basta apenas uma para obter sucesso. Esses dados são comparados com as tentativas de outros usuários e processados e, no fim, os resultados ajudam a refinar os mecanismos de OCR (veja um exemplo). Em setembro de 2009, o reCAPTCHA foi comprado pelo Google e desde então tem sido usado extensivamente na digitalização de livros antigos.

Na palestra do TED (vídeo abaixo), Luis intitula esse processo de “colaboração online em escala massiva”. Há um gigantesco potencial inexplorado em diversas áreas, por muita gente, todos os dias e em todos os lugares do mundo. O reCAPTCHA exemplifica bem o que dá para fazer com a colaboração de muita, muita gente, sem que ninguém se dê conta de estar trabalhando e em algo tão grandioso.

Luis queria mais, porém. Ele quer traduzir a web.

Entra em cena o Duolingo, um site que promete lhe ensinar um novo idioma. No momento, só são oferecidos três cursos (inglês, espanhol e alemão), mas o objetivo é expandir mais e mais as opções.

O Duolingo não foge muito do esquema de outros sites de idiomas colaborativos, como o (ótimo) Livemocha. A inovação está no aproveitamento das tentativas, erros e acertos dos aspirantes a poliglotas na tradução da web. A exemplo do que acontece com a roda d’água e o reCAPTCHA, toda a atividade gerada ali é reaproveitada, nesse caso para ajudar na tradução de sites diversos.

Sistemas de tradução automatizada estão aí há anos, sempre progredindo, mas todos ainda têm sérias dificuldades em lidar com contexto e múltiplos significados. É por isso que um texto em inglês traduzido pelo Google Translate para o português fica tão estranho; há tantos nuances no processo de tradução que, hoje, nenhum sistema supera o trabalho de um bom profissional de carne e osso. O objetivo do Duolingo é “casar” essas duas peças, algoritmos e seres humanos, e traduzir a web com a ajuda dos que queiram aprender uma nova língua de graça. A mim, parece uma troca bastante justa.

“Se um milhão de pessoas usassem o Duolingo para aprender, toda a Wikipedia em inglês poderia ser traduzida para o espanhol em apenas oito horas.”

Meses após requisitar o meu convite, finalmente ele chegou.

Tradução on the fly.

O site é bem bacana, visual agradável (usa Bootstrap!) e tem até uma mascote, a coruja Duo. Ao acessar o link especial do convite, o Duolingo o submete a um cadastro bem completo; além de informações pessoais, ele já mostra e explica como funcionam alguns tipos de lições, configura o áudio (em Flash…) e o familiariza com o que achei bem sensacional: a revelação das traduções passando o mouse por cima das palavras. De qualquerpalavra, a qualquer momento. Não é uma competição e você não será penalizado se errar ou “usar xit”. Parece bobagem, mas oferecer essa opção e incentivar o seu uso dá um ar bem mais simpático ao sistema.

O curso é dividido em módulos que formam uma espécie de mapa como o do Super Mario Bros. Ao atingir a pontuação mínima, novas áreas são desbloqueadas e você pode avançar. Toda lição é recompensada com esses pontos, chamados ali de skill points, e há uma parte social com timeline e amigos e todo aquele conceito de seguir e ser seguido do Twitter e Facebook — rola integração com os dois, a propósito. Em tempos de gamification, é quase que natural esperar elementos do gênero em um site como o Duolingo.

Visão geral de espanhol no Duolingo.

Dentro de cada área há lições temáticas estruturadas da seguinte forma: aparecem várias frases que devem ser traduzidas e… bem, é basicamente isso. Antes de arriscar a tradução (só se tem uma chance), aparece um mini-treinamento opcional que familiariza o usuário com novas palavras. Esses treinamentos variam, vão de traduções simples a exercícios de listening e até perguntas de múltipla escolha — em um menu drop-and-down, mas a ideia é a mesma.

A sua tradução para a frase de cada passo é comparada a todas as demais já inseridas no sistema. Se ela for ruim em comparação à média, ganha-se um skill point; se for acima dos 50%, dois; e se ela bater em cima com a tradução mais comum/certa segundo os outros estudantes, aí lhe são dados três skill points.

Tradução feita no Duolingo.

E não acaba por aí. Após inserir a sua tradução, dá para dar notas para as dos outros e, de quebra, aprender com os erros e acertos dos “colegas de classe”.

Outra forma de interação bacana se dá na área de seleção de lições. Cada uma oferece uma área de perguntas e respostas bem parecida com o Stack Overflow. Dá para publicar dúvidas e insights e comentar nas de outros membros.

O fato de começar a toda, já com exercícios logo de cara sem uma introdução ou nada do tipo pode assustar, mas é como o vídeo ali em cima diz: as palavras e frases estão de acordo com o seu nível. Começando no Basics 1, pressupõe-se que eu não saiba nada de espanhol, logo o sistema vem com frases bem bobinhas, bastante simples. Já aprendi que maçã se diz “manzana” e vermelha, “roja” ;-)

Acabei de receber meu convite e ainda estou explorando o Duolingo. Na prática, como dito acima, é bem parecido com o Livemocha, ou seja, é um curso focado na prática. Ele perde para o concorrente pela base de usuários, ainda relativamente restrita, o que é um revés considerável pela natureza colaborativa do sistema de aprendizagem. De qualquer forma, está tudo bem redondo, o visual e as funções são agradáveis e a causa, nobre.

Não sei se ficarei craque em espanhol, mas pero si, pero no, na pior das hipóteses estarei ajudando a traduzir a web. Vale a pena ficar de olho nesse Duolingo.

Fonte

António Almeida

António Almeida

Licenciado em engenharia Informático e Telecomunicações, mestre em Sistemas e Tecnologias de Informação e doutorando em Informática é um apaixonado por todo o tipo de tecnologia. Apostava na troca de informações e acaba de criar uma rede de informáticos especialistas interessados em tecnologia.

PRÓXIMOS ARTIGOS:

Inscreva-se e Receba Grátis:

  • Últimas Notícias sobre Tecnologia
  • Promoções de produtos e serviços
  • Ofertas e Sorteios de equipamentos
Avaliar Artigo:
[0 Estrelas]

DEIXAR COMENTÁRIO:

2 thoughts on “Tecnologia CAPTCHA usada para traduzir a Internet”

  1. We have read through various nutrients listed here. Surely selling price book-marking with regard to revisiting. I’m wondering the amount of efforts you put to make one of these simple excellent useful internet site.

  2. I ME SALE EL CAPTCHA EN JAPONES I COMO NO ENTIENDO JAPONES NO SE PONERLO I MO ME PUEDEN DAR MI CODIGO DE 48 HORAS XBOX LIVE GOLD PORFAVOR AYUDA ?

Leave a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

AVISO:

Todo e qualquer texto publicado na internet através deste sistema não reflete, necessariamente, a opinião deste site ou do(s) seu(s) autor(es). Os comentários publicados através deste sistema são de exclusiva e integral responsabilidade e autoria dos leitores que dele fizerem uso. A administração deste site reserva-se, desde já, no direito de excluir comentários e textos que julgar ofensivos, difamatórios, caluniosos, preconceituosos ou de alguma forma prejudiciais a terceiros. Textos de carácter promocional ou inseridos no sistema sem a devida identificação do seu autor (nome completo e endereço válido de email) também poderão ser excluídos.

Categorias:

PROBLEMAS INFORMÁTICOS?
Escolha aqui um serviço!

Este site utiliza cookies para melhorar a sua experiência. Ao continuar a navegar estará a aceitar a sua utilização. Pode consultar mais informação no Centro de Privacidade.