Español: el idioma del Spam – felipe.lavin.blog

Eduardo Arcos ha escrito una revisiÃ³n de Akismet, la publicitada herramienta anti-spam de Matthew Mullenweg que fue lanzada hace solo pocos dÃas — lo que sigue es una ampliaciÃ³n del comentario que dejÃ© allÃ.

QuizÃ¡s es aventurado saltar hacia conclusiones tan rÃ¡pidamente, pero en mi caso me sucediÃ³ algo similar con WP-Blacklist, un clon del Blacklist para Movable Type pero para WordPress: el uso de listas negras actualizadas en tiempo real (Realtime Blacklist o RBL) causaba el rechazo de prÃ¡cticamente todos los comentarios (digamos, el 99.9% de ellos, hubieron uno o dos que pasaron) sin importar si eran o no spam. Claro, detuvo el spam, pero tambiÃ©n los comentarios.

La forma de actuar de los plugins basados en listas negras es fundamentalmente el siguiente: cuando ingresa un comentario, se registra su comentario y se compara con una lista de palabras, direcciones IP, URLs y correos electrÃ³nicos que han sido encontrados en el spam. Como una manera de aumentar el poder de discriminaciÃ³n de este tipo de plugins, estas listas no se limitan a palabras o datos especÃficos, sino que tambiÃ©n pueden usar expresiones regulares, es decir, cadenas de texto que usan caracteres especiales en lugares donde pueden ir una o mÃ¡s variaciones de una palabra (por ejemplo, algo como [a-zA-Z] para representar todas las palabras formadas por letras de la “a” a la “z”, mayÃºsculas y/o minÃºsculas).

Por lo tanto, luego de revisar que el plugin estuviera bien instalado y las opciones bien fijadas, pensÃ© que debÃa existir algÃºn factor que hiciera que los comentarios vÃ¡lidos fueran marcados como spam: el Ãºnico factor que podÃa explicar esto era el idioma. Es decir, en las definiciones de las expresiones regulares que en inglÃ©s pueden identificarse como spam, al parecer se incluyen muchas palabras muy comunes en espaÃ±ol, lo que hace que este tipo de medidas para frenar el spam sean simplemente inÃºtiles para los usuarios de habla hispana. Desconozco lo que pasarÃ¡ con otras lenguas, pero es probable que tambiÃ©n existan problemas.

La soluciÃ³n pasa entonces por buscar un plugin que no dependiera de listas negras, y en ese entonces di con Hashcash otro plugin para WordPress que bÃ¡sicamente lo que hacÃa era reemplazar el formulario de contacto por uno generado con JavaScript y que incluÃa valores aleatorios que eran chequeados antes de aceptar un comentario. Funcionaba bastante bien, pero tenÃa el detalle de que si alguien tenÃa JavaScript desactivado no podÃa comentar; o sea, no era transparente al usuario sino solo a algunos usuarios mientras que a otros simplemente no les permitÃa comentar —y esta cantidad no debe ser nada despreciable, pues NoScript, un plugin para Firefox que sirve para bloquear JavaScript aparece mientras escribo este post como el segundo mÃ¡s popular.

Por lo tanto, tenÃa que buscar algo que funcionara para todos, y lo encontrÃ©: actualmente estoy usando Bad Behavior, que por su forma de actuar es tanto “insensible al idioma” como “transparente al usuario”: en vez de analizar el comentario en sÃ, lo que hace es analizar las peticiones que hacen los clientes para navegar por la pÃ¡gina en la que se puede comentar —cada vez que tu navegador web va a descargar una pÃ¡gina, envÃa una cantidad de informaciÃ³n indicando quÃ© es lo que quiere (la peticiÃ³n). Una vez que el plugin cuenta con esta informaciÃ³n, la compara con peticiones “verdaderas”, es decir, las que producirÃa cualquier usuario con su navegador, lo que deja fuera la mayor cantidad de spam, puesto que para que Ã©ste sea rentable se necesita tener miles de referencias, las que serÃan econÃ³micamente inviables de hacer por personas. Claro, siempre hay algunos que pasan (en lo personal, me habrÃ¡n llegado una docena en mÃ¡s de tres meses de funcionamiento) pero la cantidad es mÃnima.