La evolución

Hoy he visto el lanzamiento de ¡Extra!, un cliente de noticias de el periódico El País, que se baja los titulares y permite ver noticias de una forma muy cómoda.
No me he podido resistir a indagar un poco en las tecnologías que usaba por debajo. ¿Usarán por fin RSS? ¿Algo estándar? ¿Algo que se pueda usar con otros lectores de feeds RSS?
Lo instalé en el ordenador de mi hermano (el único con windoze) y me puse a capturar el tráfico: Resultado: algo decepcionante. No usa nada estándar.
Lo primero que hace es la petición de /pam/config.html (no hace ninguna comprobación de user-agent ni nada), que devuelve un fichero comprimido con gzip, aunque con errores al final. ¿Un burdo intento de que los descompresores den error? ¿un crc? zless, zcat, etc permiten ver el fichero sin problemas a pesar de todo:
$ wget www.elpais.es/pam/config.html
–00:58:47– http://www.elpais.es/pam/config.html
=> `config.html’
Resolving www.elpais.es… 195.53.49.7, 195.53.49.18
Connecting to www.elpais.es|195.53.49.7|:80… connected.
HTTP request sent, awaiting response… 200 OK
Length: 1,737 (1.7K) [application/octet-stream]
100%[=====================================================>] 1,737 –.–K/s
00:58:47 (123.55 KB/s) - `config.html’ saved [1737/1737]
$ file config.html
config.html: gzip compressed data, from Unix
$ mv config.html test.gz
$ gunzip test.gz
gunzip: test.gz: unexpected end of file
$ ls -la test
ls: test: No such file or directory
$ zcat test.gz > test
zcat: test.gz: unexpected end of file
$ ls -la test
-rw-r–r– 1 user user 8418 2005-11-11 01:00 test
El fichero descomprimido resulta ser este XML, que parece ser un fichero de configuración de la aplicación, definiendo tipos de letra, secciones, etc. Pero ahí no está lo interesante, los titulares… sigamos mirando…
A continuación se baja un montón de imágenes variadas para la interfaz y publicidad, y lo interesante: /pam/news.html. En este caso es un fichero HTML sin más (peaso tecnología) que tiene cosas como:
<td>20051111elpepunac_1.Tes</td>
<td>Gerf snyyrpvqbf ny qreehzonefr ha rqvsvpvb ra Gneentban cbe han rkcybfvuffffa qr tnf</td>
El documento completo lo podéis ver aquí. ¡Parece algún tipo de encriptación avanzada de alto nivel! XDDD
Por los enlaces del documento se puede deducir mirando en la noticia original que:
Gerf snyyrpvqbf ny qreehzonefr ha rqvsvpvb ra Gneentban cbe han rkcybfvóa qr tnf
Debe ser equivalente al titular:
Tres fallecidos al derrumbarse un edificio en Tarragona por una explosión de gas
¡¡¡Oooohhh… que chungooooo!!! un desplazamiento de 13 caracteres, ROT-13… realmente currado, si señor, creo que nadie lo habría sacado (yo sólo gracias al super ordenador que me ha prestado la NASA).
$ echo "Gerf snyyrpvqbf ny qreehzonefr ha rqvsvpvb ra Gneentban cbe han rkcybfvóa qr tnf"
| tr n-za-mN-ZA-M a-mn-zA-MN-Z
Tres fallecidos al derrumbarse un edificio en Tarragona por una explosión de gas
Finalmente cuando das a visualizar una noticia, solicita: /pam/articulo-pam.html?xref=<id1>&anchor=<id2>, donde <id1> e <id2> son la primera y segunda parte del código de noticia que aparece en el listado. Es decir, para “20051111elpepunac_1.Tes” se separa por el punto, y ya está.
Molaría tener un conversor de Extra a RSS normal y corriente, que nos sería muy útil a los linuxeros. Y a ver si las empresas de comunicaciones aprenden que lo mejor es adoptar estándares, que simplifican las cosas. Ellos deberían querer informar, ¿no? pues eso, que no tiene sentido tratar de ocultar las cosas.
Mientras tanto, para todos vosotros (con código fuente incluído):
Convertirlo a RSS sencillo es trivial. Lo que molaría sería hacer que se bajara el contenido de las noticias para incluirlo en el feed. ¿Alguien se anima?
Diario de sueños de Guillermo Pérez (aka bisho)