Explicando el Cake Rank



El ranking de blogs de Cake Division es el único que quedó activo luego de varios intentos de otras épocas, siempre es discutible un ranking, la metodología, la forma de recabar información y, al fin y al cabo ¿cómo se pueden comparar peras con manzanas?

Varios me han preguntado cómo es que armo el ranking y por lo general no explico con demasiado detalle, si digo cuales son las fuentes, pero no aclaro demasiado sobre el algoritmo porque lo modifico tan seguido que no tiene mucho sentido.

Así como Google nunca da muchos detalles del algoritmo que usan en mi caso no es tan matemático ni tan pensado, es simplemente un poco de sentido común y con esos valores generar un "puntaje" ¿para que sirve? desde mi agencia, Cake Division, lo utilizamos para decidir si un blog está lo suficientemente "maduro" para poder ser parte de una campaña.

A continuación les explico un poco sobre este experimento que ya funciona hace exactamente dos años y que utilizo normalmente en mi trabajo.



Antes de comenzar vale la aclaración. Cake Divison es mi empresa y emprendimiento personal dedicado a comercializar blogs y redes sociales. Desarrollar sitios, campañas, coordinar, publicitar. La web es un medio gigante donde las grandes agencias sólo quieren vender banners en redes gigantes y dejan de lado este medio fabuloso que es el Blog.

Un medio que no sólo es super provechoso para los clientes, si no que es el más auténtico y de mayor crecimiento, donde una pequeña inversión y un gran redactor pueden marcar la diferencia entre llegar a tu verdadero cliente o caer en un cartel en la calle que no ve nadie.

Y para esto primero que nada hay que definir ¿que es un buen blog? es casi imposible porque tenemos miles de formas de interpretarlo, el CakeRank lo armé, entonces, pensando en el sentido comercial de Cake Division, de los blogs que hay cual es confiable, no por su tráfico solamente, si no por su comunidad, la frecuencia con la que el autor le da contenido a sus lectores, como es visto no por uno si no más buscadores, etc.

Pero a todo esto le debo sumar un componente personal de filtro, no sirve un blog que habla de farándula y el programa de tinelli para vender casi nada, tan sólo me provee de tráfico, pero no es la cantidad lo que busco en un blog.

Hay parámetros, límites imprescindibles que definir y cuando empecé a hacer el ranking nadie en Argentina tenía el dato ni el estudio suficiente sobre la blogósfera local como para definirlo. Está de más aclarar que el criterio del Cake Rank es, entonces, personal y subjetivo, mide lo que yo quiero ver y vender de un blog y aun así es insuficiente. No sirve para utilizarlo como ley, es apenas una guía.

Los rankings



El único caso que había visto de un intento cuasi-serio era uno que mediante un pequeño spider relacionó los blogs que conocía entre sí y con eso les dio un valor. Pero he aquí que no todos los blogs nacionales se relacionan, si bien en mi blogroll tengo unos 20 blogs y la mayoría son personas que conozco, muchos ni siquiera recomiendan otros blogs.

Una pésima influencia de los "gurúes" del SEO fue la tendencia a NO compartir enlaces y no otorgarle "relevancia" a nadie con tal de bajar al resto para subir uno mísmo, el famoso caso de recortar las cabezas de los que asomen para que sólo se note la nuestra. Esto hace que no se pueda implementar aquel esquema sin que se pierdan blogs en el camino. Es más, en ese caso, recuerdo, no había uno solo de los blogs argentinos de mayor tráfico y relevancia, como que la blogósfera era sólo un grupo acotado, problema que más adelante yo también encontré.

Alianzo había creado un ranking que funcionó relativamente bien hasta cierto punto cuando el mantenimiento de la herramienta faltó. No estaba mal, pero dejaba mucho en poder de los bloggers, el sumar los blogs, identificarse, unirlos a su cuenta presonal, etc. Y al ser tan blogger-dependiente y no recibir soporte seguido terminó siendo muy fácil de vulnerar.

Con el tiempo pasó a ser un desastre, blogs muertos hace años en el top 10, blogs buenos desaparecidos, etc. Dejó de ser una herramienta confiable para saber que blogs eran interesantes para seguir.

Luego opté por ver Bitacoras, no es que esté mal, pero se lleva muy mal con blogs que no cumplan con ciertas condiciones. Por ejemplo este mismo blog, no usa wordpress, no usa blogger, por ende ya no funciona en su herramienta como uno esperaría.

Sumado a esto enfocaron su funcionamiento más al sharing de contenidos que a la medición, dejando un poco de lado esto último, si tu blog no es mencionado o promocionado por usuarios de bitácoras, no existe. Aun sea el mejor blog del mundo.

Technorati ya había muerto hacía años por culpa exclusiva de sus dueños, google por sí mísmo sólo proveía el PageRank que en la realidad nunca mide nada más que parámetros de búsqueda porque la calidad, comunidad, y al blog mismo no podía medirlo.

Alexa sólo mide tráfico, es bruto, es inconsistente, pero es una de las variables importantes porque la mitad de todo este negocio es el tráfico.


las fotos corporativas siempre tienen gente sonriendo :D


Definiendo parámetros



Viendo lo que hay me sentí en la necesidad de crear un ranking propio, no para que compitan por un puesto, para darle un marco de referencia a la blogósfera Argentina que no tenía.

Para poder crearlo tuve que pensar ¿que parámetros tenemos?

El primero, que ya nombré, es Alexa. Este sistema no es eficiente, no mide la realidad, sólo una parte de ella, pero esa parte me sirve, es relevante. Alexa tiene una ventaja, hay un ranking mundial y hay otro ranking por país. Cuando el tráfico empieza a ser interesante ya hay un valor en el ranking internacional y si el volumen es suficiente, también nos consideran en el ranking nacional.

Esos dos parámetros son útiles para mi trabajo y más o menos desde la web de alexa se pueden obtener.

Después hay otro parámetro importante: buscadores. ¿Cuantas veces me mencionan otros sitios? ese valor es imprescindible, no cuantas páginas tenemos indexadas, eso le interesa al SEO, lo que a mi me interesaba era el inbound link tan preciado y difícil de conseguir. Google y Yahoo son los motores de búsqueda más utilizados en nuestro país, o al menos hasta hace un par de años, ya que Bing está entrando con fuerza.

Lo que hago es tomar el total, que es aproximado y rara vez preciso, y utilizar estas dos nuevas variables, con esto ya son cuatro parámetros.

En la primer versión del rank utilicé también Twitter (mediante una aplicación externa) y Delicious como parámetros extra, pero con el tiempo dejaron de ser relevantes, o me pongo a programar una aplicación que trabaje a diario con la API de twitter coleccionando los miles de twitts posibles o mejor pienso en otra alternativa. Deliciuous simplemente lo descarté cuando anunciaron que lo iban a dar de baja.

Hasta aquí los parámetros miden variables más ligadas al SEO que a la comunidad que todo blog puede generar, esto no es fácil de medir, diría que imposible, porque deberíamos disponer de una persona revisando, chequeando, 10-20-30 blogs por día para sacar una conclusión. No dispongo de esos recursos, así que opté por automatizarlo: RSS

La mayoría de los blogs tiene un feed RSS tanto para los posts para los comentarios, algunos ni siquiera lo tienen bien configurado y no me otorgan un XML útil, pero el 95% lo tiene perfecto, podemos medir la frecuencia. Tanto de posteo como comentarios.

Esto implica que si, por ejemplo, tenemos un blog que es una máquina de publicar podrá tener un buen ratio de posteo, pero contrastará notablemente con el de comentarios si no tiene comunidad. En cambio tenemos blogs que hablan de famosos, por ejemplo, un post a la semana pero 500 comentarios por post. Tampoco sería adecuado.



Límites



Así es como tuve que optar por límites. Así es, hay cotas máximas.

En los buscadores, por ejemplo, hay blogs que dan muchos más resultados que los lógicos, no es culpa de ellos, son los motores de búsqueda que no dan resultados racionales siempre, por ejemplo Yahoo es de darte 100.000 resultados para un sólo blog y mirás los resultados y no tienen nada que ver con la realidad. Así que puse un límite máximo, si otorga más de ese límite se frena.

Con la frecuencia de comentarios igual, a partir de los 100 por minuto no es real la medición, no hay una comunidad copada, es un foro de adolescentes gritándole a Justin Bieber. Lo mismo el posteo, 10 posts por día es el máximo que soporta el ranking, más es spam.

Luego tomé varios sitios de referencia, foros, sitios famosos, etc. para establecer un parámetro de comparación.

Proporciones



Aquí la parte que a los bloggers más le interesa ¿cúanto influye cada variable? la cuenta es simple, primero tomo los valores máximos, para conocer mi límite superior, y los inferiores para que todo esté en orden. El puntaje a calcular es relativo.

Luego defino las proporiciones de cada uno:

Alexa_ar = 0.18
Alexa = 0.12
Google = 0.25
Yahoo = 0.10
Comentarios = 0.1
Posteo = 0.1

Aclaro, hay factores que no muestro aquí porque son parte de mi estrategia personal de cálculo, es decir, no esperen que les muestre el algoritmo completamente :D tampoco suma 1 todo porque estoy todavía tratando de sumar más factores para tener en cuenta. Más variables, mayor precisión, mayor complejidad.

Por ejemplo, ¿cómo le doy un valor a Alexa? así:

$puntos_alexa = ((($max_alexa / $alexa) * 100) / ($max_alexa / $min_alexa)) * $factor_alexa;

Todos mis profesores de análisis y probabilidad y estadística tuvieron un ACV, okey, pero funciona. De esta manera con sólo variar el factor de Alexa puedo cambiar el sentido del ranking.

Como notarán le doy mucha más importancia al de Argentina que al internacional porque yo estoy midiendo para este país, si fuese Brasil, tendrá su propio valor, etc.



Qué significa el valor



Para comenzar, el ranking sólo muestra 200 blogs a la vez, no tengo la capacidad de calcular para todos los blogs del país y muchas veces doy de baja los que "murieron".

Pero es un trabajo artesanal, la razón es simple, si tuviese un team de 10 programadores sería más fácil, pero no es así, para eso cada corrección la hago yo mismo y la comparo con otras formas de medir. Todos los meses doy de alta blogs y cuando el spider está trabajando veo blog por blog para que no exista una discrepancia enorme. Si la hay, entro a ese blog.

De esta manera muchas veces me encontré con un blog muerto, esa era la razón de una caída, por ejemplo.

El CakeRank no incluye, por ejemplo, blogs de noticias ni de medios tradicionales. La espalda de estos distorsiona los valores, no son blogs normales, un blog en La Nación, Perfil o Clarín tiene muchas veces menos tráfico real que la mayoría de los blogs del ranking, pero suelen tener cientos de miles de comentarios violentos que poco hacen a una conversación bloggera.

Tampoco hay una categorización accesible de manera pública, recuerden que es un ranking para uso de Cake Division y obviamente hay partes que no muestro en público porque son decisivas para mi trabajo. Pero sí la idea era hacer público los datos para que a bloggers les sirva para tener un marco de referencia.

El puntaje del CakeRank es tan sólo la suma de estos distintos factores, es un valor individual, no mide quien está arriba de quien si no cuanto vale para el ranking ese blog en particular. Lo llamo Ranking porque tampoco tenía otra forma de llamarlo, es un análisis sobre cada blog.

A ni vel comercial no importa si tiene 20 o 3 puntos, ambos pueden servir por distintas razones, es un parámetro y así como el PageRank no es la única condición para posicionamiento en Google a nivel comercial hay blogs con un alto CakeRank pero inútiles en el sentido económico. Sea por un target poco vendible o una actitud hacia la comercialización totalmente negativa.

A futuro



Durante el 2012 quiero sumarle otras funcionalidades pero para hacerlo primero tengo que automatizar el método y mejorarlo. Ninguno de los medios que utilizo para medir permite un acceso mediante una API de sus valores, hay que inventarlas, acceder vía web, parsear, pelearse con los cambios, evitar ser bloqueado, etc.

Mi idea es brindarle la posibilidad a todos de sumar sus blogs al ranking de forma sencilla, siempre serán revisados por nosotros antes obviamente.

También quiero sumar mediciones sobre herramientas sociales, Facebook y Twitter primero, tienen API, es consultable. La intención no es hacer un "klout" que ya me enteré que algunas agencias utilizan para ponerle precio a un twitt, por ejemplo. No, el CakeRank no es el factor por el que deberías multiplicar el valor de tu blog, para nada, es tu parámetro de si vas bien o vas mal como para vender publicidad en él.

El cuanto es todo un tema de discusión para otro post, este es tan sólo del ranking, pero es un tema que requiere distintos análisis y en un mercado tan poco estandarizado y con tantos blogs que "no se animan" a participar del mercado, salvo ocasionalmente, sigue siendo difícil establecer una forma.

Y esa es la idea de Cake Division, darle en parte una forma pero respetando la idea que tiene cada blogger de su propio espacio. Somos medios, medios chiquitos, pero medios en fin.

Estadísticas



244 de 307 totales (63 inactivos)

Puntajes integrados:



Nótese la caída en este mes producto de eliminar inactivos además del cambio de algoritmo de Yahoo, y dos picos en el pasado de distintos ajustes al algoritmo, en términos generales se mantuvo estable y el crecimiento se debe a la suma de nuevos blogs al ranking.

Esos 63 eliminados representaban el 50% del puntaje, muchos de esos blogs mantienen al día de hoy buen contenido pero no han recibido actualización en al menos seis meses.

Para el 2012 la idea es eliminarlos completamente y reemplazarlos con unos 50 blogs nuevos, para ello no duden en pasarme sus urls Guiño

Blog mejor posicionado en Alexa Internacional: Puntogeek, con el lugar 12656° es uno de los sitios más visitados del mundo sin dudas, estar entre los primeros veinte mil puede parecer poco pero estamos hablando de un site donde Juan Guis se rompe el lomo hace rato y lo ha llevado a lo más alto. Seguido por CodigoGeek y Kabytes.

Blog mejor posicionado en Alexa Argentina: Argentina Auto Blog, está dentro de los 500° más leídos en este mes, seguido cerquita por Juan Guis con 506° y con 508° este mismo blog, Fabio.com.ar, he sabido estar más arriba también, pero esto varía de mes a mes Guiño

Blog con más inbound links en Google: Uberbin con 580 seguido de Blog de Viajes con 314 y Visualmente con 299. Esto varía bastante dependiendo de Google y además hay una gran ventaja por parte de periodistas en este segmento, han sabido robar links a partir de su relación con colegas y otros medios.

Luego podemos decir que este blog está en el TOP 10 de frecuencia de comentarios junto a Que la Pases Lindo o Autoblog, y que ArtePolitica es una máquina de tirar updates

Se aceptan sugerencias de blogs! siempre y cuando esten activos y tengan algo de público :P

Otros posts que podrían llegar a gustarte...

Comentarios

  • Acá hay trampa el mejor blog de la argentina es uno de mi pequeño pony y el de dalgrev ese borracho riojano de la montaña que asesina conejos.

    • Responder
    • Citar
    • Comentado:
  • Luciano    

    Si es automático no podes poner un script para que podamos consultar el CR de cualquier sitio?

    Saludos

    • Responder
    • Citar
    • Comentado:
  • Fabio    

    Luciano dijo:

    Si es automático no podes poner un script para que podamos consultar el CR de cualquier sitio?

    Saludos

    tipo una api para consultar de afuera y que te devuelva un xml con los datos? si. se puede hacer facilmente

    • Responder
    • Citar
    • Comentado:
  • Luciano    

    Fabio dijo:

    Luciano dijo:
    Si es automático no podes poner un script para que podamos consultar el CR de cualquier sitio?

    Saludos

    tipo una api para consultar de afuera y que te devuelva un xml con los datos? si. se puede hacer facilmente


    Yo en realidad estaba pensando nada más un formulario, por curiosidad para saber el rank de mi sitio, pero supongo que de paso haces la api y listo

    • Responder
    • Citar
    • Comentado:
  • bubu    

    muy interesante….

    • Responder
    • Citar
    • Comentado:
  • Como sea, yo amo el ranking de Cake Division que siempre me pone entre los top 50 :D

    • Responder
    • Citar
    • Comentado:
  • Objetivos para el 2012, intentar que Inova mejor en el Cake Rank :3

    • Responder
    • Citar
    • Comentado:
  • Ale Sarco    

    Hiciste un cambio importante en el algoritmo en los últimos dos meses?
    Porque el blog de mi esposa cayó estrepitosamente, de 8.60 a 0.56, y como 80 lugares, cuando en realidad viene creciendo continuamente en cuanto a tráfico y comentarios: http://cakedivision.com/labs/cakerank/verblog.php?id_blog=240

    De paso, si querés agregar el mío, lo empecé hace poco pero viene creciendo bien: http://avolarporelmundo.com

    • Responder
    • Citar
    • Comentado:
  • Luciano    

    Y Blogalaxia? Tiene un ranking de blogs de cada país si mal no recuerdo.

    Saludos

    • Responder
    • Citar
    • Comentado:
  • Swicher    

    Fabio, si te interesa incluir otros sitios de mediciones dentro del algoritmo de Cake Rank, también te puede interesar Compete ( http://www.compete.com ), Quantcast ( http://www.quantcast.com ), Netcraft ( http://news.netcraft.com ), WooRank ( http://www.woorank.com/es ) y quizás Google Trends ( http://trends.google.com ) te pueda ser sutil (aunque tenes que saber que algunos de los mismos no tienen indexados ciertos sitios o no tienen la información necesaria sobre estos).

    Fabio (en el articulo) dijo:



    Para comenzar, el ranking sólo muestra 200 blogs a la vez, no tengo la capacidad de calcular para todos los blogs del país y muchas veces doy de baja los que "murieron".

    Pero es un trabajo artesanal, la razón es simple, si tuviese un team de 10 programadores sería más fácil, pero no es así, para eso cada corrección la hago yo mismo y la comparo con otras formas de medir. Todos los meses doy de alta blogs y cuando el spider está trabajando veo blog por blog para que no exista una discrepancia enorme. Si la hay, entro a ese blog.



    Durante el 2012 quiero sumarle otras funcionalidades pero para hacerlo primero tengo que automatizar el método y mejorarlo. Ninguno de los medios que utilizo para medir permite un acceso mediante una API de sus valores, hay que inventarlas, acceder vía web, parsear, pelearse con los cambios, evitar ser bloqueado, etc.


    Quizás yo no sea el mas indicado para dar recomendaciones y/o sugerencias ya que no programo en PHP (aun) pero en lo que respecta a sitios muertos, primero hay que definir que se entiende por sitios muertos:
    * Si te referís a esos sitios en los que al entrar te aparece un error 404 (ya sea por que el dominio expiro, porque el dueño lo cerro, etc.) pues eso se arregla con una petición HTTP al mismo y ver que te devuelve o si se genera una excepción (por ejemplo, en Python devuelve "urllib2.HTTPError: HTTP Error 404: Not Found" si es una pagina no encontrada o "urllib2.URLError: <urlopen error getaddrinfo failed>" si el sitio esta caído).
    * Ahora, si te referís a blogs en donde el autor no ha publicado nada en semanas, meses o años, entonces la cosa cambia radicalmente ya que en este caso necesitas saber la fecha de lo ultimo que se hizo en el sitio, y algunas maneras para obtenerla serian:
    ** Hacer una petición HTTP al sitio y revisar el parámetro "Last-Modified".
    ** Si lo anterior no funciona (o si con eso solo te devuelve la fecha y hora actuales) entonces queda revisar el RSS de los post (y/o el de comentarios) y extraer la fecha de lo ultimo que se publico.
    ** Pero si el sitio no tiene RSS (o si el mismo no resulta ser una opción confiable) entonces solo quedaría extraer la fecha del ultimo post publicado parseando el HTML del blog.
    Luego de averiguar esa fecha, entonces solo seria cuestión de "normalizarla" (o sea, meterla dentro de un objeto de fecha) y hacer algún calculo para determinar si paso el tiempo mínimo necesario para que el sitio se lo considere como muerto/inactivo. Para que se entienda mejor dejo un ejemplo (en Python):
    Digamos que queres evitar que el Cake Rank siga analizando sitios que hayan estado inactivos por 6 meses o mas, para hacerlo seria:
    import datetime
    ultima_actividad = datetime.date(2011, 3, 27)
    plazo = ultima_actividad + datetime.timedelta(days=180)
    hoy = datetime.date.today()
    if plazo <= hoy: desactivar sitio
    Supongo que para PHP debe existir algo parecido al ejemplo Guiño.

    Quizás ya lo conocías, pero en lo que respecta al parseo de HTML (ya sea en los sitios de referencia que usas para obtener los parámetros para tus mediciones y/o para extraer la fecha de lo ultimo que se hizo en un blog) te puede servir el PHP Simple HTML DOM Parser (lo encontras en http://simplehtmldom.sourceforge.net/ y en http://www.proyecto-f.net/2010/03/parseando-html-con-php-ejemplo-real/ tenes un ejemplo de uso real).

    Para ir terminando, desde 2008 hasta la fecha he visitado 15124 sitios (según cifras de mi historial de Firefox obtenidas con algo de código extra que me arme) de todo tipo y contenido por lo que si te interesa, te puedo enviar un listado "depurado" de todos esos sitios para que los incluyas en el analizador de Cake Rank. Lo del listado depurado seria por que para empezar tengo que hacer dos "cribados" a la lista en bruto:
    * El primero consiste en eliminar de la lista (de forma automática) aquellos sitios en los que se detecten el error 404 (o similar) al entrar.
    * El segundo seria un cribado manual (y por ende mas personalizado) en base a la actividad de esos sitios y a tus respuestas a las siguientes preguntas:
    ** ¿Tu ranking admite solamente blogs o también se pueden incluir otro tipo de sitios (como foros, wikis, sitios de vídeo, sitios de la web 1.0 que tengan cuentas en redes sociales y cosas así)?
    ** ¿Los sitios tienen que ser si o si de Argentina o pueden ser de cualquier región e idioma?
    ** En caso de que solo permitas blogs argentinos, ¿que hay de aquellos sitios en donde no se sabe a que país pertenece pero que tiene redactores de varios países (incluyendo argentinos)?, ¿también entrarían en el ranking o quedan fuera?

    Y lo que respondas determinara que tan acotada sera la lista (la cual "estará cuando este", por cierto :D).

    P.S.:
    Fabio (en el articulo) dijo:

    Esos 63 eliminados representaban el 50% del puntaje, muchos de esos blogs mantienen al día de hoy buen contenido pero no han recibido actualización en al menos seis meses.

    Para el 2012 la idea es eliminarlos completamente y reemplazarlos con unos 50 blogs nuevos, para ello no duden en pasarme sus urls

    ¿Y no seria mas provechoso mantener esos sitios desactivados en vez de eliminarlos completamente (así si algún día alguno de ellos vuelve a tener movimiento, entonces solo bastaría con modificar un parámetro de la base de datos, y sino siempre podes hacer alguna estadística de sitios inactivos :lol?

    • Responder
    • Citar
    • Comentado:

Deje su comentario:

Tranquilo, su email nunca será revelado.
La gente de bien tiene URL, no se olvide del http/https
Para evitar bots, si se tardó mucho en leer la nota seguramente no sirva y tenga que intentar dos veces

Negrita Cursiva Imagen Enlace


comentarios ofensivos o que no hagan al enriquecimiento del post serán borrados/editados por el administrador