hay olor a servidor derretido!
¿podras sacar cuantas palabras únicas usas?
El blog en números
Rara vez hablo de los números de este blog, se que algunos lo tienen como una actividad mensual casi, pero aquí mucho valor no le he dado salvo por mi gusto por los promedios y estadísticas y jugar cada tanto con el MySQL.
Más allá del script de contar palabras hoy me armé rápido de otro en PHP para poder calcularlas más rápido y sumar año tras año cuanto venía escribiendo, al tener los datos ¿que mejor que compartirlos?
Muchos se quejan de lo que cuesta escribir, quería ver entonces cómo escribo yo, hago estos números a partir de 4661 posts y 124347 comentarios que tenía al momento de exportar los datos, a ver que les parece...
Primero que nada ¿aumentó la cantidad de palabras que uso para escribir? hace poco varios se me quejaron de mis posts kilométricos, otros en cambio los quieren así de enormes, viendo un poco en la historia del blog notamos una tendencia:
Definitivamente estoy escribiendo una mayor cantidad de palabras, eso que la mayoría no sabe que escribo con pocos dedos en 9 años casi 10 escribí un total de 1806037 palabras sin contar todo el código HTML que lleva cada post. Así es, no hay ayuditas acá, en el Postrev hay que escribir todo, desde cargar una imagen hasta un enlace, todo va con HTML.
Pero sacando el código, ya van casi dos millones de palabras. Pero ¿estoy escribiendo mucho? pues bien, tuve años peores:
El 2003 fue un año lleno de posts, medio que me había ido al carajo pero según recuerdo me la pasaba posteando cualquier cosa que veía, la madurez va llegando con los años y se nota en la tendencia marcada desde el 2007 en adelante. ¿por qué el bajón entre 2004 y 2006? pues bien, cambios de laburo y empezar a trabajar en lugares que NO tenían Internet afectaron un poco mi rendimiento, pero no por eso arrugué 2007 estaba en Ternium y ahí no nos dejaban conectarnos a la web, sin embargo posteé como loco. Luego cambié de laburo y mejoré un poco la calidad.
Y esto se nota en las palabras por post, nótese como 2005-2006 eran posts enormes, la razón es la misma que les cité, malditos jefes hijos de puta de Siderar/Ternium/Techint y su política anti-internet, al final escribía un montón igual, sin interrupciones salían posts enormes, total ¿quien iba a pensar que eso que escribía no era trabajo? ¡eran mis post! además de la cantidad enorme de SQL que tuve que escribir en esos días, horrible.
Pero no todo es lo que yo escribo, la participación de ustedes varió mucho también, he tenido épocas donde teníamos visitantes que por cada post dejaban hasta 20 comentarios y no es que decían demasiado, eran adolescentes. Esas etapas fueron quedando atrás y dieron lugar a usuarios más serios y maduros.
Aquí los comentarios en los posts año por año.
Pero esto no implica exactamente cuando se hicieron los posts si no en que posts de que años estan hechos, los comentarios por año son los siguientes:
Parecido pero no igual, 2005 tiene un pico de comentarios pero en el gráfico anterior veíamos como posts de 2004 se llenaron de comentarios en otros años, cosa que pasó en posts como el del 25 de Mayo y otros.
El promedio? se fue estabilizando en una cifra apenas mayor a 22 por post:
Y creo que es una excelente cifra, a partir de 25-30 comentarios la discusión se diluye y pocas veces es trascendente, ya todos dijeron algo interesante y a partir de 30 nadie lee lo que otros dijeron, hasta 60 me parece interesante, ya un post con 100-200 comentarios es ridículo.
Pues bien, al día de hoy esos son los números.
Otros posts que podrían llegar a gustarte...
Comentarios
-
j0an dijo:
hay olor a servidor derretido!
¿podras sacar cuantas palabras únicas usas?
vos decís que segmente por cada palabra cuantas veces la repito? Y U NO kill my server with a shotgun? :P
creo que puedo, al fin y al cabo las cuentas las saqué en PHP que es mucho más eficiente para esto :P debería armar un script que tire las palabras en un array y contabilice repetidos, estimo que empezará rápido y terminará en tres o cuatro días :D jajaja
-
j0an dijo:
hay olor a servidor derretido!
¿podras sacar cuantas palabras únicas usas?
acá te paso un top 200:
de => 80685
que => 60674
la => 44848
y => 41313
el => 40850
en => 39769
a => 30625
un => 26463
no => 26236
es => 23178
los => 22139
se => 19027
para => 17387
una => 15903
por => 15587
con => 14946
lo => 13827
pero => 11752
del => 11646
las => 10919
como => 10415
más => 9962
si => 9374
al => 8228
me => 7927
o => 7096
su => 6259
este => 4737
todo => 4668
ya => 4356
hay => 4283
le => 3899
son => 3749
así => 3491
está => 3414
algo => 3314
esta => 3207
te => 3139
sus => 3105
uno => 3099
porque => 3088
muy => 3055
eso => 2981
bien => 2960
ser => 2959
esto => 2957
ni => 2899
sólo => 2827
todos => 2818
hasta => 2816
sin => 2810
tiene => 2801
mi => 2798
cuando => 2739
nos => 2662
hace => 2652
vez => 2645
era => 2624
fue => 2619
les => 2594
puede => 2446
hacer => 2383
donde => 2347
ver => 2318
d => 2308
poco => 2301
otro => 2277
años => 2257
desde => 2238
nada => 2236
tan => 2222
mucho => 2191
también => 2037
ese => 1907
día => 1899
dos => 1846
yo => 1837
cada => 1826
video => 1807
cosas => 1779
sobre => 1753
gente => 1733
ahora => 1702
menos => 1683
mismo => 1672
tienen => 1633
aquí => 1622
otra => 1595
mejor => 1579
siempre => 1547
esa => 1547
p => 1537
entre => 1529
tener => 1470
tiempo => 1437
muchos => 1412
bueno => 1401
decir => 1391
unos => 1374
luego => 1366
ahí => 1366
tanto => 1363
mundo => 1347
sea => 1337
otros => 1334
parte => 1327
the => 1287
estos => 1274
forma => 1262
quien => 1254
pueden => 1245
blog => 1238
algunos => 1231
había => 1214
hoy => 1208
caso => 1196
nunca => 1184
tipo => 1162
poder => 1154
va => 1146
cualquier => 1121
qué => 1117
país => 1116
problema => 1110
ha => 1108
nadie => 1089
aunque => 1077
parece => 1074
tal => 1052
post => 1049
tu => 1044
todavía => 1019
tema => 1010
tengo => 1000
sistema => 996
antes => 993
creo => 984
web => 980
gran => 974
idea => 972
ellos => 972
vida => 969
hecho => 965
mal => 939
fotos => 931
estaba => 927
medio => 918
casi => 916
contra => 913
fin => 901
esos => 898
ejemplo => 880
cuenta => 880
cual => 880
claro => 879
sitio => 875
año => 868
links => 867
cosa => 865
película => 862
días => 858
toda => 847
historia => 833
lugar => 829
han => 828
nuevo => 820
después => 820
todas => 816
momento => 807
algún => 805
mas => 802
están => 800
imagenes => 798
estas => 797
van => 787
muchas => 784
varios => 775
falta => 774
linux => 772
da => 771
general => 769
alguna => 766
nota => 766
nuestro => 765
e => 763
veces => 752
durante => 746
hacen => 743
trabajo => 743
cómo => 741
primer => 738
solo => 734
bastante => 733
software => 717
alguien => 716
lado => 713
sí => 712
tenemos => 706
humor => 702
semana => 701
-
Si PostRev guarda el user-agent para cada comentario (como hace WordPress), estaría bueno ver los navegadores y sistemas operativos usados por los comentaristas. Me enfoco en los comentaristas porque son los que participan, mientras que los visitantes que no comentan son gente que muchas veces entran por Google buscando algo, y sea que lo encuentren o no, desaparecen.
-
No tengo idea de si se puede, pero tal vez te interesaría saber cuántas palabras diferentes has estado usando por cantidad de palabras. Te daría una idea de cómo viene evolucionando tu capacidad de expresión. Al menos en el léxico.
También podrías hacerlo con los comentarios y usar el resultado para "evaluar" la calidad de tus lectores.
-
ICeman dijo:
Si PostRev guarda el user-agent para cada comentario (como hace WordPress), estaría bueno ver los navegadores y sistemas operativos usados por los comentaristas. Me enfoco en los comentaristas porque son los que participan, mientras que los visitantes que no comentan son gente que muchas veces entran por Google buscando algo, y sea que lo encuentren o no, desaparecen.
es más complicado porque necesitaría un script ya hecho de PHP que los filtre correctamente, así como está cada user agent hay miles y miles de variantes chiquititas
-
leonardod dijo:
No tengo idea de si se puede, pero tal vez te interesaría saber cuántas palabras diferentes has estado usando por cantidad de palabras. Te daría una idea de cómo viene evolucionando tu capacidad de expresión. Al menos en el léxico.
También podrías hacerlo con los comentarios y usar el resultado para "evaluar" la calidad de tus lectores.
para un trabajo tan fino necesitaría un script que tenga aplicada la teoría al respecto, poder se puede, ahí puse un top 200 de palabras usadas y cuantas veces cada una, por ende el desglose por palabra y por post también podría hacerlo aunque sea grande al dope :P
el tema es que no se cómo analizarlos
-
ICeman dijo:
Si PostRev guarda el user-agent para cada comentario (como hace WordPress), estaría bueno ver los navegadores y sistemas operativos usados por los comentaristas. Me enfoco en los comentaristas porque son los que participan, mientras que los visitantes que no comentan son gente que muchas veces entran por Google buscando algo, y sea que lo encuentren o no, desaparecen.
Fabio:
Por favor, el día que exista la tecnología para saber qué páginas porno tienen abiertas los que están viendo tu blog avisame ¿Si?
-
Fabio dijo:
leonardod dijo:
No tengo idea de si se puede, pero tal vez te interesaría saber cuántas palabras diferentes has estado usando por cantidad de palabras. Te daría una idea de cómo viene evolucionando tu capacidad de expresión. Al menos en el léxico.
También podrías hacerlo con los comentarios y usar el resultado para "evaluar" la calidad de tus lectores.
para un trabajo tan fino necesitaría un script que tenga aplicada la teoría al respecto, poder se puede, ahí puse un top 200 de palabras usadas y cuantas veces cada una, por ende el desglose por palabra y por post también podría hacerlo aunque sea grande al dope :P
el tema es que no se cómo analizarlos
Analizarlo no es difícil. Si si tenes 2,5 millones de palabras en tus post podés dividirlas en 10 bloques de 250.000 palabras. cada bloque es mas o menos un año. La cantidad de palabras diferentes que usas en cada bloque te va dar una idea de que tan "colorido" es tu vocabulario y comparando los diez bloques te da una idea de evolución.
Es posible que tengas años de posts mas elementales (2008) que te alteren la realidad. Pero en realidad es poca la variación de tus promedios, no parece que tengas un año entero de post : "vean esto, está bueno". Siempre estás hablando de cosas de alguna complejidad, asi que es posible que la variedad en tu lenguaje en el blog sea representativa de que tan bestia, o no, seas.
-
Fabio dijo:
j0an dijo:
hay olor a servidor derretido!
¿podras sacar cuantas palabras únicas usas?
acá te paso un top 200:
de => 80685
que => 60674
la => 44848
y => 41313
..................
alguien => 716
lado => 713
sí => 712
tenemos => 706
humor => 702
semana => 701
Ni una sola puteada en el top 200??
Debo decir que estoy bastante desilusionado...
:|
-
Fabio dijo:
es más complicado porque necesitaría un script ya hecho de PHP que los filtre correctamente, así como está cada user agent hay miles y miles de variantes chiquititas
¿Un script como éste? http://www.lynkit.net/blog/php-useragent-browser-os-detection-script/
-
ICeman dijo:
Fabio dijo:
es más complicado porque necesitaría un script ya hecho de PHP que los filtre correctamente, así como está cada user agent hay miles y miles de variantes chiquititas
¿Un script como éste? http://www.lynkit.net/blog/php-useragent-browser-os-detection-script/
eso eso
matixslp dijo:
Posteate un grafico con los post por mes, seguro que en enero disminuye! ;)
ese dato ya lo tenés disponible en el TOP 20 http://www.fabio.com.ar/top20.php y no, no es una tendencia para nada, hasta algunos eneros-febreros escribo más que ahora ;)
-
ya que están pidiendo cosas, a mí me interesaría saber "cantidad de post... sin contar los LDV y las Ruletas Rusas"
también podrías buscar los "Top comentaristas x año" así verías gente que se fue, que apareció, gente que está desde la primera hora, etc
-
N3RI dijo:
ya que están pidiendo cosas, a mí me interesaría saber "cantidad de post... sin contar los LDV y las Ruletas Rusas"
también podrías buscar los "Top comentaristas x año" así verías gente que se fue, que apareció, gente que está desde la primera hora, etc
los LDV y las ruletas son apenas dos por semana, 8 por mes, no llega al 20% del contenido y por lo general son los posts menos comentados en promedio, alguna que otra vez una ruleta zarpada, pero a veces no superan los 10 comentarios.
los TOP comentaristas por año tranquilamente podría armarlo, varía bastante.
-
Honestamente imaginaba "mierda" o "garcha" en el top, son de las que mas usás jajaja.
Ya que todos piden... podés poner los fuentes? solo para ver un poco de code porn :)
Saludos,
El Pibe de Sistemas
-
El Pibe de Sistemas dijo:
Honestamente imaginaba "mierda" o "garcha" en el top, son de las que mas usás jajaja.
Ya que todos piden... podés poner los fuentes? solo para ver un poco de code porn :)
Saludos,
El Pibe de Sistemas
eso es de nerd eh!
acá tenés la función de conteo de palabras y cantidad de posts http://pastebin.com/PfgPFRiE te devuelve dos arrays y les hice un print al final
acá tenés la función de conteo de uso de palabras y repeticiones http://pastebin.com/5prWiNpV
espero que te sirvan ;)
-
Una pregunta: si pongo "taringa site:fabio.com.ar" da como 10000 resultados pero en tu lista no figura. Eso es porque la selección y cantidad de palabras está basada en palabras de uso comun y no de nombres especiales? Vendría a ser una pregunta parecida a la que te hicieron antes respecto a palabras tipo "bol**o". Está interesante la estadística.
Saludos
-
elindio dijo:
Una pregunta: si pongo "taringa site:fabio.com.ar" da como 10000 resultados pero en tu lista no figura. Eso es porque la selección y cantidad de palabras está basada en palabras de uso comun y no de nombres especiales? Vendría a ser una pregunta parecida a la que te hicieron antes respecto a palabras tipo "bol**o". Está interesante la estadística.
Saludos
es que yo sólo cuento cuando YO posteo algo, no conté en los comentarios, más adelante puedo hacer un poco de stats de comentarios para ver que me da ;)
-
Fabio, disculpá que sea aguafiestas, pero en esas stats diferenciaste cuando el post lo hace otra persona?
Igual, son unos numeros enoooormes!
-
hay algun mensaje encriptado en la lista del top de palabras??? Entre las mini frases que encontre fueron:
"tienen aquí otra mejor" "aunque parece tal post " "falta linux"
"bastante software" "sí tenemos humor "
tiene algo que ver esto con el fin del mundo? :D
-
Fabio dijo:
eso es de nerd eh!
acá tenés la función de conteo de palabras y cantidad de posts http://pastebin.com/PfgPFRiE te devuelve dos arrays y les hice un print al final
acá tenés la función de conteo de uso de palabras y repeticiones http://pastebin.com/5prWiNpV
espero que te sirvan ;)
Gracias, sos muy prolijo para codear! hace poco estoy metido en PHP y ver código de gente que sabe ayuda mucho. Algún día bajaré tu PostRev y (pese a las decenas de chanchadas que seguro tiene) aprenderé un montón. El open source es el mejor amigo de la educación autodidacta :)
chulitita dijo:
hay algun mensaje encriptado en la lista del top de palabras??? Entre las mini frases que encontre fueron:
"tienen aquí otra mejor" "aunque parece tal post " "falta linux"
"bastante software" "sí tenemos humor "
tiene algo que ver esto con el fin del mundo? :D
Ah, la limaste un poco jajajajaja. Fabio, el nuevo Nostradamus.
-
Si entiendo bien el 2005 fue tu año. Fue de menor cantidad de post, pero de mayor extensión. O sea post mas largos, mas comentarios ese año. Además la relación cantidad de post y comentarios es inversa. Menos posts, pero más comentarios.
Interesantes los datos.
-
pabloalem dijo:
Fabio, disculpá que sea aguafiestas, pero en esas stats diferenciaste cuando el post lo hace otra persona?
Igual, son unos numeros enoooormes!
obviamente no, son stats del blog, no personales, más allá de eso durante el último año el 99% de los posts los hice yo salvo un par de danbat y latorro y creo que uno de cattel.
Claudio J. Chiabai dijo:
Si entiendo bien el 2005 fue tu año. Fue de menor cantidad de post, pero de mayor extensión. O sea post mas largos, mas comentarios ese año. Además la relación cantidad de post y comentarios es inversa. Menos posts, pero más comentarios.
Interesantes los datos.
si, pero no lo leas lineal. Durante 2005 Facebook no existía , Twitter tampoco y era el boom de los blogs, todos comentaban para "ser parte" de una red social que todavía no existía.
Y eso no es desmerecerlos, pero podés entrar a esos posts y ver de que se habla en los comentarios, a partir del comment 50 se van al carajo siempre :P
Además está el posicionamiento, durante los años restantes siguen recibiendo comentarios, la larga cola.
El Pibe de Sistemas dijo:
Gracias, sos muy prolijo para codear! hace poco estoy metido en PHP y ver código de gente que sabe ayuda mucho. Algún día bajaré tu PostRev y (pese a las decenas de chanchadas que seguro tiene) aprenderé un montón. El open source es el mejor amigo de la educación autodidacta :)
soy bastante desprolijo y complicado para programar, ineficiente sin ninguna duda :P
-
Fabio dijo:
soy bastante desprolijo y complicado para programar, ineficiente sin ninguna duda :P
Si vos sos desprolijo para codear, la gente que labura conmigo, mis profesores y mis amigos son lisa y llanamente unos hijos de puta. Salú, me fui a dormir.
El Pibe de Sistemas
-
¿Y en MB? ¿Cuánto pesa la base?
PD: Conta también las imágenes que cada una vale más que mil palabras :cool:
-
Hola, sólo vengo a decir que de este comentario para abajo
la discusión se diluye y ya nadie va a leer lo que el otro dijo.
-
FranAren dijo:
¿Y en MB? ¿Cuánto pesa la base?
PD: Conta también las imágenes que cada una vale más que mil palabras :cool:
Base + Archivos serán unos 600MB el blog entero
ale dijo:
Hola, sólo vengo a decir que de este comentario para abajo
la discusión se diluye y ya nadie va a leer lo que el otro dijo.
pero yo SI leo todo ;) ojito eh!
-
No se. Yo lo único que se es que me sacaste la lista de páginas de post anteriores al pie de la main y ahora ya no puedo hacer mas los "fabio´s random post" :(
Ahora tengo que meter el nro de page a mano en la barra de direcciones.... >:(
Sí sí de tanto en tanto iba a una página al azar a ver de que se hablaba años atrás ;)
Son muy divertidas sobretodo como te babeas con gadgets en el 2006 que hoy son sinceramente una porquería jajaj a
-
Mmmm... la verdad que es MUY BUENA la idea de EDUQLM de tener un botón RAMDOM. A ver a que post oscuro nos lleva!
-
EDUQLM dijo:
No se. Yo lo único que se es que me sacaste la lista de páginas de post anteriores al pie de la main y ahora ya no puedo hacer mas los "fabio´s random post" :(
Ahora tengo que meter el nro de page a mano en la barra de direcciones.... >:(
Sí sí de tanto en tanto iba a una página al azar a ver de que se hablaba años atrás ;)
Son muy divertidas sobretodo como te babeas con gadgets en el 2006 que hoy son sinceramente una porquería jajaj a
después te armo el random :P