Creando un buscador de blogs

20/01/2026 - 09:00:00 por Fabio Baccaglioni - 1552 - 40 - En Programación

Está Google, está Bing y hasta DuckDuckGo así que crear un buscador nuevo es un total despropósito, aun así quiero hacerlo ¿Por qué? Porque no quiero buscar entre los miles de sitios basura SEO y publicidad, quiero buscar entre los sitios que leo y leería.

Esto significa, autores reales, contenido creado por humanos y no por una AI, contenidos que se preocupan por el lector en vez de los buscadores y el SEO, donde la publicidad no sea lo prioritario sino comunicar cosas, ideas, aunque sean pensamientos varios. Un buscador de blogs.

Seguro ya existe alguno dando vueltas por ahí, pero decidí aprender a hacerlo yo mismo y... tan mal no me fue!

Creando un buscador que funcione

Habiendo aprendido bastante con el buscador dentro de este mismo blog era obvio que el Full Text Search de MySQL no sirve para nada, sólo para lo básico, así que para crear un buscador tenía que apelar a algo más "potente" y eso significaba salir de lo que conocía.

Tengo un servidor relativamente grande para este tipo de proyectos, con mucha RAM y discos rígidos viejos, pero vamos, no hacía falta mucho, no espero tráfico, sino un lugar donde encontrar lo que me interesa y donde algunos pocos puedan entrar si les interesa.

Lo primero que hice fue preguntarle a varios modelos LLM qué infraestructura de software me convenía y todos más o menos concluyeron en lo mismo:

Elastic Search

Como almacenamiento y buscador usar ElasticSearch o cualquiera semejante, si bien puede sonar "overkill" era ideal porque es mejor para realizar las búsquedas e indexar, si bien consume bastante RAM por estar hecho en JAVA es muy eficiente para lo que hace y mil veces más rápido y efectivo que usar MySQL/MariaDB para la tarea.

Así que el almacenamiento del buscador estaría dividido en dos, por un lado lo que se busca en ElasticSearch y por otro lado lo administrativo en una DB normal con MySQL.

Elastic es muy rápido, también sé que es problemático a la hora de escalar y tal vez necesite ayuda para ese entonces, pero por lo pronto prefiero mantener un índice pequeño, no soy una mega corporación.

El Spider

Para llenar el índice del buscador iba a necesitar un proceso bien hecho, en realidad más de uno, pero no en PHP que suele cortar la ejecución, necesitaba algo más resistente y sólido, Python es lo ideal.

En este sentido creé tres scripts, uno para validar sitios, otro para escanear el feed RSS y otro distinto para explorar los Sitemaps de cada sitio, el de feeds es ideal para lo inmediato y se ejecutaría más seguido, el del sitemap una vez a la semana en tandas de 1000 artículos para guardar lo histórico de cada sitio poniéndoles un límite, es decir, no puedo almacenarlo todo así que cada sitio tiene un límite máximo salvo que el autor me pida que ingrese todo (eso lo veré más adelante), el único sitio que puedo indexar completo es el mío propio, claro.

Logré hacerlo funcionar en mi servidor así que está indexando poco a poco lo que le indico y lo hace con mucha paciencia, un link por vez, nada de bombardear servidores.

Igualmente he tenido problemas con algunos sitios, muchos no tienen sitemap, así que sólo puedo obtener el feed de los últimos posteos (no es un spider que recorre todo el sitio, sólo los links que aporten sus feeds y sitemap) y en algunos casos hay bloqueos para evitar spiders así que no se puede obtener nada de nada 🤷 por ahora vengo bien con unos 50 sitios.

La interfaz

Obviamente divivida en dos partes, admin y pública, la pública es fácil porque es un buscador, no tiene muchos misterios.

Le puse sí la posibilidad de seleccionar entre inglés y español y que filtre por fecha los contenidos, algo que uso mucho en Google.

Tiene, además, varias opciones para condimentar la búsqueda como usualmente debe tener todo buscador.

Además le puse un menú para sugerir sitios, por si me quieren pasar alguno y nada más.

Por otra parte el admin, donde administro el sitio y disparo escaneos, los mismos los hice evitando el uso de exec, simplemente dejan un aviso al spider y cada minuto se analiza si hay un pedido nuevo.

Por lo pronto no tiene cosas muy complejas y lo quiero mantener simple en ese sentido.

La interfaz está toda hecha en PHP/MySQL separada del índice de Elastic y del spider en Python, así que sí, parece un mix incompatible, pero quise usar la herramienta adecuada para cada actividad y es lo correcto.

Qué indexar

Aquí el gran tema ¿Qué va a indexar en un buscador sin usuarios? Pues bien, es un buscador para nardos como nosotros.

Hace mucho tiempo que no encuentro nada en un buscador tradicional, los resultados o son patrocinados o generados por AI, se prioriza el SEO y no el contenido y no hay nada curado: todo entra y lo interesante desaparece.

Por eso aquí decido YO qué contenido entra, primero cargué unos 20 sitios que tengo en mis bookmarks, pero quiero ir sumando más. No quiero sitios de noticias que postean 50 cosas al día, quiero contenido que valga la pena encontrar.

La idea es mostrar en la portada del buscador un feed con lo último indexado ordenado por fecha, como un lector de feeds pero de todos los sitios que son escaneados.

Desde ya que algún autor puede negarse, lo bueno es que con sólo pedírmelo lo borro, nadie está obligado, no soy como los otros buscadores que se cagan en lo que vos querés, jeje.

También puede que alguien quiera que sume su blog hecho 100% con AI de notas SEO friendly y lo mande dulcemente a cagar: ya existe Google para eso, no rompan.

¿Y si estoy equivocado y entra uno trucho? Me avisan, que soy bastante contactable, che!

Desde ya que no es un proyecto comercial, es totalmente experimental y con el fin de encontrar cosas que valgan la pena leer de gente más interesante que bots, cosas de humanos para humanos.

¿Qué sitios me sugieren? Déjenme sus listitas en los comentarios así los voy indexando, sólo sitios de autores independientes, nada de empresas que viven de publicidad, ellos ya tienen sus visitas por SEO, no me interesan.

Pueden ingresar al buscador aquí, apenas tiene 46 sitios indexados y unos 20.000 artículos, obviamente el sitio más indexado es el mío porque lo usé de testing 😁, pero si me dan una ayudita puedo aumentar más la cantidad y variedad.

PS: está en inglés, pero ya lo voy a traducir al español también, la interfaz no tiene mucho cariño todavía como para estar usable, falta cachear consultas, ponerle filtros anti spam/anti AI, y todas esas cosas.

Si te gustó esta nota podés...

Categoría: Programación Etiquetas: anti seo blog blogs buscador desarrollo elastic search elasticsearch internet programación python search engine seo sitios web

Escrito por Fabio Baccaglioni

Otros posts que podrían llegar a gustarte...

Búsqueda precisa en ElasticSearch

Cuando Internet se llenó de artículos SEO+AI y terminaron de suicidarse los blogs

Una app para el blog

23 años del blog

La Comunidad - Más funciones, mejor funcionamiento, más usable

Cómo programar una AI para tu sitio en PHP

Comentarios

1

Ricardo Thalhuen Moraga Cortez 20/01/2026 - 09:39:22

No olvides agregarlo a la sección sitios del blog y ponele algún nombre al proyecto 😃
Ahora voy a poder volver al habito de leer blogs, me quedó una lista vieja de blogs desactualizados hace más de 10 años.

2

Hugo 20/01/2026 - 09:42:28

Genial el proyecto!!

Unos pocos aportes
https://culturizando.com/
https://chequeado.com/
https://historiasdelahistoria.com/
https://lavozdelmuro.net/
https://cnho.wordpress.com/
https://lamentiraestaahifuera.com/
https://geeksroom.com/
https://www.elblogsalmon.com/

3

ufn 20/01/2026 - 10:33:39

Proyecto interesante, mi sitio no es nada del otro mundo, no lo actualizo hace tiempo, no soy experto en nada pero siguiendo tutoriales aprendí a instalar LAMP, a instalar Wordpress, a comprar un dominio, lo tuve alojado en mi casa, ahora también aprendí a usar un hosting de pago...aprendiendo. Me gusta hacer rendir lo que tengo, que son computadoras viejas, así que tengo algunos artículos sobre Puppy Linux. Así que aporto mi sitio:
https://unfrionegro.net
Tu blog es uno de los pocos que van quedando, y está muy bueno.
Saludos

4
En respuesta a 3

Fabio Baccaglioni 20/01/2026 - 10:34:16

lo sumo, y animate a postear más!

5

Drk0027 20/01/2026 - 10:39:05

Uh, se ve bueno y con un gran trabajo detrás. Ya estuve echándole un ojo y la mayoría de los blogs ya los sigo, pero los resultados bastante precisos.
Tengo una duda. Si sigue los feeds RSS, eso significa que se atascará en los que solo permiten el excerpt y los que solo generan el de los últimos 10 post? o se basa en el sitemap para hacer un escaneo completo del sitio?

Te dejo un blog que tal vez ya sigas, pero es mi favorito de probablemente decadas XD
https://www.teknoplof.com

6

Mariano 20/01/2026 - 10:40:02

Muy buena iniciativa y el detalle del proceso creativo.
Paso el nuestro para sumarlo:
https://managementestrategico.blogspot.com/.
Gracias!

7

babblo 20/01/2026 - 10:56:24

Un LDV pero con esteroides? Me gusta!

11
En respuesta a 7

Fabio Baccaglioni 20/01/2026 - 11:03:15

algo así, pero no, LDV es para compartir uno u otro link, esto es un buscador que toma TODO lo que postean esos sitios

8

babblo 20/01/2026 - 10:58:02

Emmmm dejaste el user/pass por defecto en el admin!?

9
En respuesta a 8

Fabio Baccaglioni 20/01/2026 - 11:00:37

si, je

10

Tulio Serpio 20/01/2026 - 11:01:58

Busco cualquier cosa y sale primero fabio.com.ar.... Estás copiando a las grandes corporaciones!!!!!

por algo se empieza, supongo

13
En respuesta a 10

Fabio Baccaglioni 20/01/2026 - 11:10:51

jajaj buscá con comillas y te va a aparecer algo más preciso, es un buscador no tan inteligente, pero podés customizar la búsqueda. Tené en cuenta que mi blog tiene 9000 posts, son la mitad de lo que he indexado!

34
En respuesta a 13

Andres 25/01/2026 - 00:14:35

La famosa fabiósfera

12

Osvaldo 20/01/2026 - 11:07:49

Grande Fabio!
Un fenómeno!
Gracias

14

Germán 20/01/2026 - 11:15:08

https://viajarleyendo451.blogspot.com/
https://www.hugozapata.com.ar/
https://www.sirchandler.com.ar/

Saludos!

15

Fede 20/01/2026 - 11:18:48

¡Currazo!

Muchas gracias.

16

Marco Antonio Scevola 20/01/2026 - 11:27:12

Maravilloso!

Justo venia la comunidad a hacer una pregunta mucho mas puntual y me encontré con el post. Gracias!

17

Damian Guerrero 20/01/2026 - 11:38:56

Excelente, hace años buscaba algo así, muchísimas gracias por tremendo laburo!

18

Fernando 20/01/2026 - 11:40:12

Interesante, desde la muerte de Google Reader, un poco que abandone los RSS y por ende los blogs. Voy a revisar para ver si tengo alguno que aún siga funcionando y este interesante.

Un detalle, en el admin te quedó "Default credentials: admin / admin123", obviamente lo probé y no funciona.

19
En respuesta a 18

Fabio Baccaglioni 20/01/2026 - 11:40:37

si, si, ya lo cambié

20

LeoArco 20/01/2026 - 16:18:43

Buenísimo. En el post pasado un usuario puso en comentarios una url que chequea post reales, mejor dicho, va actualizando los comentarios de blogs hechos por Humanos. Lo estuve chusmeando y está bueno, podes sacar algo de material de ahí: https://blogblog.es

21
En respuesta a 20

Fabio Baccaglioni 20/01/2026 - 17:05:41

si, tomé algunos blogs de ahí como referencia cuando estaba desarrollando, mi criterio es parecido aunque no sólo lector de RSS sino buscador completo, le escribí el otro día por si estaba interesado

22

diego 20/01/2026 - 19:11:57

blog nuevo sobre tecnología retro. te va a gustar:
https://retrotechycafe.wordpress.com/

23
En respuesta a 22

Fabio Baccaglioni 20/01/2026 - 19:28:06

agregado!

24

Saturno 20/01/2026 - 22:08:57

Genial proyecto, te sumo otro blog:bahiasinfondo.blogspot.com/

Acerca de historias y lugares de la Patagonia

26
En respuesta a 24

Fabio Baccaglioni 21/01/2026 - 00:02:35

agregado!

25

Marto Guagnini 20/01/2026 - 22:37:26

Uh. Mañana te paso los que leo, y de paso el mío. Me gusta, si salís a bolsa quiero acciones (?).

27

Damian Guerrero 21/01/2026 - 09:56:22

Se podrían indexar foros también? ya que son otro espécimen en extinción pero que a los nardos nos gusta surfearlos....

28
En respuesta a 27

Fabio Baccaglioni 21/01/2026 - 10:05:58

no es tan fácil, yo estoy indexando solamente lo que aparece explícitamente en el feed de RSS y en el sitemap, lleva tiempo, escanear un foro es de otra complejidad, pero principalmente necesito que el dueño provea de un índice similar

29

Damian Guerrero 21/01/2026 - 14:07:27

Entendido 👌👌

30

Aev 21/01/2026 - 23:27:26

me encantó!!! Sos un capo

31
En respuesta a 30

Fabio Baccaglioni 22/01/2026 - 00:42:56

gracias!

32

Andres 23/01/2026 - 17:09:01

Fabio, esto te puede interesar:

https://www.blogsareback.com/

Blogs que tengo en mi RSS (aparte del tuyo):
https://www.microsiervos.com/
https://www.elladodelmal.com/
https://changlonet.com/blog/
https://www.smbc-comics.com/

33
En respuesta a 32

Fabio Baccaglioni 23/01/2026 - 19:00:33

gracias!!

35

Marto Guagnini 26/01/2026 - 20:35:07

https://martoescribe.blogspot.com/
TE paso el mío, cada tanto subo algún cuento.

36
En respuesta a 35

Fabio Baccaglioni 26/01/2026 - 23:52:15

agregado!

37

Pablo piblito 27/01/2026 - 14:17:04

Excelente! Acabo de buscar "enano cirqueros motociclistas" salió un post tuyo del 2003 con un enanito tocandose mirando a "Blancanieves" . 10/10

38
En respuesta a 37

Fabio Baccaglioni 27/01/2026 - 14:34:35

más preciso imposible 😋

39

Svante 27/01/2026 - 21:08:36

Juu, logré revivir esta cuenta!

Fabio, fijate si te interesa Marginalia, en HN siempre la gente le tira flores. El tipo se armó un buscador similar, de blogs, de sitios old-school, y también suele escribir en su blog sobre qué está implementando para mejorar el servicio

https://marginalia-search.com/

https://www.marginalia.nu/log

Capaz ya lo sabés, pero para crawlear, si detectás que un blog está en Wordpress, el feed RSS tiene un parámetro paged para ir paginando y scrapeando posts en orden cronológico.

40
En respuesta a 39

Fabio Baccaglioni 27/01/2026 - 23:47:32

los wordpress tienen sitemap (si el dueño actualizó el sitio en los últimos 10 años 😋) el problema se da con los de blogger y los que usan plataformas minimalistas. Como no voy a armarme un spider super complejo sólo indexo lo que el autor pone al servicio del público, si no le interesó tener un sitemap, es su responsabilidad 😁🤷
No quiero crear un buscador tan complejo como el del autor, simplemente algo más sencillo donde encontrar blogs interesantes, estoy dejando a la mayoría de los sitios grandes afuera y los foros también, no tengo capacidad de indexar tanto, pero posteos del RSS y del Sitemap, todo adentro (si me lo permite cada autor, claro)

Deje su comentario:

Nombre

Email Tranquilo, su email nunca será revelado.

URL La gente de bien tiene URL, no se olvide del http/https

Comentario Comentarios ofensivos o que no hagan al enriquecimiento del post serán borrados/editados por el administrador. Los comentarios son filtrados por ReCaptcha V3.