Cómo construir un motor de búsqueda mejor que Google
HogarHogar > Noticias > Cómo construir un motor de búsqueda mejor que Google

Cómo construir un motor de búsqueda mejor que Google

Aug 12, 2023

Por David Pierce, editor general y coanfitrión de Vergecast con más de una década de experiencia en tecnología de consumo. Anteriormente, en Protocol, The Wall Street Journal y Wired.

Sridhar Ramaswamy no dejó Google para crear otro motor de búsqueda. Al menos no al principio. Al finalizar sus 15 años en Google, Ramaswamy dirigía toda la división de publicidad de la compañía, supervisando a más de 10.000 personas; sabía mejor que la mayoría exactamente cuánto trabajo se necesitaba para realizar una buena búsqueda.

Casi no se puede exagerar cuán dominante es Google en las búsquedas. La mayoría de los estudios sitúan a Google en aproximadamente el 90 por ciento del mercado mundial de búsquedas, y esa cifra ha ido aumentando constantemente durante 20 años. Google es el motor de búsqueda predeterminado en casi todos los navegadores y en casi todos los dispositivos. No buscamos en Internet; Lo buscamos en Google. Bing y Yahoo son el segundo y tercer jugador más grande, y ¿cuándo fue la última vez que realizaste Binged o Yahooed en algo? Google ha gastado su enorme capital político, de ingeniería y financiero para mantenerlo así.

Pero lo que Ramaswamy también sabía mejor que la mayoría eran todas las cosas que Google no podía o no quería hacer con su motor de búsqueda. Con miles de millones de usuarios y cientos de miles de millones de dólares que proteger, era poco probable que Google alguna vez explorara grandes cambios en su página de resultados, nuevos modelos de negocio o cualquier tipo de producto que pudiera hacer que los usuarios buscaran menos. (De hecho, Ramaswamy había probado una función llamada Google Contributor que permitía a las personas pagar por una experiencia sin publicidad en algunos sitios. No funcionó). Aquí había una oportunidad de hacer algo que Google simplemente no podía o no quería. Entonces, cuando dejó la empresa en 2018, Ramaswamy y Vivek Raghunathan, un veterano ejecutivo de Google y YouTube, cofundaron una empresa llamada Neeva para construir el motor de búsqueda del futuro.

Este año, The Verge está explorando cómo la Búsqueda de Google ha transformado la web para convertirla en un lugar para robots y cómo el surgimiento de la IA amenaza al propio Google.

El camino fue difícil, pero el equipo de Neeva terminó construyendo un motor de búsqueda del que estaban orgullosos, un motor de búsqueda que estuvo cerca de superar a Google tanto en las métricas internas de Neeva como en los estudios de usuarios. A las personas que lo probaron les gustó y Neeva tenía una larga hoja de ruta llena de ideas sobre cómo mejorar aún más la búsqueda. Un poco más de tiempo y es muy posible que hayan construido el futuro de la búsqueda. Pero sólo cuatro años después, Neeva cerró.

En cierto modo, el breve destello de la existencia de Neeva dice todo lo que se necesita saber sobre los últimos 20 años de supremacía en los motores de búsqueda. Crear un motor de búsqueda es difícil. Crear uno mejor que Google es aún más difícil. Pero si quieres vencer a Google, un mejor motor de búsqueda es sólo el comienzo. Y a partir de ahí todo se vuelve más difícil.

Un motor de búsqueda es algo enormemente complejo y una idea bastante simple.

En realidad, todo lo que hace un motor de búsqueda es compilar una base de datos de páginas web, conocida como “índice de búsqueda”, y luego revisar esa base de datos cada vez que realiza una consulta y ofrecer el mejor y más relevante conjunto de esas páginas. Ese es todo el trabajo.

Sin embargo, en cada pequeño paso de ese viaje surgen enormes complicaciones que requieren compensaciones críticas y complejas. La mayoría de ellos se reducen a dos cosas: tiempo y dinero.

Incluso si hipotéticamente se pudiera construir una base de datos en constante actualización de todos los miles de millones de páginas de Internet, los costos de almacenamiento y ancho de banda por sí solos llevarían a la quiebra a prácticamente cualquier empresa del planeta. Y eso sin contar el costo de buscar en esa base de datos millones o miles de millones de veces al día. Agregue el hecho de que cada milisegundo importa (Google todavía anuncia cuánto tiempo tomó cada consulta en la parte superior de sus resultados) y de todos modos no tiene tiempo para revisar toda la base de datos.

Por lo tanto, construir su propio motor de búsqueda comienza con una pregunta sorprendentemente filosófica: ¿qué hace que una página web sea buena? Tienes que decidir qué se considera desacuerdo razonable y qué es simplemente información errónea. Tienes que calcular cuántos anuncios son demasiados anuncios. Sitios claramente escritos por IA y plagados de basura de SEO: malos. Blogs de recetas escritos por una persona y plagados de basura de SEO: en su mayoría bien. ¿Pornografía? A veces está bien, a veces no.

Una vez que haya tenido todas estas discusiones y haya establecido sus límites, podrá identificar, digamos, unos cuantos miles de dominios que definitivamente desea en su motor de búsqueda. Incluirá sitios de noticias desde CNN hasta Breitbart, foros de discusión populares como Reddit y Stack Overflow y Twitter, servicios útiles como Wikipedia y Craigslist, plataformas en expansión como YouTube y Amazon, y los mejores sitios de recetas, deportes, compras y todo lo demás en La web. A veces, puede asociarse con esos sitios para obtener esos datos de forma estructurada sin tener que mirar cada página individualmente; Muchas plataformas grandes hacen que esto sea fácil y, en ocasiones, incluso gratuito.

Por lo tanto, construir su propio motor de búsqueda comienza con una pregunta sorprendentemente filosófica: ¿qué hace que una página web sea buena?

Entonces es hora de soltar a las arañas. Estos son robots que capturan el contenido de una página web determinada, luego buscan y siguen cada enlace de la página, indexan todas esas páginas, buscan y siguen cada enlace, indexan, buscan y siguen. (Se llaman arañas porque rastrean la red, ¿entiendes?) Cada vez que la araña llega a una página, la evalúa según los criterios establecidos para una buena página. Todo lo que pasa se descarga en servidores en algún lugar y su índice de búsqueda comienza a crecer.

Sin embargo, las arañas no son bienvenidas en todas partes. Cada vez que un rastreador abre una página web, el proveedor incurre en un costo de ancho de banda; Ahora imagine un motor de búsqueda que intenta cargar y guardar cada página de su sitio web, una vez por segundo, sólo para asegurarse de que esté actualizada. La cuenta suma.

Por lo tanto, la mayoría de los sitios tienen un archivo llamado robots.txt que define qué bots pueden y qué no pueden acceder a su contenido y qué URL pueden rastrear. Los motores de búsqueda técnicamente no tienen que respetar los deseos de robots.txt, pero hacerlo es parte del tejido y la cultura de la web. Casi todos los sitios permiten Google y Bing porque la capacidad de descubrimiento supera los costos de ancho de banda. Muchos bloquearán proveedores específicos, como sitios de compras que no quieren que Amazon rastree y analice sus sitios web. Otros establecerán reglas generales: nadie más que Google y Bing.

Los rastreadores no tardan mucho en regresar con una instantánea bastante amplia de Internet. Mientras el equipo de Neeva estaba en medio de su transición fuera de Bing, sus arañas rastreaban alrededor de 200 millones de URL por día.

A continuación, el trabajo consiste en clasificar todas esas páginas, en orden, para cada consulta que pueda recibir su motor de búsqueda. Puede ordenar sus páginas por temas, en índices más pequeños y con mayor capacidad de búsqueda, en lugar de un único gigante gigante: los resultados locales van con los resultados locales, las compras con las compras, las noticias con las noticias. Utilizará mucho aprendizaje automático para recopilar los temas y el contenido de una página determinada, además de mucha ayuda humana. Traerá equipos de evaluadores, les mostrará una consulta y un resultado, y les pedirá que califiquen de cero a 10 qué tan bueno es realmente el resultado. A veces será obvio: si alguien busca “Facebook” y el primer resultado no es facebook.com, es evidente que algo anda mal. Pero la mayoría de las veces, estás fusionando las calificaciones de muchas entradas, introduciéndolas nuevamente en tu índice y tu modelo de tema, y ​​repitiendo el proceso nuevamente.

En realidad, todo esto también es sólo la mitad del problema. Tienes que mejorar simultáneamente lo que se conoce como “comprensión de consultas” para que sepas que las personas que buscan “The Rock” y “Dwayne Johnson” buscan lo mismo, pero aquellos que buscan “the rock” y “rock” probablemente no son. Terminará con una enorme biblioteca de sinónimos, similitudes y formas de reescribir consultas para que sean más fáciles de buscar. Pero a Google le gusta decir que todos los días, el 15 por ciento de las búsquedas son nuevas, por lo que siempre aprenderás cosas nuevas sobre cómo las personas buscan cosas en línea.

Se lanzará al público después de un tiempo y comenzará a obtener aún más datos sobre aquello en lo que la gente hace clic y en lo que les interesa. (Un enlace en el que se hace clic, seguido de no más búsquedas inmediatas y enlaces en los que se hace clic, es la mejor señal en el negocio). Cuanto más hacen clic, más sabes sobre lo que realmente están buscando.

Ejecutar un motor de búsqueda es triangular constantemente entre velocidad, costo y calidad.

Ejecutar un motor de búsqueda es triangular constantemente entre velocidad, costo y calidad. Podrías buscar en toda la base de datos cada vez que alguien escriba "YouTube" y presione Intro, pero esa búsqueda llevará demasiado tiempo y consumirá demasiado ancho de banda y almacenamiento. Se podría tener una base de datos del tamaño de Internet, pero los costos de almacenamiento llevarían a la quiebra a prácticamente cualquier empresa del planeta, además de ser demasiado costosos de almacenar y demasiado lentos de buscar. Podrías limitarte a los 100 sitios más populares de la web, pero eso no sirve de mucho para nadie. Los sitios web también cambian todo el tiempo, por lo que sus rastreadores y sistemas de clasificación deben adaptarse constantemente.

Es difícil y costoso crear un motor de búsqueda desde cero. Es por eso que muchos no lo hacen: obtienen licencias de datos de Bing por entre $ 10 y $ 25 por cada 1,000 transacciones, agregan sus propias funciones e interfaz y terminan el día. Eso es lo que hacen DuckDuckGo, Yahoo y la mayoría de los otros motores de búsqueda más pequeños porque Bing es bastante bueno y administrar su propio sistema de búsqueda requiere una enorme cantidad de trabajo. Es lo que también hizo Neeva al principio.

Pero Neeva tenía tantas ideas sobre cómo modernizar la búsqueda que finalmente decidió que también necesitaba controlar los datos subyacentes. "Búsqueda más rápida, vistas previas enriquecidas, proveedores preferidos, búsqueda personal, todo se topa con la pared", dice Raghunathan. Los enlaces que provenían de la API de Bing no permitían estas funciones adicionales, por lo que Neeva no pudo crearlas. Si Neeva quería ser un mejor motor de búsqueda, en algún momento tendría que crear su propio motor de búsqueda mejor.

Después de dos años de construcción, capacitación, refinamiento, reentrenamiento y refinamiento, el motor de búsqueda de Neeva finalmente fue impulsado íntegramente por su propia tecnología. Para ser claros, Neeva aún no creía haber construido un motor de búsqueda inequívocamente mejor: en un momento, la compañía tomó aproximadamente 500 consultas de diferentes tipos, pidió a evaluadores humanos que compararan los resultados y descubrió que Google todavía salía ligeramente adelante. Pero Neeva se estaba acercando y confiaba en tener una gran ventaja en la experiencia del usuario.

El plan de Neeva partió de una única idea: el modelo de negocio de Google era el problema. Ramaswamy pensó que el modelo publicitario no produciría buenos contenidos a largo plazo.

Piénselo: si un motor de búsqueda funciona realmente bien, solo buscará una vez (y recibirá anuncios una vez). Los anuncios también diluyen la calidad de una búsqueda. Cuando escribes algo en Google, estás buscando algo. La primera tarea de Google es mostrarte algo que alguien más quiere que veas; su segunda orden del día es mostrarte lo que quieres.

Ramaswamy pensó que el modelo publicitario no produciría buenos contenidos a largo plazo.

Hacer un mejor motor de búsqueda significó cambiar los incentivos. Ramaswamy pensó que si no te concentrabas en mostrar tantos anuncios como fuera posible, podías anteponer la experiencia del usuario. No necesitaría mantener a la gente escribiendo consultas y no necesitaría recopilar datos de usuario para los anunciantes. Podrías simplemente ayudar a las personas a llegar a su destino y apartarse del camino.

El equipo de Neeva creó páginas de compras con imágenes más grandes e información comparativa útil. Priorizaron resultados creados por humanos de lugares como Reddit y Quora. Las búsquedas deportivas se convirtieron en hermosos marcadores de pantalla completa. Lo hicieron de modo que si buscaba “Brad Pitt IMDB” o “WhatsApp web”, la función de autocompletar de Neeva lo llevaría directamente al sitio web sin llegar a una página de resultados. Neeva era limpio y simple, y los primeros usuarios dijeron que les gustaba que no los engañaran para que miraran anuncios.

Durante los dos años que le llevó a Neeva crear su propio índice de búsqueda, también continuó trabajando en su navegador para dispositivos móviles y comenzó a invertir fuertemente en IA. Un efecto secundario de crear su propio índice de búsqueda es que también acaba de recopilar un conjunto de datos de entrenamiento enormemente útil para modelos de lenguaje grandes. Neeva fue una de las primeras empresas en lanzar un complemento de búsqueda de IA, conocido como NeevaAI, que resumiría los resultados de la búsqueda y, en ocasiones, intentaría responder su pregunta directamente en la parte superior de la página.

Pero una cosa es crear un buen producto; Otra cosa es lograr que los usuarios lo prueben, especialmente si tienen que abandonar lo más fácil y arraigado en Internet para hacerlo.

Es un cliché bien ganado y establecido desde hace mucho tiempo en la industria tecnológica que la gente no cambia su configuración predeterminada. Ya sean controles de privacidad, funciones del sistema o aplicaciones, no hay nada más poderoso que lo que ya existe. Y en muchos casos, las empresas que controlan esos espacios predeterminados harán casi cualquier cosa para permanecer allí.

"Resolver el caso de uso predeterminado es uno de los mayores obstáculos que tenemos", me dijo Ramaswamy desde el principio. “La gente olvida que el éxito de Google no se debió únicamente a tener un mejor producto. Se tomó una increíble cantidad de decisiones de distribución astutas para que eso sucediera”.

Según se informa, Google paga a Apple hasta 15 mil millones de dólares al año para ser el motor de búsqueda predeterminado en el navegador Safari de Apple en varios dispositivos. Google también paga a Mozilla para que sea el principal motor de búsqueda en el navegador Firefox: se informa que asciende a más de 450 millones de dólares al año. Tiene acuerdos similares con otros fabricantes de dispositivos y desarrolladores de navegadores, incluso con proveedores de servicios inalámbricos. Samsung exploró brevemente poner fin a su acuerdo con Google en 2023, pero decidió no hacerlo por varias razones, incluido “el impacto en sus amplias relaciones comerciales con Google”, informó The Wall Street Journal.

La verdadera ventaja de Google son sus otros productos. Android es el sistema operativo móvil más popular del mundo y acapara alrededor del 78 por ciento de la cuota de mercado. Chrome es el navegador más popular, con alrededor del 62 por ciento. Google es el motor de búsqueda predeterminado casi impenetrable en ambas plataformas.

“La gente olvida que el éxito de Google no se debió únicamente a tener un mejor producto. Se tomó una increíble cantidad de decisiones de distribución astutas para que eso sucediera”.

Durante años, cualquier empresa que quisiera fabricar un teléfono o una tableta que pudiera ejecutar aplicaciones de Google como Maps y YouTube tenía que firmar un contrato conocido como Acuerdo de Distribución de Aplicaciones Móviles. (En la práctica, esto cubre prácticamente todos los teléfonos Android). La MADA regía cómo se cargaban y mostraban las aplicaciones de Google en cualquier dispositivo Android cubierto, y siempre le dio a la Búsqueda un lugar de honor.

"Google Phone-top Search debe configurarse como el proveedor de búsqueda predeterminado para todos los puntos de acceso de búsqueda web en el dispositivo" a menos que Google dé aprobación explícita de lo contrario, decía un acuerdo con HTC que se presentó como prueba en la demanda de Oracle de 2010 contra la compañía. También se requirió que HTC colocara un widget de búsqueda a no más de una página de la pantalla de inicio de sus dispositivos.

“[El ex director ejecutivo de Google] Eric Schmidt dijo que 'la competencia está a un clic de distancia'”, dice Josep Pujol, jefe de búsqueda de Brave, otra empresa que está construyendo su propio motor de búsqueda desde cero. "Pero no lo es. Está a un clic y 14 mil millones de dólares de distancia”.

Esta situación ha sido objeto de un serio escrutinio regulatorio en los últimos años. En 2018, la Comisión Europea multó a Google con 4.340 millones de euros por violar las normas antimonopolio de la UE y otros ejemplos de lo que la CE llamó “restricciones ilegales a los fabricantes de dispositivos Android y operadores de redes móviles para consolidar su posición dominante en las búsquedas generales en Internet”.

Tras esa sentencia, aparece una nueva pantalla para la mayoría de los usuarios en Europa y el Reino Unido cuando configuran por primera vez un teléfono o tableta Android. "Elija su proveedor de búsqueda", dice antes de ofrecer una lista de opciones disponibles.

La mayoría de los motores de búsqueda que llegaron a esta lista (una lista, por cierto, controlada por Google, que inicialmente cobraba a las empresas que querían aparecer en ella) no vieron un aumento significativo en el número de usuarios. Las personas que intentan completar la configuración lo más rápido posible tienden a elegir la opción más familiar, como la opción que ya tiene una participación de mercado del 90 por ciento.

Es difícil superar esa inercia, incluso sin fricción adicional. Y hay mucho de eso para todos. DuckDuckGo descubrió una vez que se necesitaban 15 toques para cambiar el motor de búsqueda predeterminado en Android.

De manera similar, en iOS, un proveedor de motor de búsqueda no puede simplemente agregarse a la lista de opciones de motor de búsqueda de Safari. Si no eres alguien que no tenga las cinco opciones integradas (Google, Yahoo, Bing, DuckDuckGo y Ecosia), la única forma de acceder al iPhone es crear tu propia aplicación. Crear un navegador móvil, por supuesto, supone una enorme asignación de recursos cuando se trata de una pequeña empresa emergente como Neeva. Y una vez que tienes el navegador, tienes otro problema. Convencer a los usuarios para que cambien su configuración predeterminada ya es difícil, pero en dispositivos móviles, también hay que convencer a los usuarios de que descarguen una aplicación para reemplazar una aplicación que ya tienen.

DuckDuckGo descubrió una vez que se necesitaban 15 toques para cambiar el motor de búsqueda predeterminado en Android

El proceso debería haber sido más sencillo en las computadoras de escritorio, donde hay menos restricciones de plataforma. Neeva intentó hacer que el cambio fuera lo más simple posible: en una Mac o PC, todo lo que el usuario tenía que hacer era instalar una extensión del navegador y Neeva se convertiría en el motor de búsqueda predeterminado. (La extensión también proporcionó protección de seguimiento y otras funciones). Otros proveedores de motores de búsqueda también han intentado crear sus propias extensiones. Pero los usuarios que instalan estas extensiones en Chrome reciben una ventana emergente que les pregunta si quieren "volver a la Búsqueda de Google". El botón "Volver a cambiar" es de color azul brillante, "Mantenerlo" de color blanco tenue.

Al principio, Neeva descubrió que si podía lograr que un nuevo usuario superara esa aterradora ventana emergente y comenzara a usar el motor de búsqueda, era abrumadoramente probable que siguiera usándolo tres meses después. Algunos usuarios que probaron Neeva incluso estaban dispuestos a pagar unos cuantos dólares al mes por una experiencia de búsqueda más sensata.

Si las personas se tomaban la molestia de cambiar, se convertían; el problema era que muy pocos de ellos lograron superar la maraña de configuraciones y redirecciones predeterminadas. Ramaswamy y su equipo intentaron muchas veces encontrar algo que convenciera a los usuarios de superar el problema inicial. El discurso centrado en la privacidad funcionó para algunos usuarios, pero nunca iba a ser una victoria generalizada. Las características de IA generaron algo de revuelo, pero se desvanecieron cuando Bing, Google y otros lanzaron cosas similares.

En última instancia, Neeva era un producto que había que intentar comprender. Lo usé como mi motor de búsqueda principal durante algunos años y realmente aprecié cosas como las páginas de resultados deportivos rediseñadas y la priorización de Reddit y otras fuentes. (Además, no hay anuncios. Me encantó). Pero era difícil explicar a los demás lo agradable que se sentía ir directamente a un sitio web desde la ventana de autocompletar en lugar de tener que ejecutar la consulta o lo mucho mejores que eran sus ricas páginas de recetas que las enlaces infinitamente idénticos en una página de Google. Ver para creer, y el estado del mercado de búsqueda había logrado mantener a Neeva en la oscuridad.

Si algo cambia, probablemente comenzará con los reguladores.Desde la sentencia de la CE en 2018, el Departamento de Justicia de EE. UU. también ha demandado a Google por motivos anticompetitivos, alegando que los acuerdos de distribución de Google con fabricantes de dispositivos y desarrolladores de navegadores “impiden la distribución a los rivales de búsqueda de Google, debilitándolos como alternativas competitivas para consumidores y anunciantes al negándoles escala”.

Google ha argumentado en respuesta que los usuarios y socios eligen Google porque es el mejor producto disponible y que las opciones predeterminadas no son excluyentes. "Competimos ferozmente en un espacio dinámico y en rápido movimiento, invirtiendo miles de millones de dólares en investigación y desarrollo y realizando miles de mejoras de calidad cada año para garantizar que estamos entregando los resultados más útiles, gratis para todos", dice Ned Adriance, director de Google. gerente de comunicación de políticas. “Al igual que muchas otras empresas, pagamos para promocionar nuestros servicios, del mismo modo que una marca de cereales podría pagar a un supermercado para que almacene sus productos al final de una fila o en un estante a la altura de los ojos. Pero en cada caso, los consumidores pueden acceder fácilmente a alternativas si eso es lo que desean”.

Si el dominio predeterminado de Google se deshace, competidores como DuckDuckGo y Brave creen que crecerán rápidamente. Muchos de esos competidores piensan que no hay nada que hacer más que esperar. "Si somos capaces de sobrevivir el tiempo suficiente, habrá un punto de inflexión en el que la distribución de Google se romperá o se romperá", dice Pujol de Brave. "Siempre que ocurra esta condición, debemos estar preparados".

Neeva no podía permitirse el lujo de esperar. En abril de 2023, la empresa anunció que cerraría definitivamente su motor de búsqueda. A medida que la economía se deterioraba y los dólares de inversión se agotaban, Ramaswamy y su equipo decidieron que “ya no hay camino hacia la creación de un negocio sostenible en la búsqueda de consumidores”. Por supuesto, esto no es estrictamente cierto: el negocio de búsqueda para consumidores de Google generó alrededor de 160 mil millones de dólares en ingresos el año pasado. El problema para Neeva y todos los demás posibles competidores es que simplemente no queda espacio para nadie más. (Neeva finalmente fue adquirida por el gigante del software empresarial Snowflake, y pasó por completo a la IA).

Neeva había hecho el trabajo duro. Estaba ejecutando un producto de inteligencia artificial, un motor de búsqueda completo y un navegador que prioriza la privacidad, todo con el presupuesto de una startup. Pero no fue suficiente.

Porque incluso si tomas todas las decisiones correctas, no tomas atajos, fijas los criterios, perfeccionas el índice y construyes el mejor motor de búsqueda jamás creado, probablemente no importaría. Por ahora, al menos, todavía no puedes vencer a Google.

/ Regístrese en Verge Deals para recibir ofertas en productos que hemos probado enviadas a su bandeja de entrada diariamente.

¿Qué sucede cuando la Búsqueda de Google no tiene las respuestas?Cómo Google intentó arreglar la web, haciéndose cargo de ellaLa tienda es para humanos, el escaparate es para robots.¿Quién mató a Google Reader?