Reddit quiere que le paguen por ayudar a enseñar grandes sistemas de IA

Anuncio

Apoyado por

El sitio de Internet ha sido durante mucho tiempo un foro de debate sobre una gran variedad de temas, y empresas como Google y OpenAI lo han estado utilizando en sus proyectos de IA.

por mike isaac

Mike Isaac, con sede en San Francisco, escribe sobre las redes sociales y la industria de la tecnología.

Reddit ha sido durante mucho tiempo un punto caliente para la conversación en Internet. Alrededor de 57 millones de personas visitan el sitio todos los días para conversar sobre temas tan variados como maquillaje, videojuegos y consejos para lavar a presión las entradas de las casas.

En los últimos años, la variedad de chats de Reddit también ha sido una ayuda didáctica gratuita para empresas como Google, OpenAI y Microsoft. Esas empresas están utilizando las conversaciones de Reddit en el desarrollo de sistemas gigantes de inteligencia artificial que muchos en Silicon Valley creen que están en camino de convertirse en la próxima gran novedad de la industria tecnológica.

Ahora Reddit quiere que le paguen por ello. La compañía dijo el martes que planeaba comenzar a cobrar a las empresas por el acceso a su interfaz de programación de aplicaciones, o API, el método a través del cual las entidades externas pueden descargar y procesar la amplia selección de conversaciones de persona a persona de la red social.

"El corpus de datos de Reddit es realmente valioso", dijo en una entrevista Steve Huffman, fundador y director ejecutivo de Reddit. "Pero no necesitamos dar todo ese valor a algunas de las empresas más grandes del mundo de forma gratuita".

La medida es uno de los primeros ejemplos significativos del cobro de una red social por el acceso a las conversaciones que aloja con el fin de desarrollar sistemas de IA como ChatGPT, el popular programa de OpenAI. Esos nuevos sistemas de inteligencia artificial algún día podrían conducir a grandes negocios, pero no es probable que ayuden mucho a empresas como Reddit. De hecho, podrían usarse para crear competidores: duplicados automáticos de las conversaciones de Reddit.

Reddit también está actuando mientras se prepara para una posible oferta pública inicial en Wall Street este año. La empresa, fundada en 2005, obtiene la mayor parte de su dinero a través de la publicidad y las transacciones de comercio electrónico en su plataforma. Reddit dijo que aún estaba resolviendo los detalles de lo que cobraría por el acceso a la API y que anunciaría los precios en las próximas semanas.

Los foros de conversación de Reddit se han convertido en productos valiosos a medida que los grandes modelos de lenguaje, o LLM, se han convertido en una parte esencial de la creación de nueva tecnología de IA.

Los LLM son algoritmos esencialmente sofisticados desarrollados por compañías como Google y OpenAI, que es un socio cercano de Microsoft. Para los algoritmos, las conversaciones de Reddit son datos y se encuentran entre la gran cantidad de material que se alimenta a los LLM para desarrollarlos.

El algoritmo subyacente que ayudó a construir Bard, el servicio de inteligencia artificial conversacional de Google, está parcialmente entrenado en datos de Reddit. Chat GPT de OpenAI cita los datos de Reddit como una de las fuentes de información en las que ha sido capacitado.

Otras empresas también están empezando a ver el valor de las conversaciones y las imágenes que alojan. Shutterstock, el servicio de alojamiento de imágenes, también vendió datos de imágenes a OpenAI para ayudar a crear DALL-E, el programa de IA que crea imágenes gráficas vívidas con solo un aviso basado en texto requerido.

El mes pasado, Elon Musk, propietario de Twitter, dijo que estaba tomando medidas enérgicas contra el uso de la API de Twitter, que miles de empresas y desarrolladores independientes utilizan para rastrear millones de conversaciones en la red. Aunque no citó los LLM como una razón para el cambio, las nuevas tarifas podrían ascender a decenas o incluso cientos de miles de dólares.

Para seguir mejorando sus modelos, los fabricantes de inteligencia artificial necesitan dos cosas importantes: una enorme cantidad de potencia informática y una enorme cantidad de datos. Algunos de los mayores desarrolladores de IA tienen mucha potencia informática, pero siguen buscando fuera de sus propias redes los datos necesarios para mejorar sus algoritmos. Eso ha incluido fuentes como Wikipedia, millones de libros digitalizados, artículos académicos y Reddit.

Los representantes de Google, Open AI y Microsoft no respondieron de inmediato a una solicitud de comentarios.

Reddit ha tenido durante mucho tiempo una relación simbiótica con los motores de búsqueda de empresas como Google y Microsoft. Los motores de búsqueda "rastrean" las páginas web de Reddit para indexar información y ponerla a disposición de los resultados de búsqueda. Ese rastreo, o "raspado", no siempre es bienvenido en todos los sitios de Internet. Pero Reddit se ha beneficiado al aparecer más arriba en los resultados de búsqueda.

La dinámica es diferente con los LLM: engullen la mayor cantidad de datos posible para crear nuevos sistemas de inteligencia artificial como los chatbots.

Reddit cree que sus datos son particularmente valiosos porque se actualizan continuamente. Esa novedad y relevancia, dijo Huffman, es lo que necesitan los grandes algoritmos de modelado de lenguaje para producir los mejores resultados.

"Más que cualquier otro lugar en Internet, Reddit es un hogar para conversaciones auténticas", dijo Huffman. "Hay muchas cosas en el sitio que solo dirías en terapia, o AA, o nunca en absoluto".

El Sr. Huffman dijo que la API de Reddit seguiría siendo gratuita para los desarrolladores que quisieran crear aplicaciones que ayudaran a las personas a usar Reddit. Podrían usar las herramientas para construir un bot que rastree automáticamente si los comentarios de los usuarios se adhieren a las reglas de publicación, por ejemplo. Los investigadores que quieran estudiar los datos de Reddit con fines académicos o no comerciales seguirán teniendo acceso gratuito a ellos.

Reddit también espera incorporar más aprendizaje automático en el funcionamiento del sitio. Podría usarse, por ejemplo, para identificar el uso de texto generado por IA en Reddit y agregar una etiqueta que notifique a los usuarios que el comentario proviene de un bot.

La compañía también prometió mejorar las herramientas de software que pueden usar los moderadores, los usuarios que ofrecen su tiempo voluntariamente para mantener los foros del sitio funcionando sin problemas y mejorar las conversaciones entre los usuarios. Y los bots de terceros que ayudan a los moderadores a monitorear los foros seguirán siendo compatibles.

Pero para los fabricantes de IA, es hora de pagar.

"Rastrear Reddit, generar valor y no devolver nada de ese valor a nuestros usuarios es algo con lo que tenemos un problema", dijo Huffman. "Es un buen momento para que ajustemos las cosas".

"Creemos que eso es justo", agregó.

Mike Isaac es corresponsal de tecnología y autor de "Super Pumped: The Battle for Uber", un libro superventas sobre el espectacular auge y caída de la empresa de transporte compartido. Cubre regularmente Facebook y Silicon Valley, y reside en San Francisco. @MikeIsaac • Facebook

Anuncio

Noticias