The Washington Post analizó los sitios web en base a los cuales Google y Facebook entrenan sus inteligencias artificiales, encontrando contenido de veracidad cuestionable, sesgado, ocasionalmente racista, y con derechos de autor que no estarían siendo respetados, así como algunos que vulnerarían la privacidad de los ciudadanos estadounidenses.
Los modelos de inteligencia artificial (IAs) se entrenan con sitios web que incluyen información sesgada y en ocasiones racista, así como con contenido con derechos de autor, según concluyó The Washington Post en una investigación reciente.
Esta cabecera analizó varios conjuntos de datos que se utilizan para entrenar a la IA y, en concreto, estudió el modelo Colossal Clean Crawled Corpus (C4) de Google, que acoge 15 millones de sitios web utilizados para “instruir a algunas IA de alto perfil”. Entre ellas, T5 de Alphabet/Google (base sobre la cual funciona Bard) o LLaMA de Meta/Facebook.
El medio clarifica que OpenAI no revela las bases de datos que utiliza para su popular ChatGPT.
En colaboración con investigadores del Allen Institute for AI, The Washington Post categorizó estas páginas web utilizando Similarweb y descubrió que no se podían clasificar alrededor de un tercio de ellas porque no aparecían en internet.
Una vez hecha la selección, clasificó los 10 millones de sitios web restantes en función de la cantidad de ‘tokens’ -fragmentos de texto que se utilizan para procesar información- que aparecieron de cada uno en este conjunto de datos.
Información pirateada
El periódico reconoció que la mayoría de estas páginas web pertenecían a sectores como negocios, industrias, tecnología, noticias, arte, entretenimiento, creación de contenido, desarrollo de ‘software’, ciencia y salud.
Los tres más utilizados, indican, son un sitio de Google con textos de patentes en todo el mundo, Wikipedia, y la biblioteca digital bajo suscripción Scribd. Sin embargo, en el puesto 190 se incluye B-ok, donde se piratean libros digitales, por lo cual ya fue retirado por el Departamento de Justicia de los Estados Unidos, y se encontraron otros 27 sitios similares entre los enlistados.
Según sus investigaciones, algunos de estos sitios web daban acceso a la IA a ciertos datos confidenciales de los usuarios. Es el caso de espacios como Kickstarter y Patreon, que permiten a esta tecnología conocer las ideas de los artistas, “lo que genera preocupaciones de que la tecnología pueda convertir este trabajo en sugerencias para los usuarios”.
Con ello, recordó la problemática existente con los derechos de autor de estas obras y la demanda colectiva de un grupo de artistas interpuesta el pasado enero a tres compañías dedicadas a la automatización digital de creación de imágenes –Stability AI, DeviantArt y Midjourney– por infringir el ‘copywright’ en el desarrollo de obras artísticas con la herramienta Stable Difussion.
De hecho, el Washington Post detectó más de 200 millones de archivos marcados con derechos de propiedad intelectual.
Lo mismo aplica a los medios de prensa de los cuales se alimentan, que incluyen prominentemente al New York Times, Los Angeles Times, The Guardian, Forbes y el Huffington Post, sin dejar fuera otros más cuestionados en cuanto a su fiabilidad, como RT, Breitbart y VDare, así como medio millón de blogs personales y páginas como Medium, WordPress, Tumblr, Blogspot y Live Journal.
También se encontraron en el top 100 dos sitios que albergan bases de datos de los votantes estadounidenses, causando potenciales problemas en materia de privacidad por cuanto se desconoce qué podría la plataforma hacer con esta información.
Por otra parte, dicho periódico advirtió que estos modelos de IA también se entrenan con ‘chatbots’ que comparten información sesgada que podría “conducir a la difusión de prejuicios, propaganda e información errónea sin que los usuarios puedan rastrearlos hasta la fuente original”.
Sesgo religioso
Los investigadores también se centraron en el contenido religioso con el que se entrena la IA, determinando que de los 20 sitios web religiosos principales, 14 de ellos son cristianos, dos judíos, uno musulmán, uno de los Testigos de Jehová y otro mormón.
Para ejemplificar el tipo de información que ofrecen estos sitios web, toma como referencia el perteneciente a la iglesia evangélica californiana Grace To You, que recientemente “aconsejó a las mujeres a que continuaran sometiéndose a sus padres y esposos abusivos, y evitar denunciarlos ante las autoridades”.
En torno a la religión musulmana, The Washington Post también denunció el sesgo en algunos modelos lingüísticos, poniendo como ejemplo que una investigación publicada en ‘Nature‘ encontró que ChatGPT completaba la frase “Dos musulmanes entraron a un…” con acciones de violencia el 66% de las veces.
En cualquier caso, este periódico también recuerda que Google “filtró en gran medida los datos antes de enviarlos a la IA”, esto es, eliminó texto duplicado y palabras malsonantes. Con ello, matizó que las empresas utilizan conjuntos de datos de alta calidad para ajustar estos modelos a fin de proteger a los usuarios de contenidos no deseados.
Asimismo, aplica filtros para eliminar contenidos asoaciados a una lista negra, como pueden ser insultos raciales u obscenidades. Sin embargo, no filtra debidamente contenido LGBTQ no sexual y en algunas ocasiones también permite contenido pornográfico y simbología nazi.
Finalmente, The Washington Post aclara que C4 de Google comenzó a recopilar información en abril de 2019 junto con la organización sin findes de lucro CommonCrawl, que asegura que intenta “priorizar los sitios más importantes y de buena reputación, pero no trata de evitar contenido con licencias o derechos de autor”.