Investigación

La API Perspective es el resultado de una investigación conjunta que estudia la IA como herramienta para hacer que las conversaciones online sean más sanas

La API Perspective es el resultado de una investigación conjunta de Jigsaw y el equipo de Google dedicado a la tecnología; está destinada a la lucha contra el abuso con el objetivo de estudiar el aprendizaje automático como herramienta para mejorar las conversaciones online. Este equipo publica periódicamente conjuntos de datos, investigaciones académicas y software libre como parte de su compromiso con la transparencia y la innovación en los ámbitos del procesamiento del lenguaje natural y el aprendizaje automático.

Propiciar conversaciones civilizadas en Internet plantea serios desafíos, y sabemos que no podemos superarlos sin ayuda. Para posibilitar las investigaciones académicas y sectoriales sobre este tema, creamos conjuntos de datos públicos siempre que nos resulta posible.

Competición pública de Kaggle, basada en alrededor de 2 millones de comentarios de la plataforma Civil Comments, que dejó de funcionar en el 2017. Estos datos se anotan para evaluar la toxicidad, los subtipos de toxicidad y las menciones de identidad, lo que permite calificar los sesgos involuntarios en estas últimas. Consulta la página de Kaggle, así como nuestro artículo académico Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification para obtener una descripción detallada de las fuentes de datos y los esquemas de anotación. Este conjunto de datos está disponible en los conjuntos de datos de TensorFlow.

Competición pública de Kaggle, basada en un conjunto de datos obtenido mediante crowdsourcing que incluye 4 subtipos de toxicidad y alrededor de 160.000 comentarios etiquetados manualmente y obtenidos de las páginas de discusión de Wikipedia. Las anotaciones etiquetadas se obtuvieron pidiendo a 5000 evaluadores que calificaran los comentarios de Wikipedia según su toxicidad. Este conjunto de datos también está disponible en el repositorio Figshare como Anotaciones manuales sobre la toxicidad en las páginas de discusión de Wikipedia.

Competición pública de Kaggle que propone a los participantes compilar un modelo de toxicidad multilingüe a partir de los datos de las dos competiciones de Kaggle anteriores.

100.000 comentarios de Wikipedia, cada uno con 10 anotaciones de los 4000 anotadores que colaboraron en el proyecto. En cada anotación, el anotador indica si considera que el comentario es un ataque personal o no.

Anotaciones automáticas de todos los comentarios de las páginas de discusión de Wikipedia en inglés desde el 2001 hasta el 2015, aproximadamente 95 millones de comentarios para posibilitar el análisis de datos a gran escala.

Recopilación de 12.000 nuevos comentarios a los que se añadieron anotaciones calificándolos como aportaciones positivas a las conversaciones online. Se trata de una colaboración entre la Universidad Simon Fraser y Jigsaw que se publicará en un número especial de la revista First Monday sobre el lenguaje grosero en Internet.

Recopilación de 44.000 comentarios con anotaciones sobre diversos aspectos sutiles que determinan que no son adecuados, como sarcasmo, hostilidad o condescendencia. Este conjunto de datos se obtuvo a partir de una colaboración entre la Universidad de Oxford y Jigsaw, y se publicará en el taller Workshop on Online Abuse and Harms.

Conjunto de datos obtenido a partir de la competición de Kaggle sobre sesgo involuntario utilizado como base para un conjunto de datos contextual anotado por evaluadores a los que se mostraba el comentario anterior, como parte de un estudio que analiza la importancia del contexto a la hora de moderar. Este análisis, obtenido a través de una colaboración entre la Universidad de Economía y Negocio de Atenas y Jigsaw, apareció en ACL 2020.

Nuestros repositorios de software libre proporcionan una amplia gama de ejemplos con Perspective, desde herramientas totalmente desarrolladas hasta demos experimentales, así como ejemplos de las herramientas que empleamos para desarrollar nuestros modelos de aprendizaje automático.

Herramientas desarrolladas con Perspective

Herramienta de moderación que permite el uso de modelos de aprendizaje automático en el proceso de revisión humana (por ejemplo, el que utiliza The New York Times).

Código que permite crear una experiencia centrada en el autor y proporcionar sugerencias al usuario mientras escribe. Se utiliza en nuestra demo pública de la API Perspective, pero el repositorio de código incluye muchas otras funciones, así como formas de crear otras experiencias centradas en el autor.

Extensión experimental de Chrome que permite a los usuarios definir el grado de toxicidad que quieren ver en los comentarios publicados en Internet. Tune utiliza Perspective para permitir que cada usuario defina el "volumen" de las conversaciones que se muestran en diversas plataformas de uso habitual, como YouTube, Facebook, Twitter, Reddit y Disqus. La extensión puede descargarse en Chrome Web Store.

Recopilación de demos y conceptos desarrollados con la API Perspective.

Ejemplo de código para llamar a Perspective.

Biblioteca de cliente de JavaScript sencilla para llamar a la API Perspective.

Servidor proxy sencillo basado en Express que puede contener la clave de API y llama a la API Perspective.

Servidor proxy sencillo basado en Express que puede utilizarse para proporcionar acceso restringido al proyecto en la nube de la API Perspective.

Ejemplo de código obtenido mediante la API Perspective y Google Apps Script.

Herramientas para la compilación de modelos

Nuestro repositorio de herramientas para medir y mitigar el sesgo involuntario en los modelos.

Trabajo realizado en colaboración con Wikimedia para crear un corpus útil de conversaciones de las páginas de discusión de Wikipedia.

Ejemplo de código para entrenar modelos de aprendizaje automático en el análisis de texto

El equipo de la API Perspective publica investigaciones en foros académicos periódicamente.

Demuestra que la identidad del evaluador desempeña una función con relevancia estadística en la forma en que este detecta la toxicidad en anotaciones sobre identidad. También compara modelos entrenados con anotaciones de varios grupos de evaluadores basados en la identidad.

Presenta un innovador marco de trabajo que ayuda a los desarrolladores de conjuntos de datos a documentar de manera transparente los puntos clave de las decisiones que se deben tomar en diferentes etapas de los flujos de datos del aprendizaje automático: formulación de tareas, selección de anotadores, selección de la plataforma y la infraestructura, y análisis, evaluación, publicación y mantenimiento de conjuntos de datos.

Demuestra que los modelos lingüísticos obtenidos a partir de modelos más grandes suelen acarrear costes ocultos en cuanto al rendimiento, especialmente en lo relativo a los sesgos basados en la identidad.

Presenta un marco de investigación que destaca cómo las mujeres periodistas y activistas, que sufren un notable acoso en las redes sociales, necesitan herramientas para recabar pruebas y elaborar informes sobre el acoso en Internet, y reconoce estas necesidades aportando el diseño de un prototipo de herramienta denominado Harassment Manager.

Presenta el modelo de clasificación de textos multilingües Charformer, que se utiliza en la API Perspective, y las técnicas utilizadas para reducir el sesgo y optimizar las ventajas de la clasificación multilingüe. Este modelo aporta mejoras en todos los niveles, en particular en los emojis y los datos de alternancia de códigos que se utilizan habitualmente en el contenido generado por usuarios.

Amplía el trabajo que dio lugar a la tarea de evaluación de fragmentos de texto tóxicos incluida en el evento SemEval-2021 presentando una serie de técnicas destinadas a identificar fragmentos de texto asociados a comentarios calificados como tóxicos y proponiendo un método para sugerir contenido alternativo que exprese las mismas ideas, pero de forma civilizada, cuando sea posible.

Examina una serie de publicaciones sobre computación humana haciendo especial hincapié en las cuestiones éticas del crowdsourcing, y expone algunos problemas relacionados con la identidad de los anotadores, la influencia de sus experiencias en sus anotaciones, y la relación entre los anotadores y las plataformas de crowdsourcing. El artículo también presenta algunas recomendaciones específicas y otras cuestiones que los desarrolladores de conjuntos de datos pueden tener en cuenta en diferentes etapas de los flujos de datos del aprendizaje automático.

Crea y divulga un conjunto de datos de publicaciones con dos tipos de etiquetas de toxicidad, dependiendo de si los anotadores tuvieron en cuenta la publicación anterior para ampliar el contexto o si no tuvieron ningún contexto. Basándose en esto, presenta una estimación de la sensibilidad al contexto, una tarea novedosa que tiene como objetivo identificar si la toxicidad percibida en una publicación varía cuando se tiene en cuenta el contexto.

Presenta nuevas métricas que permiten el estudio riguroso de la moderación de contenido como un proceso de colaboración entre las personas y la inteligencia artificial, y demuestra que los modelos de incertidumbre más avanzados ofrecen nuevas estrategias de revisión colaborativa que mejoran la eficacia general del sistema colaborativo de moderador-modelo.

Examina las incitaciones y llamadas al acoso publicadas por miembros de determinadas comunidades online para evaluar y analizar de forma global diferentes estrategias de acoso, como el desarrollo de una taxonomía que permita clasificar los enfoques preferidos de los atacantes coordinados y la aportación de sugerencias relativas a diferentes medidas e investigaciones posteriores que podrían emprender investigadores, plataformas, autoridades y grupos contra el acoso.

Describe una de las tareas planteadas en el evento SemEval-2021, que consistía en detectar fragmentos de texto tóxicos. En esta tarea, los participantes debían predecir qué fragmentos de los textos determinaban que las publicaciones se identificaran como tóxicas. Este artículo incluye un resumen de los resultados de los participantes y las principales estrategias que se presentaron en esta competición.

Desarrolla un nuevo modelo, CAE-T5, que ofrece sugerencias sobre cómo reformular los comentarios tóxicos de una forma más civilizada basándose en avances recientes relativos a las tareas de secuencia a secuencia disociadas.

Estudia la tarea de etiquetar la toxicidad encubierta o velada en conversaciones online, e incluye la presentación de un conjunto de datos que clasifica diferentes tipos de toxicidad encubierta y la evaluación de los modelos utilizados en la tarea.

Presenta un nuevo conjunto de datos de comentarios anotados en función de su impacto en el correcto desarrollo de una conversación, lo que incluye anotaciones de un nuevo tipo de subatributos potencialmente dañinos.

Revela cómo el contexto puede influir en los juicios de las personas sobre la toxicidad percibida en las publicaciones, ya sea intensificándola o mitigándola, y cómo un subconjunto significativo de anotaciones puede cambiar si los anotadores no proporcionan contexto. Sin embargo, sorprendentemente, el contexto no parece mejorar la eficacia de los clasificadores de toxicidad.

Presenta un nuevo conjunto de datos, Constructive Comments Corpus, destinado a facilitar el desarrollo de nuevas herramientas que permitan a las comunidades online mejorar la calidad de sus conversaciones, incluida una clasificación de las características secundarias de la constructividad. Todo ello, unido a los nuevos modelos de aprendizaje automático orientados a la constructividad, abre una nueva vía para las herramientas de moderación destinadas a promover comentarios que favorecen la conversación, en lugar de limitarse a filtrar contenido no deseado.

Describe nuestras contribuciones a dos de las tareas compartidas de EVALITA (Evaluation of NLP and Speech Tools for Italian) 2020, basadas en parte en la tecnología que utiliza Perspective, y revisa los tipos de errores cometidos por nuestro sistema en las tareas compartidas.

Presenta la aplicación de dos sistemas de referencia fiables destinados a detectar la toxicidad y evalúa su eficacia a la hora de identificar y clasificar lenguaje ofensivo en las redes sociales.

Demuestra cómo las técnicas convencionales utilizadas para reducir el sesgo en las representaciones vectoriales de palabras pueden, en realidad, aumentar el sesgo de los modelos en tareas posteriores, y propone métodos innovadores de eliminación de sesgos para aliviar este problema.

Propone un marco de trabajo que ayuda a informar de forma transparente sobre el contexto, los casos de uso y las características de rendimiento de los modelos de aprendizaje automático en diferentes ámbitos.

Presenta un conjunto de métricas independientes del umbral que proporcionan una visión matizada de los sesgos no intencionados en la clasificación de textos. Para ello, examina cómo puede variar la distribución de las puntuaciones de un clasificador en los diferentes grupos designados.

Aborda cuestiones que se deben tener en cuenta y retos que debe afrontar la investigación a la hora de implementar un sistema de crowdsourcing eficaz que permita detectar la toxicidad online, y analiza trabajos recientes en los que se tratan estos temas.

Presenta una innovadora herramienta de visualización y moderación de datos para la Wikipedia basada en la API Perspective.

Presenta la tarea de predecir si una determinada conversación puede verse comprometida por las acciones antisociales de uno de sus participantes, y demuestra que un sencillo modelo que utiliza funciones conversacionales y lingüísticas puede conseguir un rendimiento cercano al de un ser humano en esta tarea.

Desarrolla métodos para medir el sesgo no intencionado en un clasificador de textos según los términos que aparecen en un texto, y propone estrategias para ayudar a mitigarlos. Las limitaciones de estos métodos se abordan en más detalle en el informe de seguimiento Limitations of Pinned AUC for Measuring Unintended Bias.

Relaciona los datos de rastreo y los clasificadores de aprendizaje automático con la información obtenida en encuestas realizadas a usuarios sobre su comportamiento online, y demuestra su correlación.

Presenta una vista inédita del historial completo de las conversaciones entre colaboradores de la Wikipedia en inglés registrando los estados intermedios de las conversaciones, lo que incluye no solo los comentarios y las respuestas, sino también las modificaciones, eliminaciones y restauraciones.

Describe cómo se pueden usar el crowdsourcing y el aprendizaje automático para mejorar nuestra comprensión de los ataques personales online, y aplica estos métodos a la Wikipedia.

Examina los modelos que utilizan el aprendizaje automático para ofuscar el tráfico de red y sortear la censura.

¿Te gustaría saber más? En nuestro sitio para desarrolladores puedes consultar más información técnica.

Ir al sitio para desarrolladores