研究

Perspective API はオンラインディスカッションをより円滑に進めるツールとして機械学習を活用する共同研究の産物です

Perspective API は、Jigsaw と Google の不正行為対抗技術チームによる共同研究の産物であり、オンラインディスカッションをより円滑に進めるツールとして機械学習を活用します。チームは自然言語処理と機械学習における透明性と革新性への取り組みの一環として、データセット、学術研究、オープンソースコードを定期的に公開しています。

公開データセット
オープンソースコード
寄稿した研究論文

オンラインで健全な会話を維持することは重大な課題であり、Google だけで解決できることではありません。そこで、当該分野の学術研究や業界調査を可能にするため、可能な限り公開データセットを作成しています。

Kaggle の Jigsaw コンペ「有害性における意図しないバイアス」

2017 年に閉鎖された Civil Comments プラットフォームの 200 万に及ぶコメントに基づく一般公開の Kaggle コンペ。このデータには、有害性、有害性のサブタイプ、アイデンティティの言及に関するアノテーションが付いており、アイデンティティの言及に対する意図しないバイアスを評価できます。データソースとアノテーションスキーマの詳細については、Kaggle ページのほか、学術論文「テキスト分類における意図しないバイアスを実際のデータで測定する細かい指標」もご覧ください。このデータセットは TensorFlow データセットでも利用できます。

Kaggle コンペ「有害なコメントの分類」

クラウドソーシングされたデータセットに基づく一般公開の Kaggle コンペ。このデータセットには有害性のサブタイプが 4 つ含まれており、ウィキペディアのノートページの約 16 万件のコメントに手動でラベルが付けられています。ラベル付けされたアノテーションは、5,000 人のクラウドワーカーがウィキペディアのコメントをその有害性に応じて評価したものです。このデータセットは、Figshare で「ウィキペディアのノートページの有害性に関する手動でのアノテーション」としても提供されています。

Kaggle の Jigsaw コンペ「多言語の有害なコメントの分類」

参加者が過去の 2 つの Kaggle コンペのデータを使って多言語の有害性モデルを構築する一般公開の Kaggle コンペ。

ウィキペディアのノートページでの個人攻撃に関する手動アノテーション

4,000 人のアノテーターによってそれぞれ 10 個のアノテーションが付けられた、ウィキペディアの 10 万件のコメント。コメントの各アノテーションは、アノテーターがそのコメントを個人攻撃と見なしたかどうかを示します。

ウィキペディアのノートページの自動アノテーション

2001～2015 年に英語のウィキペディアのノートページに投稿された全コメントに対して機械によってラベル付けされたアノテーション。約 9,500 万件のコメントを大規模なデータ分析に利用できます。

建設的なコメントのコーパス

オンラインでの会話に対する健全な貢献についてアノテーションが付けられた 12,000 件のニュースコメント。サイモンフレーザー大学と Jigsaw が共同で作成したデータセットです。オンラインでの暴言に関する First Monday の特集号で間もなく取り上げられます。

不健全なコメントのコーパス

皮肉、敵意、見下した態度など、さまざまな微妙な不健全性に対してアノテーションが付けられた 44,000 件のコメント。オックスフォード大学と Jigsaw が共同で作成したこのデータセットは、Workshop on Online Abuse and Harms で公開される予定です。

コンテキストの有害性データセット

Kaggle コンペ「意図しないバイアス」から派生したデータセットが、コンテキストアウェアデータセットの基礎になっています。このデータセットは、管理におけるコンテキストの重要性を評価する調査の一環として過去のコメントを確認した評価者によってアノテーション済みです。アテネ経済商科大学と Jigsaw が共同で作成したこのデータセットは ACL 2020 で取り上げられました。

Google のオープンソースリポジトリでは、機械学習モデルの構築に活用しているツールの例だけでなく、本格的なツールから試験運用のデモまで、Perspective を使用したさまざまな例を提供しています。

Perspective を使って構築されたツール

Moderator

人間による確認をサポートする機械学習モデルの使用に対応した管理ツール（The New York Times が使用）。

著者エクスペリエンス

ユーザーの入力に応じてフィードバックを提供する著者エクスペリエンスを構築するためのコード。これは Perspective API の一般公開デモで使用されていますが、コードリポジトリには他の著者エクスペリエンスを作り出す機能や方法も多数含まれています。

Tune

インターネット上の有害なコメントが表示される量をカスタマイズできる試験運用版の Chrome 拡張機能。Tune では、ユーザーが YouTube、Facebook、Twitter、Reddit、Disqus などの一般的なプラットフォームでの会話の「量」を設定できるように Perspective が使用されています。この拡張機能は Chrome ウェブストアでダウンロードできます。

Perspective ハックギャラリー

Perspective API を使用して構築されたコンセプトとデモのコレクション。

Perspective を呼び出すためのサンプルコード

perspectiveapi-js-client

Perspective API を呼び出すためのシンプルな JavaScript クライアントライブラリ。

perspectiveapi-simple-server

API キーを保持して Perspective API を呼び出せる、シンプルな Express ベースのプロキシサーバー。

perspectiveapi-proxy

Perspective API クラウドプロジェクトへの制限付きアクセスを提供するために使用できる、Express ベースのシンプルなプロキシサーバー。

perspectiveapi-appscript

Google Apps Script で Perspective API を使用するサンプルコード。

モデル構築ツール

意図しないバイアスの測定と軽減

モデルの意図しないバイアスを測定して軽減するツールのリポジトリ。

WikiDetox

Wikimedia と共同制作した、ウィキペディアノートページの会話の便利なコーパスを作成するツール。

Conversation AI モデル

テキスト用の機械学習モデルをトレーニングするサンプルコード

Perspective API を支えるチームは、その研究を学術フォーラムで定期的に公開しています。

他者の有害性は自分の有害性となるか - 有害性に関するアノテーションへの評価者アイデンティティの影響の調査

アイデンティティに関連するアノテーションに評価者が有害性の情報を付与するにあたり、評価者のアイデンティティが重要な役割を果たすことを実証します。また、さまざまなアイデンティティを基盤とする評価者層のアノテーションでトレーニングしたモデルを比較します。

CrowdWorkSheets: クラウドソーシングされたデータセットアノテーションの根本にある個人のアイデンティティと集団のアイデンティティを明らかにする

データセットデベロッパー向けの新しいフレームワークについて説明します。このフレームワークは、タスクの策定、アノテーターの選出、プラットフォームとインフラストラクチャの選択、データセットの分析と評価、データセットのリリースとメンテナンスなど、ML データパイプラインのさまざまな段階において、重要な決定事項に関する透明性の高い文書を簡単に作成するためのものです。

抽出時の紛失: 有害性モデリングのケーススタディ

大規模な言語モデルから抽出されたモデルの場合、特にアイデンティティに基づいたバイアスに関して、パフォーマンスに隠れたコストが多くあることを実証します。

「脅威が実在することを証明する必要性」: 女性ジャーナリストや女性活動家がオンライン上のハラスメントを文書化して報告する必要性を理解する

ソーシャルメディアプラットフォームで女性ジャーナリストや女性活動家が受けた重大なハラスメントの文書化と報告の必要性を強調する研究フレームワークを導入し、その必要性を Harassment Manager と呼ばれるプロトタイプツールを設計して検証します。

新世代の Perspective API: 効率的な多言語間の文字レベル変換器

Perspective API で使用される Charformer 多言語テキスト分類モデルと、バイアスを最小限に抑えて言語横断的な分類のメリットを最大化する手法を紹介します。このモデルでは全体的な改善が見られますが、特にユーザー生成コンテンツでよく使用される絵文字とコードスイッチングデータにおいて顕著です。

オンラインディスカッション内の有害ワードの検出、有害な表現から丁寧な表現への置き換えの分析

2021 年以降に SemEval 有害ワードの評価につながったタスクを拡張し、有害と評価されたコメントに関連付くワードの特定に使用されるさまざまな手法を提示します。また、可能な場合は同じアイデアを丁寧な方法で伝える代替コンテンツを提案する方法を紹介します。

実際のデータは誰のものか - データセットアノテーションの根本にある個人のアイデンティティと集団のアイデンティティを明らかにする

クラウドソーシングの倫理面に関する検討事項に的を絞りながら、ヒューマンコンピュテーションについての一連の文献を調査します。また、アノテーター自身や、アノテーターの実体験がアノテーションに与える影響、アノテーターとクラウドソーシングプラットフォームとの関係に関連する課題を整理します。ML データパイプラインのさまざまな段階で、データセットデベロッパー向けの具体的な一連の推奨事項と考慮事項を提示することも含まれます。

有害な表現の検出はスレッドのコンテキストに左右される可能性がある

アノテーターが前の投稿を追加のコンテキストとみなしたか、追加のコンテキストがないとみなしたかに応じて 2 種類の有害ラベルを持つ投稿のデータセットを構築およびリリースします。このデータセットに基づいて、コンテキスト感度の推定を導入します。この新しいタスクは、投稿から感じる有害性がコンテキストを考慮した際に変化するかどうかを特定します。

不確実性推定を使用したモデルとモデレーターのコラボレーションの測定と改善

人間と AI の共同プロセスとしてのコンテンツ管理という難しい研究を可能にする新しい指標について説明します。最先端の不確実性モデルが新しい共同レビュー戦略を可能にし、全体的なモデレーターとモデルシステムの共同パフォーマンスを改善することを立証します。

複数のプラットフォームにまたがるハラスメントのオンライン扇動に関する広範囲にわたる特性調査

特定のオンラインコミュニティのメンバーによって投稿されたハラスメントの扇動や呼びかけを調査することによって、多岐にわたるハラスメント戦略を総合的に測定して把握します。組織化された攻撃者が好む手法を分類する分類法を開発し、研究者、プラットフォーム、管轄官庁、ハラスメント防止グループが実行できるアクションと今後の調査も提案します。

SemEval-2021 タスク 5: 有害ワードの検出

SemEval-2021 での有害ワードの検出タスクについて説明します。このタスクの参加者は、有害ラベルが付いた原因となった投稿の有害ワードの予測を求められました。参加者の予測結果と、各参加者の主な戦略がまとめられています。

自己教師ありの変換器を使用した有害なテキストの丁寧な言い換え

有害なコメントの言い換えを提案する新しいモデル、CAE-T5 を開発します。この開発を後押ししたのは、非ペア sequence-to-sequence タスクの最近の進歩です。

隠れた有害なスピーチのクラウドソーシングによるキャプチャ

オンラインスレッド内の隠れた有害性またはあからさまではない有害性にラベルを付けるタスクについての研究です。この研究では、さまざまな種類の隠れた有害性を分類するデータセットを導入し、タスクに沿ってモデルを評価します。

不健全なスレッドの 6 つの属性

個々のコメントに対してスレッドの全体的な健全性への影響を評価した、コメントの新しいデータセットを紹介します。また、不健全さに関する新しい分類も紹介します。

有害な表現の検出: コンテキストは本当に重要か

有害性に対する人の判断にコンテキストが影響を与える可能性があること、投稿から感じる有害性がコンテキストに左右されること、またアノテーターにコンテキストが与えられていない場合は、アノテーションの一部が翻される可能性があることがわかりました。ただし、意外なことに、コンテキストが有害な表現の検出に関するパフォーマンスを改善することはないようです。

建設的なコメントの分類

Constructive Comments Corpus を紹介します。この新しいデータセットは、オンラインコミュニティでのディスカッションの品質を高める新しいツールの構築を支援することを目的としており、建設的なコメントに関するサブ特性の分類が含まれます。建設的なコメントに関する新しい機械学習モデルとともに使用することで、好ましくないコンテンツを除外するだけでなく、ディスカッションに貢献するコメントの促進を重視する管理ツールへの道を切り開きます。

Jigsaw@ AMI と HaSpeeDe2: 事前トレーニング済みのコメントドメイン BERT モデルの微調整

EVALITA（Evaluation of NLP and Speech Tools for Italian）2020 の 2 つの共有タスクに対する提出物について説明します。その一部は Perspective を支えるテクノロジーに基づいています。また、共有タスクでシステムによって生じたエラーの種類を確認します。

SemEval-2019 の ConvAI タスク 6: Perspective と BERT を使用した不適切な表現の識別と分類

有害な表現を検出するために、2 つの強力な基本システムを使用する方法を紹介します。ソーシャルメディアでの不適切な表現の識別と分類におけるこれらのシステムのパフォーマンスを評価します。

テキスト分類における性別バイアスの軽減を目的としたエンベディングのデバイアス

単語のエンベディングをデバイアスする従来の手法で実際にダウンストリームタスクのモデルバイアスをどのように引き上げられるかを実証し、この課題を改善する新しいデバイアス手法を提案します。

モデルレポート用のモデルカード

ドメイン全体の機械学習モデルのコンテキスト、ユースケース、パフォーマンス特性の透明性の高いレポートを促進するフレームワークを提案します。

テキスト分類における意図しないバイアスを実際のデータで測定する細かい指標

分類器のスコア分布が指定されたグループ間で異なる可能性があるさまざまな方法を調査することにより、テキスト分類における意図しないバイアスを細かく確認する、しきい値に依存しない一連の指標を導入します。

クラウドソーシングの本質的なタスク: オンラインディスカッションにおける有害性の理解に関するケーススタディ

効果的なクラウドソーシングという目標に向けてオンライン上の有害コンテンツに関する未解決の問題や研究課題を吟味し、これらに対処する最近の研究調査を紹介します。

WikiDetox Visualization

Perspective API 上に構築されたウィキペディア用の新しいデータ可視化ツールと管理ツールを紹介します。

会話の脱線: 実りのない会話の初期兆候の検出

特定のスレッドが 1 人の参加者による反社会的行動が原因で脱線する寸前であるかどうかを予測するタスクを紹介します。このタスクで、会話機能と言語機能を使用する単純なモデルが人間に近いパフォーマンスを達成できることを実証します。

テキスト分類における意図しないバイアスの測定と軽減

テキスト内の言葉に基づいてテキスト分類の意図しないバイアスを測定する方法と、意図しないバイアスを軽減する手法を開発します。これらの方法の制限事項は、フォローアップ論文意図しないバイアスを測定する Pinned AUC の制限事項で詳しく説明されています。

自己申告とトレースデータの間の誹謗中傷の測定値の相関関係: 概念実証

トレースデータや機械学習の分類器をユーザーによって自己申告されたオンライン行動に関する調査情報に接続し、2 つの間の相関関係を示します。

WikiConv: 大規模なオンライン共同コミュニティの完全なスレッド履歴のコーパス

コメントと返信だけでなく、それらの変更、削除、復元も含めたスレッドの過程を記録することにより、英語版ウィキペディアの寄稿者間のスレッドのこれまでになく完全な履歴のビューを表示します。

Ex Machina: 大規模な個人攻撃

オンライン上の個人攻撃に関する知識をクラウドソーシングと機械学習を使用して広める方法を概説し、その方法をウィキペディアの課題に適用します。

ネットワークトラフィックの難読化とインターネット検閲の自動化

検閲を回避するため、機械学習によりネットワークトラフィックを難読化する手法を調査します。

技術情報について詳しくは、デベロッパーサイトをご覧ください。

デベロッパーサイトに移動

研究

Perspective API はオンライン ディスカッションをより円滑に進めるツールとして機械学習を活用する共同研究の産物です

Perspective を使って構築されたツール

Perspective を呼び出すためのサンプルコード

モデル構築ツール

Perspective API はオンラインディスカッションをより円滑に進めるツールとして機械学習を活用する共同研究の産物です