研究

Perspective API はオンライン ディスカッションをより円滑に進めるツールとして機械学習を活用する共同研究の産物です

Perspective API は、Jigsaw と Google の不正行為対抗技術チームによる共同研究の産物であり、オンライン ディスカッションをより円滑に進めるツールとして機械学習を活用します。チームは自然言語処理と機械学習における透明性と革新性への取り組みの一環として、データセット、学術研究、オープンソース コードを定期的に公開しています。

オンラインで健全な会話を維持することは重大な課題であり、Google だけで解決できることではありません。そこで、当該分野の学術研究や業界調査を可能にするため、可能な限り公開データセットを作成しています。

2017 年に閉鎖された Civil Comments プラットフォームの 200 万に及ぶコメントに基づく一般公開の Kaggle コンペ。このデータには、有害性、有害性のサブタイプ、アイデンティティの言及に関するアノテーションが付いており、アイデンティティの言及に対する意図しないバイアスを評価できます。データソースとアノテーション スキーマの詳細については、Kaggle ページのほか、学術論文「テキスト分類における意図しないバイアスを実際のデータで測定する細かい指標」もご覧ください。このデータセットは TensorFlow データセットでも利用できます。

クラウドソーシングされたデータセットに基づく一般公開の Kaggle コンペ。このデータセットには有害性のサブタイプが 4 つ含まれており、ウィキペディアのノートページの約 16 万件のコメントに手動でラベルが付けられています。ラベル付けされたアノテーションは、5,000 人のクラウドワーカーがウィキペディアのコメントをその有害性に応じて評価したものです。このデータセットは、Figshare で「ウィキペディアのノートページの有害性に関する手動でのアノテーション」としても提供されています。

参加者が過去の 2 つの Kaggle コンペのデータを使って多言語の有害性モデルを構築する一般公開の Kaggle コンペ。

4,000 人のアノテーターによってそれぞれ 10 個のアノテーションが付けられた、ウィキペディアの 10 万件のコメント。コメントの各アノテーションは、アノテーターがそのコメントを個人攻撃と見なしたかどうかを示します。

2001~2015 年に英語のウィキペディアのノートページに投稿された全コメントに対して機械によってラベル付けされたアノテーション。約 9,500 万件のコメントを大規模なデータ分析に利用できます。

オンラインでの会話に対する健全な貢献についてアノテーションが付けられた 12,000 件のニュース コメント。サイモン フレーザー大学と Jigsaw が共同で作成したデータセットです。オンラインでの暴言に関する First Monday の特集号で間もなく取り上げられます。

皮肉、敵意、見下した態度など、さまざまな微妙な不健全性に対してアノテーションが付けられた 44,000 件のコメント。オックスフォード大学と Jigsaw が共同で作成したこのデータセットは、Workshop on Online Abuse and Harms で公開される予定です。

Kaggle コンペ「意図しないバイアス」から派生したデータセットが、コンテキストアウェア データセットの基礎になっています。このデータセットは、管理におけるコンテキストの重要性を評価する調査の一環として過去のコメントを確認した評価者によってアノテーション済みです。アテネ経済商科大学と Jigsaw が共同で作成したこのデータセットは ACL 2020 で取り上げられました。

Google のオープンソース リポジトリでは、機械学習モデルの構築に活用しているツールの例だけでなく、本格的なツールから試験運用のデモまで、Perspective を使用したさまざまな例を提供しています。

Perspective を使って構築されたツール

人間による確認をサポートする機械学習モデルの使用に対応した管理ツール(The New York Times が使用)。

ユーザーの入力に応じてフィードバックを提供する著者エクスペリエンスを構築するためのコード。これは Perspective API の一般公開デモで使用されていますが、コード リポジトリには他の著者エクスペリエンスを作り出す機能や方法も多数含まれています。

インターネット上の有害なコメントが表示される量をカスタマイズできる試験運用版の Chrome 拡張機能。Tune では、ユーザーが YouTube、Facebook、Twitter、Reddit、Disqus などの一般的なプラットフォームでの会話の「量」を設定できるように Perspective が使用されています。この拡張機能は Chrome ウェブストアでダウンロードできます。

Perspective API を使用して構築されたコンセプトとデモのコレクション。

Perspective を呼び出すためのサンプルコード

Perspective API を呼び出すためのシンプルな JavaScript クライアント ライブラリ。

API キーを保持して Perspective API を呼び出せる、シンプルな Express ベースのプロキシ サーバー。

Perspective API クラウド プロジェクトへの制限付きアクセスを提供するために使用できる、Express ベースのシンプルなプロキシ サーバー。

Google Apps Script で Perspective API を使用するサンプルコード。

モデル構築ツール

モデルの意図しないバイアスを測定して軽減するツールのリポジトリ。

Wikimedia と共同制作した、ウィキペディア ノートページの会話の便利なコーパスを作成するツール。

テキスト用の機械学習モデルをトレーニングするサンプルコード

Perspective API を支えるチームは、その研究を学術フォーラムで定期的に公開しています。

アイデンティティに関連するアノテーションに評価者が有害性の情報を付与するにあたり、評価者のアイデンティティが重要な役割を果たすことを実証します。また、さまざまなアイデンティティを基盤とする評価者層のアノテーションでトレーニングしたモデルを比較します。

データセット デベロッパー向けの新しいフレームワークについて説明します。このフレームワークは、タスクの策定、アノテーターの選出、プラットフォームとインフラストラクチャの選択、データセットの分析と評価、データセットのリリースとメンテナンスなど、ML データ パイプラインのさまざまな段階において、重要な決定事項に関する透明性の高い文書を簡単に作成するためのものです。

大規模な言語モデルから抽出されたモデルの場合、特にアイデンティティに基づいたバイアスに関して、パフォーマンスに隠れたコストが多くあることを実証します。

ソーシャル メディア プラットフォームで女性ジャーナリストや女性活動家が受けた重大なハラスメントの文書化と報告の必要性を強調する研究フレームワークを導入し、その必要性を Harassment Manager と呼ばれるプロトタイプ ツールを設計して検証します。

Perspective API で使用される Charformer 多言語テキスト分類モデルと、バイアスを最小限に抑えて言語横断的な分類のメリットを最大化する手法を紹介します。このモデルでは全体的な改善が見られますが、特にユーザー生成コンテンツでよく使用される絵文字とコード スイッチング データにおいて顕著です。

2021 年以降に SemEval 有害ワードの評価につながったタスクを拡張し、有害と評価されたコメントに関連付くワードの特定に使用されるさまざまな手法を提示します。また、可能な場合は同じアイデアを丁寧な方法で伝える代替コンテンツを提案する方法を紹介します。

クラウドソーシングの倫理面に関する検討事項に的を絞りながら、ヒューマン コンピュテーションについての一連の文献を調査します。また、アノテーター自身や、アノテーターの実体験がアノテーションに与える影響、アノテーターとクラウドソーシング プラットフォームとの関係に関連する課題を整理します。ML データ パイプラインのさまざまな段階で、データセット デベロッパー向けの具体的な一連の推奨事項と考慮事項を提示することも含まれます。

アノテーターが前の投稿を追加のコンテキストとみなしたか、追加のコンテキストがないとみなしたかに応じて 2 種類の有害ラベルを持つ投稿のデータセットを構築およびリリースします。このデータセットに基づいて、コンテキスト感度の推定を導入します。この新しいタスクは、投稿から感じる有害性がコンテキストを考慮した際に変化するかどうかを特定します。

人間と AI の共同プロセスとしてのコンテンツ管理という難しい研究を可能にする新しい指標について説明します。最先端の不確実性モデルが新しい共同レビュー戦略を可能にし、全体的なモデレーターとモデルシステムの共同パフォーマンスを改善することを立証します。

特定のオンライン コミュニティのメンバーによって投稿されたハラスメントの扇動や呼びかけを調査することによって、多岐にわたるハラスメント戦略を総合的に測定して把握します。組織化された攻撃者が好む手法を分類する分類法を開発し、研究者、プラットフォーム、管轄官庁、ハラスメント防止グループが実行できるアクションと今後の調査も提案します。

SemEval-2021 での有害ワードの検出タスクについて説明します。このタスクの参加者は、有害ラベルが付いた原因となった投稿の有害ワードの予測を求められました。参加者の予測結果と、各参加者の主な戦略がまとめられています。

有害なコメントの言い換えを提案する新しいモデル、CAE-T5 を開発します。この開発を後押ししたのは、非ペア sequence-to-sequence タスクの最近の進歩です。

オンライン スレッド内の隠れた有害性またはあからさまではない有害性にラベルを付けるタスクについての研究です。この研究では、さまざまな種類の隠れた有害性を分類するデータセットを導入し、タスクに沿ってモデルを評価します。

個々のコメントに対してスレッドの全体的な健全性への影響を評価した、コメントの新しいデータセットを紹介します。また、不健全さに関する新しい分類も紹介します。

有害性に対する人の判断にコンテキストが影響を与える可能性があること、投稿から感じる有害性がコンテキストに左右されること、またアノテーターにコンテキストが与えられていない場合は、アノテーションの一部が翻される可能性があることがわかりました。ただし、意外なことに、コンテキストが有害な表現の検出に関するパフォーマンスを改善することはないようです。

Constructive Comments Corpus を紹介します。この新しいデータセットは、オンライン コミュニティでのディスカッションの品質を高める新しいツールの構築を支援することを目的としており、建設的なコメントに関するサブ特性の分類が含まれます。建設的なコメントに関する新しい機械学習モデルとともに使用することで、好ましくないコンテンツを除外するだけでなく、ディスカッションに貢献するコメントの促進を重視する管理ツールへの道を切り開きます。

EVALITA(Evaluation of NLP and Speech Tools for Italian)2020 の 2 つの共有タスクに対する提出物について説明します。その一部は Perspective を支えるテクノロジーに基づいています。また、共有タスクでシステムによって生じたエラーの種類を確認します。

有害な表現を検出するために、2 つの強力な基本システムを使用する方法を紹介します。ソーシャル メディアでの不適切な表現の識別と分類におけるこれらのシステムのパフォーマンスを評価します。

単語のエンベディングをデバイアスする従来の手法で実際にダウンストリーム タスクのモデルバイアスをどのように引き上げられるかを実証し、この課題を改善する新しいデバイアス手法を提案します。

ドメイン全体の機械学習モデルのコンテキスト、ユースケース、パフォーマンス特性の透明性の高いレポートを促進するフレームワークを提案します。

分類器のスコア分布が指定されたグループ間で異なる可能性があるさまざまな方法を調査することにより、テキスト分類における意図しないバイアスを細かく確認する、しきい値に依存しない一連の指標を導入します。

効果的なクラウドソーシングという目標に向けてオンライン上の有害コンテンツに関する未解決の問題や研究課題を吟味し、これらに対処する最近の研究調査を紹介します。

Perspective API 上に構築されたウィキペディア用の新しいデータ可視化ツールと管理ツールを紹介します。

特定のスレッドが 1 人の参加者による反社会的行動が原因で脱線する寸前であるかどうかを予測するタスクを紹介します。このタスクで、会話機能と言語機能を使用する単純なモデルが人間に近いパフォーマンスを達成できることを実証します。

テキスト内の言葉に基づいてテキスト分類の意図しないバイアスを測定する方法と、意図しないバイアスを軽減する手法を開発します。これらの方法の制限事項は、フォローアップ論文意図しないバイアスを測定する Pinned AUC の制限事項で詳しく説明されています。

トレースデータや機械学習の分類器をユーザーによって自己申告されたオンライン行動に関する調査情報に接続し、2 つの間の相関関係を示します。

コメントと返信だけでなく、それらの変更、削除、復元も含めたスレッドの過程を記録することにより、英語版ウィキペディアの寄稿者間のスレッドのこれまでになく完全な履歴のビューを表示します。

オンライン上の個人攻撃に関する知識をクラウドソーシングと機械学習を使用して広める方法を概説し、その方法をウィキペディアの課題に適用します。

検閲を回避するため、機械学習によりネットワーク トラフィックを難読化する手法を調査します。

技術情報について詳しくは、デベロッパー サイトをご覧ください。

デベロッパー サイトに移動