斯坦福|基于因果引导解缠的跨平台仇恨言论检测(斯坦福ihp项目合作学校)

Causality Guided Disentanglement for Cross-Platform Hate Speech Detection

Paras Sheth, Tharindu Kumarage, Raha Moraffah, Aman Chadha, Huan Liu

[Arizona State University & Stanford University]

基于因果引导解缠的跨平台仇恨言论检测

动机:社交媒体平台在推动公开讨论的同时,也经常被用来传播有害内容。当前用于检测这些有害内容的深度学习和自然语言处理模型过于依赖特定领域的术语,影响了它们适应通用的仇恨言论检测的能力。此外,当平台缺乏高质量的标注数据进行训练时,也会出现重大挑战。因此,本文提出一种跨平台的仇恨言论检测模型,该模型能在一个平台的数据上进行训练,并泛化到多个未见过的平台。

方法:为了在各个平台上实现良好的泛化性,提出一种方法,即将输入表示解缠为不变的和平台依赖的特征。本文还提出,学习因果关系(在各种环境中保持不变)可以显著帮助理解仇恨言论中的不变表示。通过将输入解缠为平台依赖的特征(用于预测仇恨目标)和平台独立的特征(用于预测仇恨的存在),学习了对分布迁移具有抵抗性的不变表示。然后,这些特征被用来预测未见过的平台上的仇恨言论。

优势:通过在四个平台上进行的广泛实验,证明了所提出模型在检测通用仇恨言论方面比现有的最先进方法更有效。

提出了一种新的跨平台仇恨言论检测模型,通过学习因果关系和解缠输入表示,实现了对仇恨言论的有效检测和泛化。

https://arxiv.org/abs/2308.02080 

斯坦福|基于因果引导解缠的跨平台仇恨言论检测斯坦福|基于因果引导解缠的跨平台仇恨言论检测

0
分享到:
没有账号? 忘记密码?