Mapping Users across Social Media Platforms by Integrating Text and Structure Information - 2017 IEEE ISI
Summary
这篇文章的思路比较简单清晰:首先将不同社交网络获得的用户信息分为文本信息和网络结构信息。
文本信息又分为用户描述(word2vec embedding)、用户名(表示成单词列表)和地理位置信息(分层次划分),网络结构信息就是获得不同平台上两个用户的共同朋友,作为一个集合。对于用户描述,计算两个用户之间的余弦相似性,对于用户名和朋友关系,计算 Jaccard Index,对于地理位置,直接匹配最低层次的划分是否相同,相同则相似性为1,最后通过线性加权的方式得到整体的相似性。给整体相似性设置一个阈值,如果大于该阈值,表明这两个用户是一个人,否则,不是一个人。
这篇文章有很多可以改进的东西。
Research Objective
提出一种 mapping method 能够整个 文本 和 结构 的信息
模型首先基于word2vec或字符串匹配来表示用户名、描述、位置信息,以关系网络表示的朋友关系信息作为结构信息。然后利用这些信息,利用 Jaccard index 或余弦相似度进行相似度计算。采用线性模型获取用户对的整体相似度,进行用户映射。
Problem Statement
文本信息和社交网络特征的融合应用。
关键是文本和结构信息的有效表示和相似性的计算。
文本信息和社交网络结构信息反映了用户的行为模式。但目前存在的方法都是基于单一信息的user mapping。
Text information based mapping method
利用用户的文本信息:用户名、位置、年龄、标签以及用户在社交网络中产生的content等
Structure information based mapping method
anchor link prediction
- 监督方法:需要知道一部分已经存在的 anchor links 作为训练集来训练模型。
- 一些方法直接使用人工提取的特征,如度、聚类系数、三角形数和共同邻居等,这些方法没有利用网络的内部结构规律。
- 表示学习的方法
- probability network
- 无监督的方法:NP-hard 组合优化问题
Methods
Theoretical Background
- Subjective description:主要是用户的职业、兴趣等
- Objective Information:真实姓名、地理位置信息等真实的信息
- Social Relationship:通过模型的构建,将用户的社会关系和角色特征转化为结构特征。Graph algorithms 可以应用
Information representation
User description:用户描述是一小段对自己的描述,其中包括用户的爱好、职业等信息
应用 word2vec 模型将描述文本转为向量表示
通过去除stopwords和一些其他的自然语言预处理操作,获得一系列单词$(word{1}, word{2}, …, word{k})$ 通过预训练的 n-dimension word2vec模型,可以得到每个单词的向量表示 $(wordvector{1}, wordvector{2}, …, wordvector{k})$
因此在社交平台A上的用户N可以描述为:
Username:将用户名转换为 word list
社交平台A上用户N的用户名可以表示为
Friend information
假定平台 A 上的用户 N 有 n 个朋友 $F^{A} = \left[f{1}^{A}, f{2}^{A}, \ldots, f{n}^{A}\right]$, 平台B上用户 M 有 m 个朋友 $F^{B}=\left[f{1}^{B}, f{2}^{B}, \ldots, f{m}^{B}\right]$ ,那么他们有 k 个重叠的朋友的话,表示为 $F^{o}=\left[f{1}, f{2}, \ldots, f_{k}\right]$
Location
将地理位置信息划分为不同的层次:$L{N}^{A}=\left[C i t y{N}, \text { State}{N}, Nation{N}\right]$
Similarity Computation
User description - Cosine similarity
Username and Friend - Jaccard index
用户名:
Friend:
Location - Matching
如果最低的非空区域划分等级中是一致的,则 $Sim(L{N}^{A}, L{M}^{B}) = 1$, 若不匹配,则 $Sim(L{N}^{A}, L{M}^{B}) = 0$
Information Integration
Notes
Sun S , Li Q , Yan P , et al. Mapping users across social media platforms by integrating text and structure information[C]// 2017 IEEE International Conference on Intelligence and Security Informatics (ISI). IEEE, 2017.
数据集来自于文章《Friend transfer: Cold-start friend recommendation with cross-platform transfer learning of social knowledge》目前还没找到数据。
- 本文作者: Kelly Liu
- 本文链接: http://tiantianliu2018.github.io/2019/10/06/论文阅读《Mapping-Users-across-Social-Media-Platforms-by-Integrating-Text-and-Structure-Information》/
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!