你好,游客 登录 注册 搜索
背景:
阅读新闻

朋友与相似关系的大数据验证

[日期:2015-07-01] 来源:  作者: [字体: ]

  About this course

  本课程是北京大学开设的一门在线跨学科选修课程,主要面向信息技术、社会学和经济学等专业的本科生。课程内容涉及用计算思维的方法讨论社会学和经济学的一些经典问题。学习运用计算思维分析社会学、经济学问题的方法,加深对某些生活现象的理解,体会计算与社会科学的互动。 Learn to analyze and reason about problems in social sciences with computational thinking, appreciate interactions between computing and social sciences, as well as gain deeper understanding of some common phenomena in life and society

  Lecture transcript

  这一节,我们讨论 用数据对同质性现象作实证分析的 一种方法和例子。当我们看到一群经常在一起, 关系不错的人,具有某种相似的 特征的这种现象的时候,到底是因为相似 使他们走到一起来,还是因为走到一起后, 变得相似,已经是过去的事情了,很难区别这两种因素的作用。 但人们认为,的确有两种因素在起作用, 那就是我们前面讲过的这个selection和influence的作用,就是自然选择和社会影响。

  这样一种认识能不能定量的来验证呢? 我们可以想象,人们当初, 最初,都是不认识的。如果,他们具有某种相同的特征, 则一定是自然选择的原因。 但随着时间的进展,如果这种相似性 提高到一定的程度,可能就会出现一定的机会, 让他们俩认识并成为朋友。而成为朋友以后,相互影响, 他们的相似性呢,也会进一步提高。例如, 甲喜欢爬香山,每周去一次, 偶尔碰上乙,开始还没有注意。但碰的次数多了,可能就会打招呼了, 就会认识了,谈的投机,就成为了朋友。这就叫由相似性 导致朋友关系的建立。进而呢,这个甲发现乙每周是去两次的, 他觉得和乙一起聊天很愉快,于是也改成每周去两次了。 而且和这个乙约好了相同的时间,这样呢,他们俩就更相似了。 这就是因为朋友关系提高了两个人的相似性。

  这是不难想到的,甚至还可以举出具体的 例子。但我们也可以举出反例。 有些人很相似,但不是朋友;也有些人是朋友, 但并不相似。于是就可以问,前面说的相似有利于朋友关系 的建立,朋友关系有助于提高相似性, 是否具有统计意义上的规律性。 2008年,有人利用网络数据,做了一项研究, 得出了肯定支持的结论。 数据中反映出的什么情况 是对这种结论的支持呢?我们要看人们之间相似性的变化 与他们社会活动行为变化之间的关系。 特别是,在人们的活动中要确定相当于我们前面说的爬香山 两人第一次打招呼的那一个时点, 这个对应于社交关系从无到有的转变。 在那之前,相似性的变化取决于自然选择,在那 之后,相似性的变化,也就加入了社会影响的因素。 也就是说,我们希望看到下面这样一种状况, 横轴是叫, 这个社会,社会活动; 纵轴呢,我们管它叫相似性。 相似性。 然后这中间呢,应该有一个关键的一个点,这个关键的点呢, 那么,这个,这个社会活动,在这个关键点之前呢,也会发生一些的社会活动。 在这个,这一点在这,这个之后呢,也会发生社会活动。 那么相似性呢,它,在这之前,它会慢慢慢慢变化,变化到一定的时候呢, 产生了一定的活动,这,这一点很重要。然后在这个之后,在这个之前,这一段里头,这叫做 自然选择产(生)的影响,使得这相似性的变化。在这一点之后, 那么,那么相似性呢,应该是继续变化。而且这个变化中呢,也加进了这个 相互影响的作用。我们很希望呢,看到,如果说我们在数据中看到了是这样一个情况, 我们就说,这个数据是支持上面那样一个结论的。 也就是说,横轴是两个人 随时间发生的特定社会活动,例如爬山。纵轴呢,就是这个相似性。 首次建立联系的这个事件,需要标出来,相当于我们前面说的第一次打招呼。 我们希望看到的是,对于两个建立了联系的人而言, 在那之前,相似性逐步提高,就像我说的,相似性逐步提高。 在那之后,在那之后呢,相似性呢,是进一步提高,进一步提高,是这样一个,一个情况。

  做这样一个研究,首先,需要确定一个合适的数据集。 是一个能够反映随着时间变化的 大规模社会归属网,就可以起到这样一个作用。 所谓大规模呢,是为了结果具有统计意义。 不仅是涉及的人要比较多,涉及的社交聚点,就是我们 前面说过的,这个social foci, 以及大家,这个社会活动的一些场合, 也要很多,才能符合我们所需要的统计意义。 不仅是其中社交网络部分的边,有变化。 人和社交聚点之间的边,也要有变化。 前者呢,反映了朋友关系 的变化,后者反映了则是个人特征的变化。而且呢,时间跨度要比较长。 具体来说,2008年的那一项研究啊,用的是 英文的wiki的数据,一共涉及到50多万人,300多万篇文章, 跨了好几年的一个数据集。所对。社会归属网呢,社交聚点是 维基百科的文章, 人呢,就是那些编辑过文章的人。 维基百科提供了一种编辑之间的通信机制, 可以得到两个人之间首次发生通信的时间。 于是呢,我们就可以看到 图中示意的这么一个社会归属网。上面这一排,上面这一排呢, 就是那些个文章,就是那些文章,下面这一排呢,就是那些参与编辑这些文章的人。 这样一个网,我们就叫社会归属网,因为呢, 在整个这个下面,我们是有一个社交网络,这中间的这些个边 就是它们之间的关系。那么下面这一部分和上面这一部分之间的这些绿色的边, 就表示这个人们的活动。比方说有一条边,比方A现在有一条边到X, 表示他编辑过X这篇文章。比方说C 有三条边,一个到Y,一个到X, 还有一个到Z, 就表示呢,他,这三篇文章,他都编辑过。这样一个情况,我们已经知道,这就叫 社会归属网。

  两人,如果 都编辑过的文章的数目越多,就是说他们共同编辑过的 文章的数目越多,说明他们的兴趣的共同点就越多, 它们之间的相似性就越大。 所以,剩下一个关键的问题,那就是,如何衡量两个人之间的相似性。 在这个编辑维基百科的场合, 直觉上可以认为,两人都编辑过的文章数目越多, 说明他们的兴趣共同点越多,它们之间的相似性呢,也就越大。进一步的,我们 用两人都编辑过的文章数作分子, 用他们总共编辑过的文章数作分母,这样一个量来表示他们的相似性。 比方说,我,下面这个图啊,我们对这个图来看, 这个甲和乙是两个人,上面有4篇文章,那么这个时候他们的相似性是多少呢? 分,分子,应该是他们共同编辑的文章数量, 比方说这个B,这是他俩共同编辑的, 这个D也是他俩共同编辑的,A和C呢, 这是分别有编辑,所以这个分子呢就应该是2, 那么分母是多少呢?是他俩一共编辑过的文章,一共编辑了多少篇,一共编辑了4篇。 所以,这个时候,甲和乙的相似性我们就叫0.5。 这样呢,感觉也是有道理的。 显然,随着时间的推移,我们是一个带时间的数据, 随着时间的推移,人们的活动呢,不断的发生,你比方说,也许过了一段 时间以后,这个甲又开始去编辑这个C了,那人们活动呢不断的发生,人们之间的相似性呢,就是一个变量,是一个变量。 有了上面这些准备,我们看这个图呢, 就有意义了。

  这个图就是 2008年几位学者做的一项研究的最后的结果。 那么,它的横轴呢,就是我们说的人们的社会活动,这里就是 讲的编辑维基百科文章的活动,纵轴呢,就是相似性, 就是相似性。这中间有个重要的点,就是两个人发生联系的 那一个时点。那么前面这一段时间大家都 各自编辑自己感兴趣的文章。我们看到呢,在这个过程中, 两个人的兴趣呢,也是逐步逐步的提高的,两个人的这个相似性 是逐步提高的。那么提高到一定的程度,比方提高到这个地方,那么他们就建立了联系。这就对应我前面讲的 爬香山,见面见的次数多了,那他们就会打招呼了。 一旦建立了联系以后,那么后面这些活动也是在编辑这些文章。 那么这些文章呢,也就受到了相互之间的影响。我们看到这个相似性呢, 也是进一步的提高。那么这,我们就看到了一个用 大数据来,这个,验证或者说来刻画 我们常见的这种朋友,和相似,这种同质性背后的 原因的那么一个过程。 小结呢, 这,这一段呢, 我们展示了一种利用社会归属网大数据剖析同质性现象原因的这种思路。 我们这里的学习要点呢,是从问题到模型, 就是我们的社会归属网。到数据,用什么样的数据, 以及到映射,映射就是要 从数据中得到与问题要素的关系,比方说, 我们关心什么叫相似性,要从数据中,总结出来这样的,相似性的表达。 我们的学习要点是这样一个过程,是这样一个过程。





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (3)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款