每十年,美国政府都要进行一次人口普查,调查内容是人口的居住情况、工作情况以及语言使用情况等等。
人口普查是一项重要而有意义的工作,但它未必能真正定义被调查者的身份——普通美国人的目标与梦想是什么?他们如何看待自己?所以,最近一次(2010年)的普查结果公布后,艺术家R·卢克·杜布瓦(R. Luke DuBois)决定自己发起一场关于美国的调查,并在TED演讲“透过大数据看美国人”(Insightful human portraits made from data)中讲述了相关内容。
杜布瓦在美国各地的21家交友网站上创建档案、收集数据,并浏览了1900万人的个人资料。为什么要这样做呢?他说,这是为了观察与分析人们是如何描述自己的。
杜布瓦运用了TF-IDF的统计方法,也就是通过计算词频(TF,某一给定词语在该文件中出现的频率)与逆向文件频率(IDF,一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到)的乘积,得到某一地区民众使用的典型词汇,并过滤掉各地通用的不重要词汇。例如,“爱”、“性”等常用词汇会被排除在外,收录的只是最具地方特色的词汇(人名也被排除在外)。
随后,杜布瓦将美国各个城市的名字用关键词加以替换,他的研究项目“更完美的国家”就此诞生了。杜布瓦向我们介绍了更名改姓之后的美国,向我们展示了他总结出的关键词正是美国各地民众灵魂的写照。