世界地点数据集:来自维基百科的语料库分析
世界地点 我们进行了三次单独的查询,以获取DBPedia数据库中所有物理地点、自然地点和结构的名称、位置、国家和相关的维基百科文章(Lehmann等人,2015)。使用维基百科文章链接,我们将这些信息与维基百科页面浏览统计数据库的数据进行了连接。通过查询该页面在2018年至2020年期间被访问的次数,我们将其作为是否可以期望语言模型了解该地点的代理,并过滤掉在此时间段内浏览次数少于5000次的地点。
有几个限制值得注意。首先,我们的数据仅来自英文维基百科,因此偏向于英语世界。此外,实体类型的分布并不均匀,例如,我们注意到英国的铁路站比其他任何国家都多,这可能在数据中引入了不希望的相关性,可能会影响探针的结果。最后,大约25%的样本末尾带有某种州或省的修饰词,例如'爱荷华州达拉斯县'。因为许多这些地点更加晦涩,或者在没有修饰词的情况下可能存在歧义,所以我们选择重新排列字符串,形式为'爱荷华州达拉斯县',以使实体得到澄清,但我们不会对常见的国家或州名称进行探测。
原文地址: http://www.cveoy.top/t/topic/bmzF 著作权归作者所有。请勿转载和采集!