解决方案

Freebase数据集介绍

seo靠我 2023-09-22 18:53:44

数据集地址

freebase数据集:Data Dumps  |  Freebase API (Deprecated)  |  Google Developers

FB15K数据集:en:transe [ESEO靠我verest] (utc.fr)

FB15K-237:TimDettmers/ConvE: Convolutional 2D Knowledge Graph Embeddings resources (SEO靠我github.com)

基本介绍

Freebase是一个由Google创建的庞大、多领域的知识图谱数据集,收集了大量的实体、属性和关系信息。

Freebase包含超过2.5亿个实体,其中每个实体都由一个唯一SEO靠我的ID标识,并与其他实体之间通过数千个关系进行连接。这些关系可以是人物的职业、国家的首都、电影的导演等等。实体和关系都有一个或多个属性,用于描述它们的特征和属性,如人物的出生日期、国家的面积和电影的上SEO靠我映时间等。

Freebase数据集的形式非常灵活,可以通过API或下载方式获取。它已被广泛用于机器学习、自然语言处理、信息检索和知识图谱等领域的研究和应用。然而,由于一些原因,Google于2016年关SEO靠我闭了Freebase,并将其数据迁移到了Wikidata中。

1、数据展示

Freebase包含了大量的实体、属性和关系信息,其中一些比较有名的数据包括:

实体:美国总统奥巴马(/m/02mjmr)、苹果公SEO靠我司(/m/0k8cd)、巴黎圣母院(/m/01_5g)等。属性:奥巴马的出生日期(/people/person/date_of_birth)、苹果公司的创始人(/business/company/foSEO靠我unders)、巴黎圣母院的建成时间(/architecture/structure/building_commission_date)等。关系:奥巴马的妻子(/people/person/spousSEO靠我e_s)、苹果公司的总部所在地(/business/company/headquarters)、巴黎圣母院的建筑风格(/architecture/building/architectural_stylSEO靠我e)等

:“ / ” 类似于Web上的URI,可以用来标识一个特定的资源或概念。

使用“/”符号作为字符串ID的分隔符,有助于将不同的实体、属性和关系进行区分和分类,并且可以方便地将它们组织成一个树形结SEO靠我构或者图形结构。这种结构化的形式也使得Freebase数据可以更方便地被处理和查询。

除此之外,Freebase还包含了大量的音乐、电影、书籍、地理位置、历史事件等领域的数据。这些数据可以被用来构建知识SEO靠我图谱,支持各种知识图谱相关的应用和研究。

2、扩展数据

FB15K

FB15k是一个基于Freebase数据集构建的知识图谱数据集,由Bordes等人在2013年创建。它是一个包含15,000个三元组的数据SEO靠我集,其中包括11,000个训练三元组、2,000个验证三元组和2,000个测试三元组。

FB15k的三元组包括头实体、关系和尾实体,例如(/m/01lsmm,/location/country/capiSEO靠我tal,/m/02hrh0)表示一个国家(/m/01lsmm)和它的首都(/m/02hrh0)之间的关系。FB15k覆盖了多个领域,包括人物、组织、地点、电影、书籍、音乐等。

FB15k数据集已经成为知SEO靠我识图谱嵌入模型(如TransE、TransH、TransR等)的常用基准数据集,用于评估这些模型在多关系数据建模任务上的性能。对于研究者来说,FB15k数据集提供了一个标准化的实验环境,可以方便地比较SEO靠我不同模型在同一任务上的表现。

FB15K-237

FB15k-237是FB15k数据集的一个扩展版本,由Toutanova等人在2015年发布。与FB15k不同,FB15k-237只包含237个关系,但是SEO靠我包含更多的三元组(共310,116个三元组),其中包括272,115个训练三元组、17,535个验证三元组和20,466个测试三元组。

FB15k-237的关系是从原始的FB15k数据集中筛选出来的,保SEO靠我留了那些至少有50个训练三元组的关系。这些关系包括人物、组织、地点、电影、书籍、音乐等多个领域,但是相对于原始的FB15k数据集,覆盖的领域更加广泛。

FB15k-237数据集同样被广泛应用于知识图谱嵌SEO靠我入模型的评估和比较。与原始的FB15k数据集相比,FB15k-237在评估关系预测性能时更加严格,因为其关系更少但是三元组更多,这也使得它成为知识图谱嵌入模型评估的一种更加挑战性的数据集。

对比

关系数量SEO靠我不同:FB15K包含了15000个三元组,涵盖了约1400个关系,而FB15K-237只包含了237个关系,但是有着更多的三元组(共310,116个三元组)。

关系的选取不同:FB15K包含了FreebSEO靠我ase数据集中出现的所有关系,而FB15K-237从FB15K中筛选出了那些至少有50个训练三元组的关系,保留了237个关系。

难度程度不同:由于FB15K-237在关系数量上更少但三元组数量更多,因此SEO靠我相对于FB15K,FB15K-237在知识图谱嵌入模型的评估上更加严格和挑战性更高。

应用领域不同:由于关系数量和类型的不同,FB15K和FB15K-237在应用领域方面也有所不同。例如,FB15K中的SEO靠我关系类型更加多样化,包括影视、音乐、人物、组织、地点等多个领域,而FB15K-237则更加注重自然语言推理和问答等领域的应用。

3、一些数据格式

real_name_index 实体索引

第一列表示实体唯一SEO靠我ID号,第二列为实体名。

path_relation_index    关系路径索引

是Freebase中的一个索引文件,用于记录两个实体之间的关系路径。

以下是path_relation_index文件中SEO靠我的一个示例行:

"/m/06t8y" "/m/0dgr0" "/people/person/place_of_birth|/people/person/nationality|/people/persoSEO靠我n/profession"

这个示例行表示实体 "/m/06t8y" 和实体 "/m/0dgr0" 之间存在一条关系路径,路径上的关系依次为"/people/person/place_of_birth"SEO靠我、"/people/person/nationality"和"/people/person/profession"。这些关系表示,实体"/m/06t8y"出生在某个地方,是某个国家的国民,从事某个职业SEO靠我,而实体 "/m/0dgr0" 就是这个国家。

“SEO靠我”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与 我们联系删除或处理,客服邮箱:html5sh@163.com,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同 其观点或证实其内容的真实性。

网站备案号:浙ICP备17034767号-2