内容纲要
如果哪个同学做知识图谱,我认真跟你讲,你不要用知识图谱。我自己也做知识图谱20多年,just don’t do that。Just pretty bad。It does not work at all。You should use Transformer。(不要那样做。很糟糕。它根本不起作用。你应该使用Transformer。)
今天有很多模型,比方说数字孪生,很难用。因为物理世界一直在变,这个模型僵硬、不变,就用不起来。尤其是用知识图谱建的模型,我做了几十年,超级难算,函数结构差得一塌糊涂。
— 陆奇
概要介绍
知识图谱是结构化的信息, 建模实体之间关系. 从非结构化数据中找出结构化的关系. 并利用结构化的数据进行查询或推理.
场景
通用和特定领域知识图谱的应用场景:
- 智能搜索
- 深度问答: Siri
- 社交网络
- 垂直行业: 金融, 医疗, 电商等
构建
- 知识建模: 领域建模, 找出主要实体
- 知识获取: 主要使用NLP的能力对知识进行理解和获取
- 知识融合: 找到相似的知识进行合并
- 知识存储: 一般会使用图数据库
- 知识应用: 主要是对知识进行检索
名词
名词 | 详细 |
---|---|
信息 | 比较客观的概念或事实 |
知识 | 对信息的理解和总结 |
SPO | Subject-Predict-Object,每条知识可以用三元组来表示 |
知识抽取 | 从数据中抽取出实体,关系和属性等 |
知识融合 | 消除实体,关系和属性等指称项与事实对象之间的歧义 |
知识推理 | 在已有的知识库基础上进一步挖掘隐含的知识,去完善知识库 |
知识表示 | 知识的低维度表示, graph embedding |
Semantic Network | 语义网络 |
本体 | 领域中的概念的集合 |
知识图谱概要介绍
知识图谱分类
- 通用知识图谱(GKG General-purpose Knowledge Graph)
- 领域知识图谱(DKG, Domain-specific Knowledge Graph)
知识分类
- 事实知识(Factual Knowledge)
- 概念知识(Taxonomy Knowledge)
- 词汇知识(Lexical Knowledge)
- 常识知识(Commonsense Knowledge)
重要的知识图谱: Cyc, WordNet, ConceptNet, Freebase, GeoNames, DBPedia, YAGO, OpenIE, BabelNet, WikiData, Google KG, Probase, 搜狗搜立方, 百度知心, CN-DBPedia
知识查询
查询分类:
- 子图查询
- 路径查询
- 关键词查询
- 社团查询
查询语言:
- SPARQL: 知识图谱是图形式, 使用传统的关系型SQL存储和查询不匹配. SPARQL是W3C定义的标准查询语言, 用来对RDF(Resource Description Framework)框架进行查询
- Gremlin: Apache开源项目, 擅长求点到点路径, 可以使用编程方式使用
- Cypher : Geo4J就是用的Cypher, 主要是在图数据库中使用