‘壹’ 什么是知识图谱
知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
‘贰’ 中文知识图谱的什么是知识图谱
允许用户搜索搜索引擎知道的所有事物,人物或者地方,包括地标,名人,城市, 球队,建筑,地理特征,电影,天体,艺术作品等等,而且能够显示关于你的查询的实时信息。它是迈向下一代搜索业务关键的第一步,使得搜索智能化,根据用户的意图给出用户想要的结果。 知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系 知识图谱相对于传统的本体和语义网络而言,实体覆盖率更高,语义关系也更加复杂而全面
‘叁’ 中文知识图谱的介绍
中文知识图谱(Chinese Knowledge Graph)1,最早起源于Google Knowledge Graph。知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。中文知识图谱的直接推动力来自于一系列实际应用,包括语义搜索、机器问答、情报检索、电子阅读、在线学习等等。网络2、搜狗以及复旦大学GDM实验室1相继推出了其中文知识图谱。
‘肆’ 知识图谱有什么用处
知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头网络和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢?
目录
1. 什么是知识图谱?
2. 知识图谱的表示
3. 知识图谱的存储
4. 应用
5. 挑战
6. 结语
1. 什么是知识图谱?
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识推理
推理能力是人类智能的重要特征,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”关系,“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友,那我们可以推测张三和李四也很有可能是朋友关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。
大数据、小样本、构建有效的生态闭环是关键
虽然现在能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。
在这种小样本条件下,构建有效的生态闭环尤其的重要。所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。
6. 结语
知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。
参考文献
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库
【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).
‘伍’ 知网可视化分析图怎么下载
知网的文档格式为CAJ,里面的文字和图片都是不能下载的,只能用于参考查阅。
可视化图标有数据图,点状分布图,线性图用于查看自我数据变化,柱状图用于看同类型数据对比,饼状图用于分析个体在全局中的占比。可视化分析图谱意思是指将大量的数据、信息、知识转化为一种人类的视觉形式,直观、形象的表现、解释和分析。
视化图标及其特点
柱形图利用柱子的高度,能够比较清晰的反映数据的差异,一般情况下用来反映分类项目之间的比较,也可以用来反映时间趋势。折线图用来反映随时间变化的趋势。当我们需要描述事物随时间维度的变化时常常需要使用该图形。
通常折线图描绘的点越多,越能够清楚的观察到数据的变化趋势。方便决策者及时做出决策。饼图的使用应该慎重,因为肉眼对面积大小感应不敏感。是最容易被误用的。但在具体反映某个比重的时候,配上具体数值,会有较好的效果。在需要描述某一部分占总体的百分比时,适合使用饼图。
但对比的数量最多不能超过6个,否则会产生视觉的混乱。散点图的数据为三维数据,使用两组数据构成多个坐标点,分析坐标点的分布情况,判断两个变量之间的关联或分布趋势。适合于观测大量数据的分布特点,对于视觉的直观性更强。点与点之间的密集度反应着该区域的整体权重比例。
‘陆’ 如何构建知识图谱
自己建吗可以下载图谱软件构建
http://www.cnblogs.com/R0b1n/p/5224065.html可以参考一下这个
SPSS: 大型统计分析软件,商用软件。具有完整的数据输入、编辑、统计分析、报表、图形绘制等功能。常用于多元统计分析、数据挖掘和数据可视化。
Bibexcel: 瑞典科学计量学家Persoon开发的科学计量学软件,用于科学研究免费软件。具有文献计量分析、引文分析、共引分析、耦合分析、聚类分析和数据可视化等功能。可用于分析ISI的SCI、SSCI和A&HCI文献数据库。
HistCite: Eugene Garfield等人于2001年开发的科学文献引文链接分析和可视化系统,免费软件。可对ISI的SCI、SSCI和SA&HCI等文献数据库的引文数据进行计量分析,生成文献、作者和期刊的引文矩阵和实时动态引文编年图。直观的反映文献之间的引用关系、主题的宗谱关系、作者历史传承关系、科学知识发展演进等。
CiteSpace: 陈超美博士开发的专门用于科学知识图谱绘制的免费软件。国内使用最多知识图谱绘制软件。可用于追踪研究领域热点和发展趋势,了解研究领域的研究前沿及演进关键路径,重要的文献、作者及机构。可用于对ISI、CSSCI和CNKI等多种文献数据库进行分析。
TDA: Thomson Data Analyzer(TDA)是Thomson集团基于VantagePoint开发文献分析工具。商用软件。具有去重、分段等数据预处理功能;可形成共现矩阵、因子矩阵等多种分析矩阵;可使用Pearson、Cosine等多种算法进行数据标准化;可进行知识图谱可视化展示。
Sci2 Tools: 印第安纳大学开发的用于研究科学结构的模块化工具可从时间、空间、主题、网络分析和可视化等多角度,分析个体、局部和整体水平的知识单元。
ColPalRed: Gradnada大学开发的共词单元文献分析软件。商用软件。结构分析,在主题网络中展现知识(词语及其关系);战略分析,通过中心度和密度,在主题网络中为主题定位;动态分析,分析主题网络演变,鉴定主题路径和分支。
Leydesdorff: 系类软件。阿姆斯特丹大学Leydesdorff开发的这对文献计量的小程序集合。处理共词分析、耦合分析、共引分析等知识单元体系。使用“层叠图”实现可视化知识的静态布局和动态变化。
Word Smith: 词频分析软件。可将文本中单词出现频率排序和找出单词的搭配词组。
NWB Tools: 印第安纳大学开发的对大规模知识网络进行建模、分析和可视化工具. 数据预处理;构建共引、共词、耦合等多种网络;可用多种方法进行网络分析;可进行可视化展示.
Ucinet NetDraw: Ucinet是社会网络分析工具。包括网络可视化工具Net Draw。用于处理多种关系数据,可通过节点属性对节点的颜色、形状和大小等进行设置。用于社交网络分析和网络可视化。
Pajek: 来自斯洛文尼亚的分析大型网络的社会网络分析免费软件。Pajek基于图论、网络分析和可视化技术,主要用于大型网络分解,网络关系展示,科研作者合作网络图谱的绘制。
VOSviewer: 荷兰莱顿大学开发的文献可视化分析工具。使用基于VOS聚类技术技术实现知识单元可视化工具。突出特点可视化能力强,适合于大规模样本数据。四种视图浏览:标签视图、密度视图、聚类视图和分散视图。
[4]陈悦, 刘则渊, 陈劲等. 科学知识图谱的发展历程[J]. 科学学研究, 2008, (03): 449-460.
[5]Shiffrin, R.M., and Katy Börner. Mapping Knowledge Domains[C]. Proc. Proceedings of the National Academy of Sciences of the United States of America pp. 5183-5185.
[6]Börner, K., Chen, C.和Boyack, K.W. Visualizing knowledge domains[J]. Annual review of information science and technology, 2003, 37, (1): 179-255.
[7]CM, C. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology, 2006, 57, (3): 359-377.
[8]陈悦和刘则渊. 悄然兴起的科学知识图谱[J]. 科学学研究, 2005, (02): 149-154.
[9]邱均平. 信息计量学[M]. (武汉大学出版社, 2007. 2007).
[10]沙勇忠和牛春华. 信息分析[M]. (科学出版社, 2009. 2009).
[11]塞沃尔, 建军和煦. 链接分析: 信息科学的研究方法[M]. (东南大学出版社, 2009. 2009).
[12]Egghe, L.和Rousseau, R. Introction to informetrics: Quantitative methods in library, documentation and information science[J]. 1990
[13]韩家炜, 坎伯, 裴健等. 数据挖掘: 概念与技术[M]. (机械工业出版社, 2007. 2007).
[14]Wasserman, S. Social network analysis: Methods and applications[M]. (Cambridge university press, 1994. 1994).
[15]Persson, O., R. Danell, J. Wiborg Schneider. How to use Bibexcel for various types of bibliometric analysis[C]. Proc. International Society for Scientometrics and Informetrics., Leuven, Belgium2009 pp. 9–24.
[16]Yang, Y., Akers, L., Klose, T.等. Text mining and visualization tools–impressions of emerging capabilities[J]. World Patent Information, 2008, 30, (4): 280-293.
[17]Börner, K., Huang, W., Linnemeier, M.等. Rete-netzwerk-red: analyzing and visualizing scholarly networks using the Network Workbench Tool[J]. Scientometrics, 2010, 83, (3): 863-876.
[18]廖胜姣. 科学知识图谱绘制工具:SPSS和TDA的比较研究[J]. 图书馆学研究, 2011, (05): 46-49.
[19]Scott, M. WordSmith tools[M]. (Oxford: Oxford University Press, 1996. 1996).
[20]Batagelj, V.和Mrvar, A. Pajek - Program for Large Network Analysis[M]. (1998. 1998).
[21]Borgatti, S.P., Everett, M.G.和Freeman, L.C. Ucinet for Windows: Software for social network analysis[J]. 2002
[22]Van Eck, N.J.和Waltman, L. VOSviewer: A computer program for bibliometric mapping[J]. 2009
‘柒’ 知识图谱是什么有哪些应用价值
知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头网络和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢?
目录
1. 什么是知识图谱?
2. 知识图谱的表示
3. 知识图谱的存储
4. 应用
5. 挑战
6. 结语
1. 什么是知识图谱?
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识推理
推理能力是人类智能的重要特征,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”关系,“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友,那我们可以推测张三和李四也很有可能是朋友关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。
大数据、小样本、构建有效的生态闭环是关键
虽然现在能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。
在这种小样本条件下,构建有效的生态闭环尤其的重要。所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。
6. 结语
知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。
参考文献
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库
【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).
‘捌’ citespace怎么根据检索结果绘制知识图谱
CiteSpace的核心功能是产生由多个文献共被引网络组合而成的一种独特的共被引网络,以及自动生成的一些相关分析结果。每个文献共被引网络对应于一个历时一年或几年的时间段。最终显示的网络不是各个网络之间的简单叠加
‘玖’ 知识图谱概念是什么
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。
知识图谱又称为科学知识图谱,其本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。知识图谱通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合。
构建方式
知识图谱有自顶向下和自底向上两种构建方式。所谓自顶向下构建是借助网络类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;所谓自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。
以上内容参考:网络-知识图谱
‘拾’ CNKI学术图片知识库怎么可以免费浏览呀
这个没有的
目前CNKI
正在各个高校推广免费试用活动,在学校IP范围内是可以免费登录的