cnki
中国知识基础设施工程
CNKI工程的具体目标,一是大规模集成整合知识信息资源,整体提高资源的综合和增值利用价值;二是建设知识资源互联网传播扩散与增值服务平台,为全社会提供资源共享、数字化学习、知识创新信息化条件;三是建设知识资源的深度开发利用平台,为社会各方面提供知识管理与知识服务的信息化手段;四是为知识资源生产出版部门创造互联网出版发行的市场环境与商业机制,大力促进文化出版事业、产业的现代化建设与跨越式发展。
1 . CNKI 文献搜索
基于对文献内容的详细标引, CNKI 文献搜索提供了对标题、作者、关键词、摘要、全文等数据项的搜索功能;文献搜索还提供了多种智能排序算法。相关性排序考虑了文献引用关系、全文内容、文献来源等多种因素,使排序结果更合理。被引频次排序是根据文献的被引频次进行排序;期望被引排序通过分析文献过去被引用的情况,预测未来可能受到关注的程度;作者指数排序则是根据作者发文数量、文献被引用、发文影响因子等评价作者的学术影响力,并据此对文献进行排序。
CNKI 文献搜索提供的知识聚类功能是一般搜索引擎没有的。基于快速聚类算法,对返回结果的知识点进行聚类,并将主要知识点显示给用户,帮助用户改善搜索表达式,扩展搜索意图。
概念的定义是描述知识的一种基本单元,被称为定义型知识元。 CNKI 学术定义搜索提供对学术定义的快速查询。 CNKI 定义型知识元库收录了从文献中自动抽取的学术定义 120 多万条。
由于这些定义来源于学术期刊等文献,是不同学者对该概念的认识和论述,因此具有更广泛的参考价值。通过阅读不同角度的解释,就可以全面了解其含义和发展状况,特别是对那些还没有形成明确定义或存在争议的学术概念。从任意定义出发,就可以深入地学习相关的知识。这些是工具书无法做到的。
3 . CNKI 数值知识元搜索
量化知识是极其重要的知识,如:人均 GDP 、失业率等,也是基本的知识单元,被称为数值型知识元。 CNKI 数值知识元搜索提供对这类数值的搜索。
CNKI 数值型知识元库包含 5000 多万条知识元,对应于具有明确含意、至少含有一个以上数值的句子。它们有两个来源,一是 CNKI 数据库中的文献;二是国家统计局、商务部等发布数值内容的权威网站。数值搜索结果通常包含用户直接想要的答案,许多数值还能以图表方式显示,以帮助用户全面了解问题。
4 . CNKI 新概念搜索
学术研究的灵魂在于创新。创新成果通常以提出新的定理、概念、方法等形式发表出来。 CNKI 新概念搜索提供对学术新概念的浏览和查询。对学术新概念的抽取采用了多种知识挖掘方法,并由各学科领域的专家进行人工审核。
新概念搜索可以按年份浏览或搜索某一领域中的新概念,以帮助用户及时了解学科的发展状况,促进学者发表有创新性的研究成果。
CNKI 翻译助手能实现对中英文词、短语、句子的辅助互译。 CNKI 中英文对齐语料库包含 100 多万中英文对齐词汇(大部分是学术词汇)和 1000 多万对中英文句子对。它们是从 CNKI 数据库中含有中英文对齐标题、关键词、摘要等数据项中采用多级对齐技术自动抽取的。
与一般电子词典相比,翻译助手具有以下优势:一是通过将句子拆分为词,能够对短语或句子进行辅助翻译;二是除了词汇翻译外,还提供了大量例句,并按句子结构相似性进行排序;三是能够翻译术语的英文缩略语。
CNKI 图表搜索能够实现对学术图形、表格基于内容的搜索。图表库分别包含 500 万以上从文献中自动抽取的图形、表格,以及它们对应的标题、所在文献、作者、文献中对图表内容的阐述等,以此实现基于内容的图表搜索。这是目前一般搜索引擎无法实现的。
四、 CNKI 知识搜索的基础
1 .制定了“ CNKI 系列数据库产品标准”,涉及到从数据入编、加工到最后形成数据库产品的全过程,从数据源头、数据质量等方面为开展深入的知识挖掘提供了基础。
2 .建设了“中国知识资源总库”,包括期刊、学位论文、会议论文、报纸、年鉴、工具书等源数据库,在资源数量和完备性上为建设各种知识搜索产品提供了保证。
3 .建设了各种知识库资源,包括: CNKI 知识词典、引文数据库、各种索引数据库、主题词词典等,对实现知识搜索、提高搜索性能起到了基础性作用。
)

