2019年11月18日 星期一


上市公司專利記分牌
您当前位置:首页 > 觀點·榜單 > 獨家觀點

觀點·榜單

獨家觀點

基于CNKI檢索平台的數據加工研究統計分析
皇冠足球比分注册: 中国專利技術开发公司

2017-07-10

點擊5810

基于CNKI检索平台、采用文献计量法对国内數據加工非專利技術进行的研究表明,国内数据深加工工作的研究熱點为:文献、文本的标引、加工,以及可用于情报挖掘、数据检索等的信息組織。研究熱點领域的高被引頻次文献反映出了与數據加工相关的前沿技术。



數據加工相關的研究熱點



以“CNKI新平台跨庫檢索”作爲檢索平台,以“數據加工;數據深加工;數據標引;數據深度標引;文獻加工;文獻深加工;文獻標引;文獻深度標引;文摘加工;文摘深加工;文摘標引;文摘深度標引;文本加工;文本標引;信息標引;文獻信息組織;文本信息組織”爲關鍵詞,檢索到的671篇非專利文獻中出現頻次排前四名的關鍵詞(已將同義詞、近義詞的出現頻次進行了合並),分別爲“文獻標引”、“信息組織”、“主題標引”、“數據加工”,由此確定出目前國內數據加工領域的研究熱點爲:文獻、文本的標引、加工,以及可用于情報挖掘、數據檢索等的信息組織。



表1 國內數據加工相關非專利文獻關鍵詞詞頻

關鍵詞

頻次

文獻標引

97

信息組織

86

主題標引

82

數據加工

34

數據加工相关的前沿技术由 “文獻標引”、“信息組織”、“主題標引”、“數據加工”这四个研究熱點领域的高被引頻次文献确定与數據加工相关的前沿技术。



表2 四个研究熱點对应的与數據加工相关的高被引頻次文献

研究熱點

作者

篇名

年份

期刊

作者機構

被引次數

文獻標引

周和玉

科技文獻的知識表達及應用研究

1996

情報學報

武漢交通科技大學

8

李景正等

文獻標引的一致性及其可能的控制

1991

情報科學

黑龍江大學

5

胡繼萍

网络条件下文獻標引的深度与广度

2003

四川圖書館學報

四川工程職業技術學院

5

信息組織

黃如花

网络信息組織的发展趋势

2003

中國圖書館學報

武漢大學

47

黃如花

国内外信息組織研究述评

2002

中國圖書館學報

武漢大學

42

黃如花

网络信息組織的模式

2004

中國圖書館學報

武漢大學

35

主題標引

趙妍等

中文期刊論文自動標引加權設計研究

2004

新世紀圖書館

南京農業大學

16

王維新

文献主題標引一致性研究

1998

山東圖書館季刊

上海師範大學

5

趙妍等

中文期刊文獻通用詞標引分析

2007

圖書與情報

南京農業大學

5

周潇灑等

國內生物醫學期刊主題詞標引現狀

1999

醫學情報工作

溫州醫學院附屬第一醫院

5

數據加工

孫豔玲等

深度加工標引的中國藥物專利數據庫

2008

中國醫藥導刊

国家知識産權局知識産權出版社专利数据研发中心

4

楊賀等

用于计算机辅助文獻標引加工系统的自然语言词表构建

2010

現代圖書情報技術

中國科學技術信息研究所;北京萬方數據股份有限公司

2

李迪

外文文献數據加工中的质量控制

2010

農業圖書情報學刊

中國農業科學院農業信息研究所

2

 

对四个研究熱點对应的与數據加工相关的高被引頻次文献进行技术内容分析:



1. 文獻標引



武漢交通科技大學图书馆的周和玉在《科技文獻的知識表達及應用研究》提出,将知识工程中的知识表达方法OAV三元组法运用于科技文献的知识表达中。OAV法即“对象-属性-值三元组法”,O表示对象,它可以是物理实体如船舶等,也可以是概念上的实体如运输业务等。A表示属性,是指与对象有关的一般特征或性质,如船舶的吃水深度、长度、航速等。V表示属性的值,是指属性在一定情况下的特性,如船舶的吃水深度、长度、航速的具体数值等。文献的每一组OAV就构成一个完整的知识,可称其为“知识单元”,多个知识单元结合起来,可较全面地将一篇文献的研究特点及包含的知识表达出来。用OAV法标引文献可以大大改善定性和定量情报分析的精度和准确性,可以较完整全面地看出这项技术的全貌和发展趋势;OAV法标引的是一个个知识单元,它们较主题词更能全面地反映文献的内容;在统计和分析对象上,OA V法较主题词法更细化、更系统。



四川圖書館學報的胡繼萍研究了《网络条件下文獻標引的深度与广度》。网络采用多媒体与超文本技术相结合的超媒体技术,将各种信息存储在各结点上,用链来连接。用户可以根据自己的意愿及检索时得到的启示与联想,自由地从一个结点跳到另一个结点。网络中的每个结点可以提供多个通向其它结点的链接点(即检索点),复杂的链接结构形成纵横交错的信息网,从各方面入手都可查到同一信息。网络条件下的文獻標引应尽可能详尽地提示出文献的各种特征,不能让任何有用的知识和信息因为标引不彻底而被埋没,要把凡是具有检索意义的事物属性和主题因素都标引出来,提供多种检索途径。网络条件下提高文獻標引的深度和广度的途径包括:利用机读目录提高分类标引深度,缓解体系分类法中集中与分散的矛盾;在机读目录中为文獻標引多个主题词;增加新的标引项目等。



黑龍江大學的李景正等人研究了《文獻標引的一致性及其可能的控制》。文獻標引一致性要求有两层意思:一是不同标引者对同一标引对象的标引结果应趋于一致,或者说,所采用的核心标识相同;另一层是同一标引者,在不同时间和环境下,对同一文献,应给出前后一致的检索标识。文中指出文獻標引一致性的控制方法包括如下几点:(1)人员问题:人的因素是整个文献工作、更是作为文獻標引关键性环节的重要保证。应在保证标引人员相对稳定的前提下,全面提高其素质,包括政治素质、职业道德素质、专业知识和相关学科知识水平、科研素质;(2)集中标引:集中标引是指在全国范围内指定一专门带有权威性的机构,担任统一标引工作;(3)制定分析提纲与标引规则:为了保证主题分析符合“客观性、专指性、网络性、一致性、针对性”的要求,应当根据不同文献机构的不同分析要求、不同文献的不同分析项目,制定主题分析提纲,供主题分析时使用,以克服任意性;(4)对比和参考国外的标引成果:在我国大多数使用《中图法》、《科图法》、《汉语主题词表》及其它专业词表的文献机构,针对外文文献一般不直接使用国外检索语言,但外文书刊的检索标识,可直接转换成国内所使用的检索语言的标识。为了使用方便,应将国外检索语言,尤其是通用性强的分类表引进翻译,编印成对应表。



2. 信息組織



信息組織领域目前国内研究最多的分支为网络信息組織。武漢大學的黃如花在《网络信息組織的发展趋势》指出,理想的网络信息組織模式应该以用户为中心,遵循实用性和易用性原则,综合运用自然语言和人工语言(分类语言、主题语言),充分利用新兴技术和人们经验的积累,朝着更符合用户需要的方向发展。具体来讲,应该朝着以下7 个方向发展:信息描述标准化、组织活动合作化、组织技术智能化、资源与服務集成化、用户界面可视化、内容揭示深入化、组织方法多样化。



3. 主題標引



南京農業大學的趙妍等在《中文期刊論文自動標引加權設計研究》中,分析得出了期刊中论文的内容主题与文章题名、文摘、關鍵詞、首段、第二段、倒数第二段、末段以及参考文献等8个标引源之间的关系,以及不同标引源的主题表达能力,并在此基础上设计用于加权标引的相应权值。以上8个标引源表达能力的先后顺序为:文摘>题名>關鍵詞>首段>尾段>参考文献>第二段>倒数第二段。对它们分别设置的加权值可建议为:5:5:5:4:4:3:2:2。



上海師範大學的王維新在《文献主題標引一致性研究》中提出,(1)《汉语主题词表》是文献主題標引的主要工具,但需要制定出一个《汉语主题词表》的使用细则,(2)《中国分类主题词表》在一定意义上起着规范作用。通过丰富优化词表、完善标引规则,可以提高文獻標引的一致性。



溫州醫學院附屬第一醫院的周潇灑等在《國內生物醫學期刊主題詞標引現狀》中,主要论述了目前采用主题词标引的期刊很少,仅占3.4%。而采用主题词标引的期刊中,又存在6种明显的标引错误和不当,包括:(1)自编主题词,标引的主题词在《MeS H》和《中医药学主题词表》中找不到完全相同的词,或只有部分相同的词,其实仍是自由词;(2)无主题词/副组主题词格式,主题词与副主题词完全混淆,把副主题词做主题词标引;(3)漏标主题词;(4)标引过粗,未选择专指主题词,选词概念过宽;(5)未标引副主题词,没有副主题词限定,会使主题词概念过大,将造成漏检;(6)副主题词组配不当,选用不恰当或不规范的副主题词进行组配。



南京農業大學的趙妍等《中文期刊文獻通用詞標引分析》指出,通用词是指在专业领域没有独立检索意义的泛指词,通用因素一般为单元词,都不具有独立检索意义,不能作为读者查找文献的入口。例如:研究、设备、调查、设计、分析、演变、方案、总结、进展、概况、制造、性质、作用、工艺、方法、现象、理论、过程等概念均为通用因素。应当尽量少用通用词,可以选用由通用因素与主体因素结合而成的自由词,以提高专指度和先组度。此外,无论叙词标引或自由标引,都不能简单地切分题名或文摘进行选词,要注意对文献中的隐含内容深入分析,加以揭示。同时指出,应当加强自由标引系统的词库控制,可以为系统建立一个专门的标引用词的词表或词库。期刊网还应当逐步开发计算机辅助标引或自动标引和分类系统。这样可以将著者标引的關鍵詞和机器自动标引的關鍵詞结合起来,生成转换出相关的主题词、關鍵詞和分类号,为它们加上必要的链接后,就可以为用户提供扩展检索概念检索服務。



4. 數據加工



數據加工依文献数据类型不同可分为报刊数据、期刊数据、论文数据、专利数据等。在药物专利數據加工方面,国家知識産權局知識産權出版社专利数据研发中心的孫豔玲等在《深度加工標引的中國藥物專利數據庫》中进行了深度加工標引的中國藥物專利數據庫研究,中国药物专利数据库对中国药物专利进行深度加工,其加工内容包括:专利发明主題標引、医疗应用标引、范畴分类、文摘重新撰写、化学物质信息标引、中药方剂信息标引。经过深度加工標引的中國藥物專利數據庫在数据库系统设计上采用专利题录信息主数据库与中药材数据库和西药辞典辅助文档相配合的方式,实现了对药物专利题录信息、化学物质信息、中药材信息、化学结构图形等信息的检索。



对于外文文献的數據加工,中國農業科學院農業信息研究所的李迪在《外文文献數據加工中的质量控制》中研究了外文文献數據加工中的质量控制,文中指出數據加工过程中注意的要点包括:(1)文摘载体信息标识准确。载体信息包括书刊名、國際標准号、年卷期或年月日以及文章的页码;(2)选题准确。避免加工无技术性内容或只有时效性的信息,如新闻、会议通知、广告等;(3)文摘数据各字段区分准确;(4)数据审核准确。数据的审核包括文献源信息的审核、期刊名称的标识、区分每期期刊的标识以及数据内容的校对;(5)录入员的培训与管理。




现代數據加工工作已越来越多地采用计算机辅助加工技术,而词表系统又是计算机辅助加工文献数据工作的重要模块之一,中国科学技术信息研究所的楊賀等人在《用于计算机辅助文獻標引加工系统的自然语言词表构建》中指出,自然语言词表大量使用作者自身所用词汇,可随时增词,对标引员的专业素质要求较低、标引速度快,易实现自动标引。自然语言词表的构件过程为:以《中国学位论文数据库》的人工标引词汇作为基础词库,运用计量分析法对人工标引词汇从词频、词长、词类型、词共现等多方面进行统计,根据其特点优选自由词,而后运用字面相似度通过计算机辅助计算同义、近义等词间关系,从而构成自然语言词表。(作者:张姝娜)

友情鏈接

蜂利大數據平台

海外知識産權法律援助平台

国家知識産權局

關注我們

  • 国家專利導航服務号

  • 華智數創訂閱號

  • 開發公司訂閱號

  • 蜂利微信訂閱號

皇冠足球比分官网:国家知識産權局专利局 中国專利技術开发公司主办 地址:100088北京市海淀区西土城路6号国家知識産權局 京公网安备11010802010656 京ICP备13002317号-1

网址:http://www.xinhuaqm.cn技術支持:清木源科技网站地图
热门关键词:

皇冠足球比分老虎机| 皇冠足球比分平台| 皇冠足球比分app注册| 皇冠足球比分网投| 皇冠足球比分官网网站| 皇冠足球比分网页版| 皇冠足球比分下载app| 皇冠足球比分游戏| 皇冠足球比分网址| 皇冠足球比分官方下载| 皇冠足球比分登录| 皇冠足球比分平台官网| 皇冠足球比分网站| 皇冠足球比分平台注册| 皇冠足球比分官方网址| 皇冠足球比分官方网站| 皇冠足球比分注册| 皇冠足球比分客户端| 皇冠足球比分开户| 皇冠足球比分娱乐城| 皇冠足球比分娱乐场| 皇冠足球比分官网| 皇冠足球比分首页| 皇冠足球比分在线| 皇冠足球比分娱乐登陆| 皇冠足球比分官网下载| 皇冠足球比分电子游戏| 皇冠足球比分网址多少| 皇冠足球比分平台登陆|