《焦作图苑》第一期
发布时间:2017-05-26 23:58:04 查看: 5318次目录
复刊词-------------------------------------------------------------------------------
每期一篇
中文报纸文献内容深加工研究初探-------------------------------------------
制度规范
公共图书馆服务规范-----------------------------------------
地方文献
一种神秘的语言——徽宗语-----------------------------------
焦作市图书馆地方特色文化数据库设计方案--------------------------------
市馆动态
焦作市图书馆试运行以来的工作回顾-----------------------------------------
焦作市图书馆举办业务知识暨《公共图书馆服务规范》培训班-----
焦作市图书馆荣获2012年 "绘出心中的童谣
--全国少年儿童童谣绘画创作征集大赛"积极组织奖--------------
基层图书馆
奋进发展的沁阳市图书馆-------------------------------------
知识窗
文献资料的基本概念------———————————————————
文化通讯
北京将建全球最大文化保税仓库----------------------------------------------
中国民协确定鹿邑为“中国老子文化之乡”-------------------------------
复刊词
《焦作图苑》创办于1986年,她是焦作市图书馆试办的图书馆学、情报学专业内部交流刊物,它是图书馆工作者的活动园地,它为我市图书馆工作人员提供了学术研究和经验交流的平台。,《焦作图苑》创办以来,在我市各级领导的关怀下,在图书馆同仁的大力支持下,共编辑出版了三十余期,发表文章三百五十余篇,为焦作市图书馆事业的发展做出了应有的贡献。2002年根据市政府统一规划,焦作市图书馆拆迁异地重建,《焦作图苑》随之停刊。
光阴似箭,一晃就是十年,焦作市图书馆新馆终于在龙源湖畔拔地而起,2011年10月1日正式对广大读者试运行,一年来经过广大图书馆干部职工共同努力,焦作市图书馆以新的面貌、新的环境、新的理念、新的服务方式为广大读者提供了优质的服务,为焦作市的精神文明建设做出了一定的贡献。
在焦作市图书馆马上就要正式对外开放之际,《焦作图苑》也将以新的面貌面向广大图书馆同仁。新的《焦作图苑》不论在形式还是内容上都将有新的改观,装帧上更美观内容上更丰富。新的《焦作图苑》将开设如下几个栏目——每期一篇:每期转载一篇对市(县)图书馆业务工作比较贴近文章,为图书馆日常工作提供参考;——学术研究:刊登焦作地区图书馆工作人员学术文章,为图书馆中高级技术人员提供研究平台,目的是中高级技术人员图书馆业务研究水平;——经验交流:为图书馆初级技术人员提供经验交流平台,主要是为了提高图书馆初级技术人员写作水平;——制度规范:不定期的刊登与图书馆有关的规范制度等等:——地方文献:主要刊登有关焦作地区风土人情等地方文献;——市馆动态:主要刊登焦作市图书馆的有关工作情况;——基层图书馆:刊登以县(市)为主的基层图书馆的业务工作情况。——知识窗:每期刊登一些与图书馆有关业务知识;——文化通讯:转载国内外重大的文化信息。
新的《焦作图苑》每年四期,来搞不收版面费,投稿一律用电子稿,欢迎图书、情报工作者踊跃积极投稿。
《焦作图苑》编辑部
中文报纸文献内容深加工研究初探
薛春香(南京理工大学信息管理系)
报纸文献是刊登在报纸上的新闻报道、广告等一切文字和图像资料,是一种极为丰富而未被充分开发的重要信息源,具有特殊的参考价值和史料价值,被称为“活档案”。报纸文献的价值一直为专家学者所认同,但由于其加工远滞后于图书、期刊、学位论文等其他文献资料,导致其不便于查找获取,被引用率极低,其参考价值尚未得到充分发挥。据csscI统计,报纸文献被引用率一直徘徊在3%左右,远远低于图书期刊;其中五年内报纸文献量占被引报纸文献总量的比例(即普赖斯指数)超过60%。
1 报纸文献数据库建设现状
从目前现状来看,报纸文献加工还处于大规模数字化阶段,主要体现在报纸全文浏览、版面还原技术研究,对内容的深加工研究比较薄弱,仅限于简单的分类索引和剪报应用。报纸文献数据库建设主要经历了三个阶段:(1)从纸质报纸索引向报纸题录库转变,以提供报纸文献线索为主;(2)大规模数字化加工阶段,主要是一些主流报纸的全文数据库建设和多种报纸文献混合的大型报纸全文数据库建设,以回溯建库为主;(3)数字出版阶段,各大报媒除发行纸质报纸外,还同步提供网络版、手机版报纸的浏览服务,并出现了综合性电子报纸平台,如8点报、AB 报、爱读爱看等等,但这些报纸平台主要提供报纸阅读功能,对内容方面的建设很少。
早期的报纸文献数据库以题录库为主,主要是从印刷版的索引文献向题录数据库发展,内容检索以提供分类索引为主,以上海图书馆的《全国报刊索引》数据库和人大书报资料中心的《中文报刊资料索引》数据库为代表。这两种索引数据库作为主要的文献检索工具,对报纸文献进行了规范的主题标引和学科分类,为用户提供了检索的便利,但不提供原文获取。
全文数据库的建设是对报纸文献进行内容深加工的前提和基础。随着全文索取需求的增长,数字化加工的规模化、数字出版和报纸网络发行,各大报纸出版集团开始回溯和建设本报的全文数据库资源,如《人民日报》图文数据库、《解放军报》图文数据库、《中国青年报》图文数据库、《经济日报》全文数据库等等。自此,全文数据库建设取得了实质性进展。
此后,一些专业文献数据库服务商开始关注报纸文献全文数据库的建设,既有综合性的中国知网《中国重要报纸全文数据库》、方正阿帕比《中国报纸资源全文数据库》等,也有专题性的如维普《中国科技经济新闻数据库》、深圳巨灵《中国财经报刊数据库》等。
从各数据库的规模来看,相较于国内目前正式在版发行的2000种左右的报纸种数,报纸文献数据库的加工规模远远不够;从各数据库的文献加工情况看,报纸文献的加工还处于浅层次阶段,主要提供:(1) 基于报名、版名、新闻标题、作者、栏目等外部特征的检索;(2)基于全文索引的粗粒度全文检索;(3) 基于简单分类索引体系的粗分类检索。个别数据库提供了基于关键词的主题检索和基于《中图法》或《中文新闻信息分类与代码》的检索与导航
2报纸文献内容深加工的主要方法
2.1报纸文献内容加工传统方法
(1)索引。各种索引是传统环境下实现报纸文献检索最主要的途径,也是开发利用报纸文献的重要手段。据调查,国内正式出版的2000种中文报纸中,目前仅人民日报、光明日报、解放军报、中国青年报、解放日报、文汇报、山西日报等配置书本式索引或数据库,其他绝大多数报纸都缺乏完善的检索系统,这与网络信息时代的要求及我国新闻事业发展的现状不相适应。索引的类型以篇名索引和分类索引为主,其中分类索引主要依据《中图法》《资料法》或自编分类体系来编制,以《全国报刊索引》为代表。
(2)剪报。剪报的实质是将各种报纸上的信息按照专题进行采集、归类、汇总,形成全文型的资料性信息产品。剪报是信息机构针对报纸资源进行开发利用的主要方式,往往会依据本机构的服务特色就某些特定专题进行剪报。但无论是早期的手工剪报,还是现在的电子剪报,对人工的依赖程度都很大。
2.2报纸文献的自动标引和自动分类
虽然报纸文献全文数据库建设规模越来越大,但基于全文的检索效率是低下的。因此,分类和主题标引依然是目前报纸文献内容深加工的主要形式。鉴于报纸文献信息量巨大,早在上世纪90年代就有学者提出了报纸文献的自动标引和自动分类。
目前报纸文献的自动标引系统设计主要采用基于多种词表和标引源权重方案的关键词抽取标引,是一种自由标引,适当利用后控制词表进行主题规范;归类主要基于词表兼容互换原理,实现以词(串)定类;各种命名实体的抽取也是以名称词典为基础,辅以规则。由此可见,报纸文献的内容加工对各种词典、词表、类表等组成的知识组织系统依赖性很大。
3报纸文献内容深加工的主要技术问题
3.1缺乏针对性、具体化的报纸文献加工规范
(1)报纸和报纸文献著录规则。报纸是一种连续性出版物,每篇报纸文献又是一个独立的著录标引对象。虽然我国有专门针对报纸期刊这类连续出版物的著录标准----《连续性资源著录规则》,但在国家标准和相关论著中对于报纸的著录标引论及甚少,大多以期刊为例进行解释说明。实际上,报纸与期刊很不相同,不能混为一谈。比如,同一种报纸存在不同地区版本、不同语种版本、不同时间版本。因此,应该有针对报纸文献加工的专门标准和规范。
1988年,IFLA发布了一份《国际报纸编目指南》,用于规范报纸编目,但这只是一份指导性文件,并未形成报纸编目的具体规则和MARC编码标准。国内陈源蒸、石鸿飞等学者也对报纸著录中的问题进行过探讨,基本解决了报纸整体著录的问题。但时至今日图书馆和文献数据库服务商对于报纸文献的著录仍未达成共识,报纸文献数据库著录字段的设计和检索点的提供各不相同。
(2)报纸文献标引规范。报纸文献的标引是其内容深加工的主要形式,尤其是报纸的深度标引更是挖掘报纸文献价值、形成信息产品的主要手段。但目前缺乏针对报纸文献的标引方案和标引规则,所依据的还是通用的、简单粗略的文献主题标引规范。因此,无论是分类标引还是主题标引,受控标引还是自由标引,手工标引还是自动标引都应从便于检索、充分发挥报纸文献价值着手,针对各种性质、各种专业领域的报纸文献制订具体的标引规则和标引方案。如不同实体对象(人物、地区、机构、会议等)、不同主题(政治文献、社会新闻、经济文献、文化事业和文化活动、文艺作品、体育新闻、科技文献)、不同体裁(新闻消息、报告)、不同信息类型(广告、图片)等等,都应规定出必须标引的内容和不必标引的内容,规定出标引深度和标引专指度等,这样才能保证报纸文献价值的最大化开发和利用。
3.2缺乏统一公认、更新及时的报纸文献知识组织工具
各种分类表、主题词表、术语表等知识组织工具在文献内容加工组织和开发利用中具有重要的支撑作用。但目前,针对报纸文献的各种词表存在编制困难、更新滞后、难以统一普及、缺乏互操作性等一系列问题。
(1)分类表。在《中文新闻信息分类与代码》标准发布之前,报纸文献的分类体系一直是各自为政,比如知网《中国重要报纸全文数据库》先是采用自编的三级类目体系,包括10大专辑、168个专题、近3600 个细目,后又改用《中图法》类号标注;而《全国报刊索引》数据库则以《资料法》作为分类依据;各大报系又有适应本报内容的自编分类体系,缺乏针对新闻信息特点的专用统一的分类体系。2003年科技部启动《中文新闻信息技术标准》的国家科技攻关项目,形成了新闻信息分类标准——《中文新闻信息分类与代码》,并于2006年5月付诸实施。该标准把政治、经济、文化三大部类作为一级类目划分的基础,’采用层次编码法,主表从粗到细,划分出23个一级、315个二级类目、5683个细目,类目总数达到9314 个、类目层级达到5级,同时附加了6个通用复分表和11个专类复分表。《中文新闻信息分类与代码》国家标准的颁行推动了报纸文献分类组织的统一,但限于人力、分类体系转换成本和效率等诸多原因,普及度和采用率并不高。
(2)主题词表。报纸文献涉及的主题、体裁甚广,并且不断有新主题、新事物涌现,很难用一部通用的主题词表来覆盖。《全国报刊索引》以综合型《中国分类主题词表》作为其主题标引的受控依据;新华社则专门编制了用于存储和检索新闻资料的专业叙词表——《新闻叙词表》,收录正式主题词8603条,非正式主题词1201条,学科范围涉及国内外政治、军事、外交、文化、科技及社会生活各个方面。但总体来说,由于报纸文献主题标引规模较小,即使标引也以自由标引为主,因此,适用于报纸文献的主题词表编制和应用研究甚少。
除了分类表和主题词表外,因为报纸文献中有大量的新闻报道,其中的人名、国家地区、事件名、机构名、产品名等等命名实体都具有一定的检索意义和参考价值。为了对这些命名实体进行抽取和规范控制,还需要名称权威档等知识组织系统的支撑。
3.3缺乏特色性、高增值的报纸文献内容深加工方式
从目前报纸文献内容加工的方式来看,仍以传统文献著录和标引,形成指示性文献检索线索为主,或是人工依赖程度很大的剪报产品,内容深加工形式单一。
报纸文献涉及范围广泛,既有新闻报道类的消息型信息,也有资料型信息,还有知识型信息;报纸文献的受众面广,用户特点和用户需求各异。因此,完全可在及时、新颖且多为第一手资料的报纸文献基础上形成针对性、特色性、高增值的各种信息产品。
(1)专题库。按照各种实体、具体事件、具体行业、具体领域整合多种报纸上一定时间段内的各种相关文献,形成各种专题数据库,提供给不同用户。
(2)知识库。从抽取各种事实性、数据性的报纸资料中抽取事实、数据、实例等形成知识库,即事实数据库产品。
(3)参考咨询库。专题库和知识库还只是基于报纸文献一手资料的采集、选择和撷取的加工,而在这些分类别、序化的聚合信息基础上,辅以数据挖掘和专家智慧,则可以形成研究性、预测性的市场调查报告、行情分析、趋势预测等高增值的信息产品,使公开的报纸文献成为重要的竞争情报信息源。
4报纸文献内容深加工的主要趋向
无论是旧报纸还是现行报纸,单纯的数字化是远远不够的,必须实现报纸文献内容的深加工,形成增值信息产品。目前学界、业界对于网络新闻的组织、挖掘探索越来越多,虽然网络新闻并不等同于报纸文献,但将在网络信息挖掘、图书期刊论文资料等领域内容加工的方法和技术移植到报纸文献内容加工领域,并结合报纸文献的特点形成针对报纸文献内容加工的专门方法是值得尝试的。具体如下:
(1)由各自为政的分类索引向基于新闻分类标准整合报纸信息资源方向发展。分类索引是报纸文献内容组织最主要的传统方式,但由于缺乏统一的分类体系,导致各个报系和文献数据库之间分类组织互操作的障碍,更遑论进行资源整合。现在作为国家标准的《中文新闻信息分类与代码》分类表已经颁行,但让各单位立即摒弃原有的分类体系却不可行,何况这个国家标准的适用性还需要进一步的验证。因此,从资源整合的角度出发,可考虑在沿用原有分类体系的基础上,将其与标准分类表之间进行映射转换,通过分类表的互操作来实现资源整合。
(2)由简单主题标引向各种实体抽取方向发展。实体标引在报纸文献标引中是有历史的,而各种命名实体的抽取和标注对于报纸文献检索、建立文献关联、形成专题产品都具有重要意义。因此,在计算语言学和信息组织智能化不断发展的前提下,报纸文献的主题标引还需强化,并且要进行多元、多角度、全方位的深度标引。
(3)由传统剪报向个性化、专题化信息产品方向发展。剪报是在报纸文献基础上形成的一种增值性信息产品,传统的“剪刀加浆糊”的工作方式已经不能适应快速精准的现代信息需求。在报纸文献有序组织、深度揭示的基础上,对用户信息需求进行细化,实现报纸文献信息的重组和创新,从而形成个性化、专题化的剪报产品。
(4)由传统文献组织向内容挖掘方向发展。报纸文献的内容加工不能局限在为提供检索服务的信息序化层面,而应向内容挖掘层面进行深加工。报纸文献的内容挖掘既包括单篇文献中的主题揭示、各种命名实体的抽取和语义关联、观点挖掘等;还包括集合文献的专题聚类、热点追踪、观点导向分析、新闻过滤、舆情预警等等,真正发挥报纸文献的喉舌、参谋作用。(摘自《图书馆理论与实践》2012年第一期)
【作者简介】薛春香(1979——),女,南京理工大学信息管理系副教授,研究方向为:智能信息组织、知识组织系统构建。
公共图书馆服务规范
1 范围
本标准规定了图书馆服务资源、服务效能、服务宣传、服务监督与反馈等内容。
本标准适用于县(市)级以上公共图书馆。街道、乡镇级公共图书馆以及社区、乡村和社会力量办的各类公共图书馆基层服务点参照执行。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 10001·1 标识用公共信息图形符号 第一部分:通用符号
建标108-2008 公共图书馆建设标准
建标[2008]74号 公共图书馆建设用地指标
3 术语和定义
下列术语和定义适用于本文件。
3·1 公共图书馆(public library)
由各级人民政府投资兴办、或由社会力量捐资兴办的向社会公众开放的图书馆,是具有文献信息资源收集、整理、存储、传播、研究和服务等功能的公益性公共文化与社会教育设施。
3·2 公共文化服务体系(public cultural service sys-tem )
以政府为主导,以公益性文化单位为骨干,鼓励全社会积极参与,努力建设公共文化产品供给、设施网络、资金人才技术保障、组织支撑和运行评估为基本框架的覆盖全社会的公共文化服务网络架构,其建设原则是结构合理、发展平衡、网络健全、运行有效、惠及全民,体现出公益性、基本性、均等性和便捷性的发展定位。
3·3 服务资源(service resources)
公共图书馆在开展服务过程中所拥有的物力、财力、人力等各种物质要素,主要包含了硬件资源、人力资源、文献资源和经费资源。
3·4 服务效能(service efficiency)
公共图书馆投入的各项资源在满足读者和用户需求中体现的能力和效率。
3·5 区域服务人口数(regional service population)
各级公共图书馆所在行政区域的常住人口数。
3·6 呈缴本( legal deposit copy)
根据有关法律或法令规定,出版者每出版一本新书刊都要免费呈缴一定的样本给指定图书馆,这种制度称为呈缴本制度,所呈缴的样本为呈缴本。
3·7 文献提供(docum ent supply)
也可称文献传递,是指图书馆或其他文献收藏机构根据读者要求,利用互联网、电子邮件、邮递等方式为本地或异地的读者直接提供所需原本文献和复制文献的服务形式。
4 总则
4·1 为促进公共图书馆事业的发展,建设覆盖全社会的公共文化服务体系,保障公众的基本文化权益,改善公共图书馆的服务条件,提高公共图书馆的服务效能和管理效益,制定本标准。
4·2 公共图书馆服务是指公共图书馆通过各类资源和自身专业能力满足公众日益增长的对知识、信息及相关文化活动需求的工作,其基本服务应当免费。
4·3 公共图书馆服务应体现以人为本的原则,通过就近、便捷、可选择、温馨的服务,不断改进服务质量,统筹兼顾服务资源、服务效能、服务宣传、服务监督与反馈,促进服务的全面协调可持续发展。
4·4 公共图书馆服务对象包括所有公众。应当注重培养少年儿童的阅读习惯,并努力满足残疾人、老年人、进城务工者、农村和偏远地区公众等的特殊需求。
4·5 本标准是公共图书馆服务的全国性统一标准,是检验公共图书馆服务效能与管理的尺度,是评估公共图书馆服务水平的依据。