文本分割知识获取及其应用

文本分割知识获取及其应用

一、文本切分知识获取及其应用(论文文献综述)

秦亚红[1](2021)在《基于爬虫的新闻网页分词系统的研究与设计》文中提出大数据时代背景下,如何获取大量数据并处理为研究工作中所需数据已成为大数据研究领域的首要问题。如网络新闻热点话题预测、新闻舆情监测等涉及新闻数据研究领域中,新闻数据的获取、分词等既是基础也是关键。如何在短时间内对目标新闻数据进行采集并存储、准确地完成数据分词等问题涉及后续研究工作多个方面:如分词结果的准确率直接影响后续数据分析的准确性。针对新闻数据研究领域中涉及的目标数据获取、文本分词两大首要问题,本文以央视新闻网为例,依据其网页结构以及数据分布等特点,利用Scrapy网络爬虫框架结合布隆过滤器算法解决新闻目标数据采集与存储问题;通过结合基于双向Transformer结构的Albert(A Lite Bert,轻量级Bert)预训练语言模型与CRF(Conditional Random Field,条件随机场)构建Albert-CRF模型,完成对新闻数据的文本分词任务。通过研究、设计、实验等工作,实现基于Scrapy爬虫框架的央视新闻网页数据采集以及Albert-CRF模型分词的新闻网页分词系统,并验证此研究课题能够为涉及新闻数据研究领域的工作提供有效的、可靠的数据采集与文本切分处理方法,满足研究任务需求。工作内容主要分为以下几个方面:(1)研究、分析央视新闻网站网页特点以及数据分布,结合Scrapy框架与布隆过滤器去重算法制定基于新闻类别的数据自动化采集方法,实现新闻网页数据采集与存储。(2)依据《人民日报》语料库格式构建社会新闻专题领域语料库用于新闻网页分词系统模型训练与文本切分任务。(3)基于Albert预训练模型输入序列最大长度受限问题,本文设计文本预处理模块,针对长度超过512的文本进行断句切分,对文本内容进行统一的规范化处理。(4)以Albert预训练语言模型为基础结合CRF的标签约束能力,提出、构建Albert-CRF分词模型,用于新闻数据分词任务;在同等实验环境、超参数设置以及语料库下,分别对Albert模型以及本文提出的Albert-CRF模型进行文本切分实验:实验证明,在Albert模型之后接入CRF层能够有效约束输出的标签序列,分词性能有所提升。基于课题研究和相关工作,本文在新闻网页数据采集方面主要介绍了网络爬虫相关技术、Scrapy爬虫框架原理、工作流程以及新闻网页数据采集模块的设计过程;在分词技术研究上,对分词技术的研究与发展进行简要阐述,重点介绍课题研究中的分词预训练模型——Transformer模型结构和机制、Bert与Albert预训练模型原理和结构、条件随机场(CRF)中的预测算法以及相关实验过程。

陈梦苑[2](2021)在《基于社交文本数据的人物地理位置属性挖掘研究》文中进行了进一步梳理随着互联网的发展以及移动设备的普及,用户对社交网络的依赖与日俱增。微博作为国内最大社交平台之一,大量基于微博的研究应运而生,例如基于微博话题的灾难检测与管理研究、微博用户群体运动趋势研究和公安系统的微博缉凶应用研究等。基于微博的研究所带来的社会效应,可以提高社会对于紧急情况的应对速度以及效率。然而,大多数用户的有效地理位置信息难以获得,使得上述研究成果无法推广应用。因此,为了使得相关研究成果得到较好的推广应用,本文将从微博平台上的文本数据挖掘出用户的地理位置属性,进行数据收集、预处理及推测等相关研究。具体工作如下:首先,针对微博平台上带地理位置标签的语料匮乏的问题,通过研究微博文本数据及用户数据特征,设计爬虫策略,获取了如下两方面的数据信息:(1)带有地理位置标签的微博发文,通过该数据建立微博发文语料库,然后将其作为构建微博文本位置推测模型的基础;(2)用户关联信息(包括用户资料信息、用户历史发文、用户社交关系网络、用户关注的其他用户资料信息与历史发文等信息),利用该数据建立目标用户数据集,作为推测用户主要活动位置的基础。其次,社交文本数据具有文本短小、用语口语化、噪声繁多的特点,存在于其中的地理位置相关特征高度稀疏及特征词条特征性不足,并由此导致地理位置推测准确率低。针对上述问题,本文设计给出了一种新型的文本预处理方法,具体研究如下:(1)在常规文本清洗的基础上,基于UF-TF-ICF-W的文本清洗方法对语料库进行进一步地清洗,提高语料库中地理位置相关信息的稠密度;(2)建立并引入了城市兴趣点和方言词典,以提高分词的准确度;(3)设计了一种针对性的分词修正规则,该规则可提高一些跟地理位置有强相关性的特征词条权重,进而加强这些词条的位置特征性;(4)提出一种基于微博文本数据的特征选择改进方法(CHI-TF-IDF),以降低特征维度,提高模型运算速度。最后,本文基于朴素贝叶斯算法构建了微博文本位置推测模型,并基于此模型提出了一种基于加权投票机制的用户主要活动位置推测方法。最终实验中的融合准确率市级粒度达到了78%,省级粒度达到了82%。

吴雅威[3](2021)在《面向智库需求的智慧数据服务模式及服务能力评价研究》文中研究说明近年来,作为决策咨询机构的智库,一直受到政府机构和决策者的高度重视,一系列相关政策法规的出台与实施,更为智库的建设与发展指明了道路和方向。然而,由于缺少多源数据、智慧化技术手段和专业人才支持在一定程度上制约了智库的快速发展,迫切需要图书情报机构(以下简称图情机构)提供智慧数据服务以满足智库复杂需求。目前,大数据时代持续推动着图情机构服务模式发生重大变化,正在促使其由传统信息服务向智慧数据服务转型。因此,当前智库到底存在哪些智慧数据服务需求,图情机构面向智库需求应该采取何种智慧数据服务模式,以及如何提升智慧数据服务水平和服务能力已经成为目前图情机构亟需研究的重要问题。本文以数据管理理论、用户场景理论和质性研究理论等为基础,探讨了面向智库需求的智慧数据服务要素、服务模式、模式实现及服务能力评价体系问题。首先,分析并构建了智库的智慧数据服务需求及其模型,结合实际案例对面向智库需求的智慧数据服务要素及其特征进行分析,进而提出了面向智库需求的两类智慧数据服务模式,详细阐述了智慧数据服务模式的实现路径,并构建了面向智库需求的智慧数据服务能力评价体系,最终针对智慧数据服务模式与服务能力评价体系给予相应对策及建议。本文的主要研究内容包括以下6个方面:(1)我国智库的智慧数据服务需求分析。主要通过混合式研究方法分析了智库的数据资源管理现状与问题、智慧数据服务需求以及需求驱动因素。明确了智库的两个主要需求:多源数据服务需求(包括多源数据采集与处理等)、创新发展环境服务需求(包括图情机构职能与服务及技术工具与人才等)。智库的数据需求、场景环境和应用过程的变化,对图情机构的智慧数据服务提出了更高期望与要求。本章为后文分析并提出针对性的面向智库需求的智慧数据服务要素、服务模式、模式实现以及服务能力评价体系奠定了需求基础和研究框架。(2)面向智库需求的智慧数据服务要素及其特征。基于智库需求,通过文献调研、案例分析以及借鉴智慧数据服务相关实践经验,分析了面向智库需求的智慧数据服务关键要素及其特征,阐述各要素在智慧数据服务中的定位和作用。明确了以图情机构、智慧数据、智能化技术方法、智慧化平台、服务环境为5大关键要素,以及服务场景化、技术智能化和数据多源化3大特征。引用生态系统及其相关发展理论构建模型来剖析服务主体、客体、环境间的能量流动及关系,最终以南京师范大学图书馆为例,通过分析其面向智库需求的智慧数据服务过程及其服务要素与特征,验证前文所明确的关键要素,为后文研究奠定要素基础。(3)面向智库需求的智慧数据服务模式。基于智库需求,结合模式构建法提出了面向智库需求的两类智慧数据服务模式:其一,个性化推荐模式,主要探讨图情机构通过感知智库需求,融合多源数据、专家智慧、智能技术及用户需求精准识别等资源与服务,通过智慧数据服务平台与新媒体技术,最终实现场景化、精准化与个性化推送;其二,嵌入式服务模式,主要探讨以图情机构为主体,通过分散、兼职和旋转门等途径嵌入智库内部及其活动过程,将智慧数据服务与智库的数据采集、综合处理、成果传播推广等环节相融合,精准定位智库需求,提供多源数据采集、融合处理、人才支持和影响力塑造等针对性服务。(4)面向智库需求的智慧数据服务模式实现。根据智库需求和图情机构智慧数据服务模式的具体内容与流程,面向智库需求的智慧数据服务模式实现主要包括以下6个方面:智库的特征识别与需求确定;基于Data Commons的智慧数据服务平台构建;多源数据融合;智能化技术与工具融合与协同治理;基于专家系统的多源数据分析与应用;基于向量空间模型的场景化服务推荐,以此来实现面向智库需求的智慧数据服务模式,体现了智慧数据服务的新路径与新思想。(5)面向智库需求的智慧数据服务能力评价体系。以智库需求、智慧数据服务过程和智慧数据服务内容为评价依据,初步构建了包括多源数据、智能化技术与工具、智慧数据服务人员三个维度的智慧数据服务能力评价体系。再利用专家调查法、灰色系统理论和层次分析法完成指标优化和赋权,以验证指标的合理性、有效性和可行性,最终确定智慧数据服务能力评价体系。最终以天津社科院图书馆为案例进行实证研究,论证服务能力评价体系中各指标的有效性、科学性和应用性,以此为图情机构提升智慧数据服务能力与质量提供适当参考。(6)面向智库需求的智慧数据服务保障策略。以智慧数据服务要素、服务模式及服务能力评价为依据,考量涵盖智慧数据服务关键要素、优化智慧数据服务流程、改善智慧数据服务能力评价体系等方面制定保障策略。智慧数据服务保障策略具有明显的层次化特征,涵盖政策保障、数据保障、技术保障与人才保障等层次。其中,政策保障涵盖建立健全相关法律法规等;数据保障涵盖完善多源数据建设、融合、安全与开放保障机制等;技术保障涵盖完备智能化数据管理技术、方法与工具集体系构建等;人才保障涵盖智慧数据服务人才队伍建设等。通过构建面向智库需求的智慧数据服务模式,可以优化智库活动流程,提升智库的课题研究能力、决策支持服务质量和可持续发展动力,还可保障面向智库需求的智慧数据服务质量和水平,也为大数据时代下图情机构智慧数据服务研究体系提供理论启发与借鉴,拓展智慧数据服务的理论与应用范畴,推动智慧数据服务可持续性发展。此外,通过建立面向智库需求的智慧数据服务能力评价体系,可以评价图情机构的智慧数据服务能力,帮助其更清楚的认识优势与缺陷,根据评价体系优化服务流程,更好的服务智库。同时,为图情机构系统认知大数据时代下面向智库需求的智慧数据服务实现路径提供参考,继而有效引导图情机构从智库需求感知到服务模式构建再到服务能力评价的流程化视角来看待面向智库需求的智慧数据服务工作。

孙方滨[4](2021)在《基于Parser的数学自然语言结构分析及其应用研究》文中研究指明近年来在线教育受到的关注度越来越高,但是目前的在线教育基本上还是以辅导老师为核心,在科技方面更多的是还是体现在教育平台的竞争发展上。因此人工智能与教育相结合的自动推理解题系统有着很大的发展与应用前景,而且对社会的发展大有裨益。数学作为教育中的一门重要学科,对逻辑推理的要求很高,而且对于人工智能来说数学也是其发展的根基,两者是相辅相成的。本课题参与的初等数学解题系统以数学作为突破点,力求能做到对初等数学的自动推理和解题。而要做到对数学的自动推理,首先必须能够充分理解数学题目中的题意,因此针对数学语言的自然语言处理是必不可少的,本文主要借助Parser从句法结构的角度来对数学自然语言进行处理。本文首先分析了数学语句中容易导致句式混淆的情况,结合数学语句的结构特点主要从词语和词性两个方面有针对性地进行了数学语义消歧。在经过数学语义消歧后使用句法解析器Stanford Parser对数学语句进行解析,得到数学语句相应的依赖结构,再对依赖结构进行处理提取出其中的一阶谓词逻辑信息和并列信息。并将提取到的这些信息应用于数学语句自然语言处理中的命名实体识别模块,针对需要进行实体类型递进的语句进行处理,提升了数学语句实体命名的准确度,完善了对数学题目的语义理解。在将研究内容整理构建成完整的命名实体递进系统之后,本文从初等数学自建库中选取了1000道高中数学题目进行综合测试,最终在本系统上对一阶谓词逻辑和并列信息提取的准确率达到了96.51%,整个系统有着良好的适用性和可靠性。

卜和蛰[5](2020)在《面向机械产品专利的机构信息识别与提取方法研究》文中提出随着制造业智能化的飞速发展,企业需要为产品创新设计快速获取大量设计知识。专利文献作为世界上最大的发明知识载体,能够提供大量有效的创新知识服务于产品设计。机械产品的运动机构自动识别与提取有助于缩短产品研发周期、提高产品创新质量。但针对专利文献,目前尚缺乏专利文本的运动机构自动识别与提取方法研究。论文将根据专利文献的制度约束与文本信息的表达特点,研究机械产品专利的机构信息智能化获取方法。通过分析专利文献中机构信息相关的目标提取文本,制定面向中文机械产品专利的机构信息自动识别与提取思路。根据专利文献组件名称的制度约束,建立机械零部件名称的自动识别与提取方法。运用汉语分析方法、语义相似度计算和知识图谱,自动获取机械产品专利的连接单元体语义。通过连接关系的属性识别,实现机械产品专利的运动机构信息智能化获取。研究内容主要包括以下几个方面:(1)机构信息目标提取文本分析。分析专利文献各个专利文本蕴含的技术知识,构建机械产品专利的技术方案模型,确定运动机构提取的目标提取文本,制定运动机构信息自动识别与提取的策略。(2)组件信息自动识别与提取。通过分析提炼专利文献撰写规则对组件名称的制度约束,制定面向中文专利文本的组件名称提取策略;构建组件名称左右边界词的判定方法和机械零部件名称的切分标记词库;建立识别组件名称的特征标签,提出中文专利组件名称的精确提取方法。(3)连接单元体语义自动识别与提取。分析专利文本中连接单元体语义的语义特征词,构建机械领域表示连接关系的关系指示词词库;结合专利文献描述语句的表达特点与汉语语义分析,制定连接单元体语义的提取规则;利用相似度计算方法识别专利文本中连接单元体语义句式类型,对指定句式类型进行知识图谱要素的转换。(4)运动机构信息识别。基于识别的连接单元体语义,通过识别连接关系的动、静属性进行构件识别,通过识别动连接属性的运动副类型进行运动副信息识别,进而达到机构信息识别与提取的目的。以中文机械产品专利为例,验证了该方法的可行性与有效性。

赖晓锋[6](2020)在《基于改进朴素贝叶斯的新闻分类研究》文中研究指明随着人工智能的高速发展和数据挖掘技术的不断更新,文本分类已经成为自然语言处理中最常用的应用场景,其在舆情分析、机器翻译和聊天机器人等领域都有广泛的应用。现阶段文本分类技术有很多,但是朴素贝叶斯分类模型(Naive Bayes Classifier,简称NBC)已经成为最常用的分类模型之一。朴素贝叶斯分类模型在众多领域中均有很好的分类性能,但该分类模型也具有一定的局限性,例如需要满足属性之间相互独立的条件假设,而该条件假设在实际应用中却经常难以满足。基于该条件假设研究者们从扩展结构、特征选择、特征加权和朴素贝叶斯模型与其他模型相结合四个方面做出了推广,并取得了较好的效果。本文在前人的研究基础上,利用主成分分析(Principal Component Analysis,简称PCA)改进了朴素贝叶斯分类模型。基于主成分分析的朴素贝叶斯分类模型,简称PCAWNBC模型。本文利用主成分分析的主成分之间是相互独立性质,有效缓解了朴素贝叶斯相互独立的条件假设;再利用主成分的方差贡献率作为属性的特征权重,消除了同一属性对不同类别具有相同值的(权重均为1)缺陷。通过上述的分析后,本文将PCAWNBC模型应用到新闻文本分类的实例中。采用网络爬虫技术,使用Python从网上抓取十类,每类1200篇,共计12000篇新闻文本作为训练集。以12000篇新闻随机选3000、6000、9000及12000篇为横向,以NBC、PCAWNBC、逻辑回归、K近邻及支持向量机为纵向,从准确率、召回率、1F值和训练时间四个方向评估各分类模型在不同数据集上的分类性能。得到如下结论:在不同数据集上,PCAWNBC模型相比NBC模型的准确率均约提升5%;当数据量增大时,PCAWNBC模型的分类性能比NBC、逻辑回归、K近邻及支持向量机效果会更好。

汪诚愚[7](2020)在《面向中文短文本的关系抽取算法设计》文中指出海量互联网数据的异构、多源和异质等问题使得高效、精准的知识获取成为巨大的挑战。关系抽取是自然语言处理中的一项基础性任务,从无结构化的文本数据中自动获取结构化的关系型事实,为大规模知识图谱的构建和互联网智能知识服务提供支持。随着深度学习技术的广泛应用,神经关系抽取模型的精度获得了很大提升。然而,现有的主流研究一般关注英语语言的、句子级别的关系抽取。与英语不同,中文表述灵活多变,语法和构词规则相对不固定,大量语义知识蕴含在中文短文本中,通常很难被现有算法有效抽取。本文主要研究面向中文短文本的关系抽取问题。由于中文短文本独特的语言学特征,其关系抽取任务与传统工作相比具有诸多挑战。短文本的语法结构和语义一般不完整,部分短文本蕴含的语义关系属于常识性知识,关系表述的上下文高度稀疏。与英语相比,中文基础自然语言分析较低的准确度,以及短文本关系抽取标注数据集的缺乏也增大了这一问题的难度。本文分别从基于词嵌入的上下位关系抽取、知识增强的语义关系抽取、以及非上下位关系抽取与语义理解等三个方面进行深入研究,设计了面向中文短文本的关系抽取框架,较好地解决了上述挑战。本文的主要工作和贡献概述如下:(1)基于词嵌入的上下位关系抽取:分类体系是知识图谱中概念的层次化表示和重要组织形式,由大量上下位关系构成。与英语相比,由于中文语言表述高度灵活,中文上下位关系抽取不能简单采用文本匹配算法来实现。本文结合神经语言模型和中文语言学特性,采用词嵌入作为中文术语的特征表示,建模中文上下位关系在词嵌入空间的表示,即学习中文下位词在词嵌入空间中投影到对应上位词的过程。本文首先提出了半监督式上下位关系扩展模型,即迭代地从互联网数据中发现新的上下位关系元组,解决了中文上下位关系数据集大小有限的问题。为了精确建模中文上下位关系与非上下位关系分类的决策边界,我们进一步提出基于转导学习和模糊正交投影学习的两个上下位关系分类模型。实验效果表明,提出的模型在精度上超过了现有最佳方法,有效实现中文上下位关系抽取。(2)知识增强的语义关系抽取:上述基于词嵌入的上下位关系抽取模型依赖于特定领域的训练集,对其他类别的数据源和相关任务没有加以良好运用。本文以词嵌入投影模型为基础,探索知识增强的语义关系抽取算法,从多知识源、多语言、多词汇关系三个角度,抽取多种类型的语义关系。首先,由于大规模分类体系中含有大量上下位关系,本文提出分类体系增强的对抗学习框架,利用双重深度对抗学习机制,将互联网中的海量上下位关系知识融入基于特定训练集的词嵌入投影神经网络中。其次,本文扩展了模糊正交投影模型,分别提出了迁移模糊正交投影模型和其扩展版本迭代迁移模糊正交投影模型,结合了深度迁移学习和双语术语对齐技术,在小样本学习场景下,实现了面向小语种的跨语言上下位关系抽取。最后,由于知识本体中一般包含多种类别的词汇关系,本文提出超球关系嵌入模型,对多种类别的词汇关系分别进行语义建模,学习其超球嵌入表示,使投影模型可以对多种词汇关系进行分类。相应自然语言处理任务的实验效果证明了这三种模型的有效性。(3)非上下位关系抽取与语义理解:中文短文本中通常具有类别繁多的非上下位关系,前述模型预测的关系类别由人工定义,难以扩展至开放领域,而且缺乏常识性关系检测和深度关系理解的能力。在这一部分研究中,首先提出基于模式的非上下位关系抽取算法,它采用图挖掘技术,从中文短文本中挖掘出表达丰富语义关系的频繁语言模式,无监督地抽取出与这些模式相对应的非上下位关系三元组。由于上述方法只能抽取出频繁模式对应关系,本文进一步提出数据驱动的非上下位关系抽取算法,它采用三阶段的数据驱动架构,实现从中文短文本的切分到关系生成的完整流程,提升关系抽取的覆盖率。最后,我们观察到,基于习语性分析的语义理解技术可以从中文短文本中推导出更多关系,实现深度知识推理。本文据此提出了关系性与组合性表示学习框架,对中文复合名词的习语性程度进行分类,并且探究这一算法对自然语言理解的提升作用。实验结果表明,上述算法在面向中文短文本的关系抽取中,不局限于人工定义关系类别,可以在多个领域准确地抽取出多种非上下位关系。综上所述,本文从三个方面解决从中文短文本中抽取语义关系的问题,在多个自然语言处理任务相关的公开数据集上进行实验,实验结果证明了提出方法的有效性。本文的研究工作也为实现面向互联网海量中文短文本的关系自动抽取和语义理解系统提供技术基础,在尽可能减少人工干预的情况下,充分挖掘短文本中蕴含的知识,从而对现有大规模中文知识图谱系统进行扩展和补全。

杜晓凡[8](2020)在《基于条件随机场和增量学习词典的中文分词》文中研究表明中文自动分词是指使用机器学习根据特定规范将连续的字序列重组为词序列的过程,是自然语言处理的第一步,这对自然语言处理有着重大意义。准确的中文分词结果能够为后续语言处理打好基础,以便更好地完成后续文本分析等工作。当前中文分词存在的主要难点在于切分歧义以及未登录词的识别。这些问题的存在会导致中文自动分词容易产生错误的分词结果,使机器学习不能正确理解文本的含义,误导后续自然语言处理的工作。因此本文对中文分词模型的研究重点便放在解决这两个问题上,以求提高分词准确率。为了解决基于当前单一模型无法解决的分词歧义及未登录词识别任务,本文在分词的各个阶段协调地选取最佳的分词模型进行组合,以条件随机场中文分词模型为基础模型,提出一种获取增量学习词典信息的方法对其进行改进,为中文分词研究提供一种新的研究思路。本文方法充分挖掘了训练语料中符合构词规则且多次出现的固定组合的信息,以解决中文分词中的跨越标记切分现象,并且对增量训练集进行主动学习,识别其中最有争议的小部分词语以修正语境迁移时的未登录词识别问题。首先利用全模式匹配过滤方法识别训练语料中固定搭配、反复出现且有意义的子串构建初始词典,利用初始词典分别对训练语料和增量训练语料进行逆向最大匹配切分,并对切分后的训练语料进行词位标注,建立条件随机场中文分词模型;而后对增量训练集进行初步切分,得到分词结果,利用N-gram语言模型找出其中最易出错的句子,人工识别出其中易错词语加入初始词典形成最终的增量学习词典;最后基于最终词典采用逆向最大匹配方法对测试语料进行匹配切分,再次调用模型参数对其进行分词。本文分别采用四词位和六词位标注集以及相应的特征模板,在国际中文分词测评Bakeoff-2005的语料上进行封闭训练和测试,实验结果表明,与基于字标注的条件随机场中文分词方法相比,本文提出的基于条件随机场和增量学习词典信息的中文分词模型有助于提高分词准确性,且在对未登录词的识别方面有较大的提高。

王丽培[9](2020)在《基于词频统计的中美图书馆自律规范及其对比研究》文中进行了进一步梳理图书馆专门立法是制度层面的建构,而图书馆自律规范则是自发维护秩序的约束。图书馆自律规范体系的构建需要两方面内容支撑:一方面是自律到位;另一方面是他律奏效。目前,我国已陆续颁布实施有关图书馆行业多项制度规定,但整个图书馆自律规范体系仍略显单薄,因而可翘首跂踵于可期待性政策法规不断出台。文章利用直观的数据统计和可视化的知识图谱对中美两国图书馆自律规范文本进行定量分析,并对其在体系、特征及内容三方面的同异性进行定性比较,以期有助于进一步提升我国图书馆领域自律规范体系的建设水平。本论文共有五个部分。第一章绪论,阐述了文章研究背景目的与意义、中美图书馆自律规范研究的现状、研究方法及创新点。第二章文本选择与分词,主要阐述中美自律规范制度文本的选择、分词标准、分词方法与步骤。第三章词频统计与知识图谱分析,按照以字或词语为单位,依次对单项条款分词间、单部政策条款文本间、同一国别文本间的同异性进行研究的分析思路,并基于直观的数据统计和可视化知识图谱,分别阐述了中美两国图书馆自律规范文本各自的特征。第四章中美图书馆自律规范文本比较分析,主要从三个方面进行分析:内容(道德理念、图书馆权利、馆藏建设、资源利用、社会责任);体系(图书馆的“誓约”方面、图书馆员的“誓约”方面、其他配套规范方面);特征(话语视角、主题视角、操作视角)。第五章总结与展望,归纳研究效果、研究优点与存在的不足、该课题持续研究的展望。

孙水华[10](2019)在《中医针灸领域信息抽取关键技术研究》文中进行了进一步梳理近年来,在国家政策的大力扶持下,大批老中医专家的临床疾病诊疗经验通过整理和总结被保存下来,出版了大量关于中医专家疾病诊疗经验的文献和着作。随着中医针灸领域电子文档的累积,由人工阅读来获取中医针灸知识不仅费时而且人工成本极高。如何利用自然语言处理技术,从大量非结构化中医文献资料中自动获取所蕴含的专业领域信息如术语、实体关系、事件等,具有重要的理论意义和应用价值。本文针对中医针灸领域文本的特点,深入研究中医针灸信息自动抽取的关键技术,主要开展了以下几个方面的研究工作:(1)针对中医针灸领域术语的构成特点,建立了一种基于种子集的领域术语抽取算法模型,该模型首先对中医针灸领域术语种子集进行有限次的迭代,生成中医针灸领域术语构件集;其次,以术语构件集为领域词典,采用最大向前匹配算法对中文针灸医学文献中的句子进行切分,并抽取候选术语;最后,采用术语过滤算法对候选术语进行过滤处理,筛选出中医针灸领域专业术语。以关键字集为种子集进行实验,术语抽取开式测试的F值达到77.29%。(2)针对中医针灸领域实体关系实例的语境,选择有效的词汇、语法和语义特征组合成特征模板,将实体关系实例向量化。采用支持向量机的机器学习方法训练中医针灸领域实体关系分类模型。实验结果表明,该模型对中医针灸领域实体关系抽取有很好的效果,DM、HM和DRM实体关系分类模型的F值分别达到了 93.25%、87.19%和84.57%。(3)从训练语料库中收集人工标注的触发词,构建中医针灸事件触发词词表,采用同义词林扩展该词表,基于扩展触发词词表识别中医针灸事件候选触发词,;针对中医针灸领域文字表达的特点,编写中医针灸事件候选触发词过滤规则。构造集词典匹配、规则过滤于一体的中医针灸事件触发词识别模型。实验结果表明,该模型具备了较好的触发词识别性能,治疗事件触发词识别的F值达到了 88.28%。将上述信息抽取研究成果应用于中医针灸领域知识库构建中,实现对中医针灸领域信息的规范化管理与存储,为中医针灸辅助教学、辅助诊疗及知识发现研究等具体应用提供数据支撑。

二、文本切分知识获取及其应用(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、文本切分知识获取及其应用(论文提纲范文)

(1)基于爬虫的新闻网页分词系统的研究与设计(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 网络爬虫国内外研究现状
        1.2.2 分词的国内外研究现状
    1.3 论文结构安排
    1.4 本章小结
第2章 技术介绍
    2.1 网络爬虫
        2.1.1 Scrapy爬虫框架及其工作原理
        2.1.2 Xpath网页解析
        2.1.3 代理机制
        2.1.4 URL去重
    2.2 中文分词技术
        2.2.1 Transformer模型
        2.2.2 Bert预训练模型
        2.2.3 Bert模型优化
        2.2.4 轻量级Bert-Albert模型
        2.2.5 线性链式条件随机场(CRF)
        2.2.6 中文分词评价指标
    2.3 PyQt
    2.4 本章小结
第3章 新闻网页分词系统需求分析
    3.1 新闻网页分词系统需求分析
        3.1.1 系统功能需求分析
        3.1.2 系统非功能需求分析
    3.2 本章小结
第4章 新闻网页分词系统设计
    4.1 新闻网页分词系统概要设计
        4.1.1 新闻网页分词系统框架设计
        4.1.2 新闻网页分词系统业务逻辑设计
    4.2 新闻网页分词系统详细设计
        4.2.1 新闻网页数据采集模块设计
        4.2.2 新闻数据分词模块设计
        4.2.3 新闻数据预处理模块设计
        4.2.4 新闻分词语料构建设计
    4.3 本章小结
第5章 新闻网页分词系统实现
    5.1 网页新闻数据采集模块实现
        5.1.1 新闻网页结构分析
        5.1.2 网页新闻数据采集功能实现
    5.2 新闻数据模型分词实现
        5.2.1 训练语料数据预处理
        5.2.2 Albert-CRF模型分词实现
    5.3 本章小结
第6章 系统功能测试与分词模型评测
    6.1 系统测试规则及方法
    6.2 新闻网页分词系统功能测试
    6.3 新闻网页分词系统分词模型评测
    6.4 本章小结
第7章 总结与展望
    7.1 研究工作总结
    7.2 未来展望
参考文献
附录
致谢

(2)基于社交文本数据的人物地理位置属性挖掘研究(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究工作的背景与意义
    1.2 国内外研究历史与现状
        1.2.1 基于内容的地理位置推测
        1.2.2 基于用户特征的地理位置推测
    1.3 本论文的主要研究内容
    1.4 本论文的结构安排
第二章 地理位置推测相关理论技术简介
    2.1 数据获取技术
        2.1.1 基于数据源镜像的技术
        2.1.2 基于网络数据流的技术
        2.1.3 基于微博平台接口的技术
        2.1.4 基于网页爬虫的技术
    2.2 中文分词技术
        2.2.1 生成全切分词图
        2.2.2 计算最佳切分路径
        2.2.3 识别未登录词
        2.2.4 词性标注
    2.3 特征选择技术
    2.4 文本分类技术
    2.5 本章小结
第三章 微博文本数据的采集
    3.1 需求分析
        3.1.1 微博文本数据集内容
        3.1.2 建立数据表
    3.2 建立微博发文语料库
        3.2.1 微博地理位置签到页面特征分析
        3.2.2 微博发文获取
    3.3 建立目标用户数据集
        3.3.1 筛选目标用户
        3.3.2 获取目标用户相关信息
        3.3.3 获取目标用户关注用户相关信息
        3.3.4 数据获取路径
    3.4 微博数据集示例
    3.5 本章小结
第四章 基于微博文本数据的预处理方法研究
    4.1 引言
    4.2 微博文本常规清洗
    4.3 微博文本分词
        4.3.1 建立城市兴趣点词典与方言词典
        4.3.2 高频特征词条人工校正
        4.3.3 去停用词
        4.3.4 基于词条属性的分词修正规则
    4.4 生成文本-特征词条表示模型
    4.5 基于CHI-TF-IDF的特征选择方法
    4.6 基于UF-TF-ICF-W的文本二次清洗方法
    4.7 实验结果与分析
        4.7.1 常规预处理手段效果评估
        4.7.2 词典引入效果评估
        4.7.3 高频特征词条人工校正效果评估
        4.7.4 分词修正规则效果评估
        4.7.5 文本二次清洗方法效果评估
        4.7.6 特征选择方式效果评估
        4.7.7 不同语言模型效果评估
    4.8 本章小结
第五章 用户主要活动位置推测方法
    5.1 引言
    5.2 微博文本位置推测模型构建
    5.3 用户主要活动位置推测方法
        5.3.1 获取地理位置推测集
        5.3.2 基于关系亲密度的加权方法
        5.3.3 基于多数投票器的数据融合
    5.4 实验结果与分析
        5.4.1 微博文本位置推测模型评估
        5.4.2 用户主要活动位置推测效果评估
    5.5 本章小结
第六章 总结与展望
    6.1 全文总结
    6.2 后续工作展望
致谢
参考文献
攻读硕士学位期间取得的成果

(3)面向智库需求的智慧数据服务模式及服务能力评价研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景与目的意义
        1.1.1 研究背景
        1.1.2 研究目的
        1.1.3 研究意义
    1.2 国内外相关研究综述
        1.2.1 图情机构智慧化资源管理与服务转型
        1.2.2 图情机构智慧数据服务模式与服务体系
        1.2.3 智慧数据服务能力及其评价
        1.2.4 评述与分析
    1.3 研究内容
    1.4 研究方法和技术路线
        1.4.1 研究方法
        1.4.2 技术路线
    1.5 创新点
第2章 相关概念与理论基础
    2.1 相关概念
        2.1.1 智库
        2.1.2 智慧服务
        2.1.3 智慧数据服务
        2.1.4 面向智库需求的智慧数据服务
    2.2 理论基础
        2.2.1 数据管理理论
        2.2.2 扎根理论
        2.2.3 用户场景理论
        2.2.4 灰色系统理论
第3章 我国智库的智慧数据服务需求分析
    3.1 基于问卷调查的智库数据资源管理分析
        3.1.1 调查问卷设计
        3.1.2 调查对象与数据收集
        3.1.3 结果分析
    3.2 基于扎根理论的智库服务需求分析
        3.2.1 研究对象与数据收集
        3.2.2 范畴编码与检验
        3.2.3 模型构建及分析
    3.3 本章小结
第4章 面向智库需求的智慧数据服务要素与特征
    4.1 面向智库需求的智慧数据服务过程
        4.1.1 智库活动过程分析
        4.1.2 面向智库需求的智慧数据服务过程分析
    4.2 面向智库需求的智慧数据服务要素
        4.2.1 图情机构主体
        4.2.2 智慧数据
        4.2.3 智慧化技术工具与方法
        4.2.4 智慧数据服务平台
        4.2.5 智慧数据服务环境
        4.2.6 智慧数据服务要素之间关系
    4.3 面向智库需求的智慧数据服务特征
        4.3.1 数据多源性
        4.3.2 技术智能性
        4.3.3 服务场景化
    4.4 案例分析
        4.4.1 南京师范大学图书馆发展现状
        4.4.2 南师大图书馆智慧数据服务分析
    4.5 本章小结
第5章 面向智库需求的智慧数据服务模式
    5.1 面向智库需求的智慧数据服务模式概念和类型
        5.1.1 面向智库需求的智慧数据服务模式的概念
        5.1.2 面向智库需求的智慧数据服务模式的类型
    5.2 面向智库需求的个性化推荐智慧数据服务模式
        5.2.1 智库活动过程分析
        5.2.2 智库需求感知
        5.2.3 资源融合及服务集成
        5.2.4 智能化推荐
        5.2.5 案例分析
    5.3 面向智库需求的嵌入式智慧数据服务模式
        5.3.1 智库活动层
        5.3.2 嵌入层
        5.3.3 融合层
        5.3.4 服务层
        5.3.5 案例分析
    5.4 本章小结
第6章 面向智库需求的智慧数据服务模式实现
    6.1 智库特征识别与需求确定
        6.1.1 智库特征识别
        6.1.2 智库需求确定
    6.2 基于Data Commons的智慧数据服务平台构建
        6.2.1 Data Commons平台的概念和特点
        6.2.2 Data Commons平台的目标与功能
        6.2.3 Data Commons平台的架构设计
    6.3 多源数据融合
        6.3.1 多源数据融合架构
        6.3.2 多源数据融合方法
    6.4 智能化技术融合与协同治理
        6.4.1 智能化技术融合与协同治理模式
        6.4.2 基于协同治理的智能化技术融合过程
    6.5 基于专家系统的智能情报分析
        6.5.1 专家数据管理模块
        6.5.2 专家在线咨询模块
        6.5.3 专家智能推荐流程
    6.6 基于向量空间模型的场景化服务推荐模型
        6.6.1 场景化服务
        6.6.2 场景化服务接受效用
        6.6.3 场景化服务推荐模型
        6.6.4 场景化服务推荐实验
    6.7 本章小结
第7章 面向智库需求的智慧数据服务能力评价体系
    7.1 智慧数据服务能力评价体系问题的提出
    7.2 智慧数据服务能力评价体系的构建依据
    7.3 智慧数据服务能力评价指标的选取与修正
    7.4 智慧数据服务能力评价指标的阐释
    7.5 智慧数据服务能力评价指标的优化与赋权
        7.5.1 样本选择及问卷描述
        7.5.2 评价指标的重要性和易获得性计算
        7.5.3 评价指标优化
        7.5.4 评价指标赋权
    7.6 实证研究
        7.6.1 研究方法
        7.6.2 数据分析
        7.6.3 结果分析
    7.7 本章小结
第8章 面向智库需求的智慧数据服务保障策略
    8.1 政府政策保障方面
    8.2 图书情报机构服务主体保障方面
        8.2.1 强化服务意识并挖掘智库需求
        8.2.2 优化图情机构的智慧数据服务架构
        8.2.3 建立并完善智慧数据服务能力评价体系
    8.3 多源数据保障方面
        8.3.1 加强智慧数据体系建设
        8.3.2 建立一体化多源数据联动与反馈机制
    8.4 智能化技术方法与工具保障方面
        8.4.1 加强现代化数据技术的融合和应用
        8.4.2 完善智慧数据服务平台功能和服务
    8.5 智慧数据服务人才保障方面
        8.5.1 完善我国图情机构学科馆员制度
        8.5.2 提升智慧数据服务人员的创新服务能力
    8.6 本章小结
第9章 研究结论与展望
    9.1 研究结论
    9.2 研究局限与展望
        9.2.1 研究局限
        9.2.2 研究展望
参考文献
附录
研究成果
致谢

(4)基于Parser的数学自然语言结构分析及其应用研究(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究工作的背景与意义
    1.2 国内外研究现状
        1.2.1 自然语言处理研究现状
        1.2.2 句法分析研究现状
        1.2.3 数学语言理解研究现状
    1.3 论文内容与结构安排
第二章 相关理论和技术
    2.1 词嵌入
        2.1.1 One-hot编码
        2.1.2 Word2Vec
        2.1.3 Glove
    2.2 自然语言处理基本任务
        2.2.1 分词
        2.2.2 词性标注
        2.2.3 命名实体识别
        2.2.4 句法分析
    2.3 自然语言处理模型
        2.3.1 LTP
        2.3.2 Stanford Parser
    2.4 本章小结
第三章 基于Parser的数学语义消歧
    3.1 数学语言特点
    3.2 数学文本分词
    3.3 数学语义消歧
        3.3.1 词语及短语结构分析
        3.3.2 词语替换
        3.3.3 词性修正
    3.4 本章小结
第四章 基于Parser的数学语句结构处理
    4.1 Parser语法模型
    4.2 数学依赖结构分析
    4.3 数学语句结构处理
        4.3.1 依赖结构处理
        4.3.2 一阶谓词逻辑提取
    4.4 本章小结
第五章 系统设计与测试
    5.1 系统设计与实现
        5.1.1 系统架构
        5.1.2 系统实现
    5.2 系统测试与分析
        5.2.1 单例测试
        5.2.2 综合测试
    5.3 本章小结
第六章 工作总结与展望
    6.1 总结
    6.2 展望
致谢
参考文献
攻读硕士学位期间取得的成果

(5)面向机械产品专利的机构信息识别与提取方法研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 机构信息识别、提取与表达研究现状
        1.2.2 机械产品专利文本信息提取研究现状
        1.2.3 连接单元体语义识别与提取研究现状
    1.3 主要研究内容
第2章 机构信息识别与提取的目标文本分析
    2.1 专利文献文本信息分析
    2.2 机械产品专利的技术方案信息模型构建
        2.2.1 机械产品专利技术主题
        2.2.2 机械产品专利技术特征
        2.2.3 机械产品专利技术方案模型
    2.3 权利要求书制度约束分析
        2.3.1 国内外权利要求书的文本格式
        2.3.2 机械领域专利权利要求书撰写方式
    2.4 机构信息目标提取文本与提取策略建立
        2.4.1 系统组件名称目标提取文本
        2.4.2 系统组件连接关系目标提取文本
        2.4.3 基于目标文本分析的机构信息自动识别与提取策略
    2.5 本章小结
第3章 基于制度约束的机械领域专利组件信息自动识别与提取
    3.1 专利文献中组件名称的制度约束分析
    3.2 基于制度约束的组件信息提取策略制定
        3.2.1 组件名称相关文本句式结构模型
        3.2.2 组件名称左右边界词判定方法
        3.2.3 基于制度约束的组件信息提取策略
    3.3 基于统计规律与降噪算法的零部件名称切分标记词构建
        3.3.1 右边界词编码规律统计与信息降噪算法
        3.3.2 基于用词特征的左切分标记词构建方法
    3.4 基于字频差值的同一特征标签组件名称提取
        3.4.1 同一特征标签的组件名称集合构建
        3.4.2 同一特征标签组件名称的精确提取方法
    3.5 组件信息自动提取实验及结果分析
        3.5.1 实验方法及实验结果评价指标
        3.5.2 组件名称自动提取实验基本流程
        3.5.3 实验结果与分析
    3.6 本章小结
第4章 基于句式规则的连接单元体语义自动识别与提取
    4.1 机械产品专利语义分析与连接关系词词库构建
        4.1.1 机械产品专利技术方案语义分析
        4.1.2 机械产品专利连接单元体语义模型
        4.1.3 系统组件连接关系词词库构建
    4.2 连接单元体语义句法与句式分析
        4.2.1 用户词典分词与自定义词性标注
        4.2.2 基本短语分析与短语提取规则建立
        4.2.3 基于短语提取规则的连接单元体语义提取过程
        4.2.4 连接单元体语义句式分析
    4.3 连接单元体句式词性相似度计算
        4.3.1 词性集合元素相似度计算
        4.3.2 词性序列相似度计算
        4.3.3 词性序列综合相似度计算
    4.4 连接单元体语义关系图构建
        4.4.1 知识图谱表达模型
        4.4.2 句式转换
    4.5 本章小结
第5章 基于连接单元体语义的机构信息识别方法
    5.1 机械产品机构信息模型
    5.2 基于连接关系属性的机构信息识别
        5.2.1 直接接触语句表达的机构信息识别
        5.2.2 居中组件接触语句表达的机构信息识别
    5.3 机械产品专利信息提取平台及机构信息提取实例
        5.3.1 机械产品专利信息提取平台构建
        5.3.2 机械产品专利机构信息提取实例
    5.4 本章小结
结论与展望
参考文献
致谢
附录 A(攻读学位期间发表的论文及专利)

(6)基于改进朴素贝叶斯的新闻分类研究(论文提纲范文)

摘要
abstract
1 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 论文主要内容和组织结构
        1.3.1 论文主要内容
        1.3.2 论文组织结构
        1.3.3 论文创新点
    1.4 本章小结
2 相关理论概述
    2.1 机器学习概述
        2.1.1 机器学习分类
        2.1.2 机器学习回归
    2.2 贝叶斯分类器
        2.2.1 贝叶斯相关理论
        2.2.2 朴素贝叶斯分类器
        2.2.3 半朴素贝叶斯分类器
        2.2.4 加权朴素贝叶斯分类器
    2.3 分类模型
        2.3.1 逻辑回归
        2.3.2 K近邻
        2.3.3 支持向量机
    2.4 分类性能评估
    2.5 本章小结
3 本文获取及文本表示
    3.1 文本获取
    3.2 中文分词
    3.3 去停用词
    3.4 特征提取
    3.5 特征表示
        3.5.1 One-hot模型
        3.5.2 TF-IDF模型
        3.5.3 Word2vec模型
    3.6 本章小结
4 改进朴素贝叶斯的新闻分类
    4.1 基于PCA的加权朴素贝叶斯分类器
        4.1.1 主成分分析
        4.1.2 PCA_WNBC模型
    4.2 基于PCA的加权朴素贝叶斯新闻分类
        4.2.1 新闻文本处理
        4.2.2 PCA_WNBC模型的新闻分类
    4.3 结果分析
        4.3.1 新闻分类结果
        4.3.2 模型评估
    4.4 本章小结
5 总结与不足
    5.1 总结
    5.2 不足
参考文献
致谢

(7)面向中文短文本的关系抽取算法设计(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究背景
        1.1.1 知识图谱
        1.1.2 分类体系与上下位关系抽取
        1.1.3 通用语义关系抽取
    1.2 面临的挑战
    1.3 整体研究内容与研究思路
    1.4 研究意义
    1.5 主要贡献
    1.6 章节安排
第二章 基于词嵌入的上下位关系抽取
    2.1 引言
    2.2 相关工作
        2.2.1 基于模式匹配的上下位关系抽取
        2.2.2 分布式上下位关系预测
        2.2.3 讨论
    2.3 半监督式上下位关系扩展模型
        2.3.1 算法模型
        2.3.2 实验分析
    2.4 基于转导学习的上下位关系分类模型
        2.4.1 算法模型
        2.4.2 实验分析
    2.5 基于模糊正交投影的上下位关系分类模型
        2.5.1 算法模型
        2.5.2 实验分析
    2.6 小结
第三章 知识增强的语义关系抽取
    3.1 引言
    3.2 相关工作
        3.2.1 对抗学习在NLP的应用
        3.2.2 跨语言迁移学习在NLP的应用
        3.2.3 词汇关系分类
    3.3 基于对抗学习的跨知识源上下位关系融合
        3.3.1 算法模型
        3.3.2 实验分析
    3.4 基于迁移学习的跨语言上下位关系抽取
        3.4.1 算法模型
        3.4.2 实验分析
    3.5 基于超球学习的词汇关系分类
        3.5.1 算法模型
        3.5.2 实验分析
    3.6 小结
第四章 非上下位关系抽取与语义理解
    4.1 引言
    4.2 相关工作
        4.2.1 基于短文本的关系抽取
        4.2.2 常识性关系抽取
        4.2.3 名词短语的习语性分析
    4.3 基于模式挖掘的非上下位关系抽取
        4.3.1 算法模型
        4.3.2 实验分析
    4.4 数据驱动的非上下位关系抽取
        4.4.1 算法模型
        4.4.2 实验分析
    4.5 中文短文本的语义理解
        4.5.1 习语性分类问题
        4.5.2 算法模型
        4.5.3 实验分析
        4.5.4 应用研究
    4.6 小结
第五章 总结与展望
    5.1 总结
    5.2 未来工作展望
参考文献
附录
致谢
简历
攻读博士学位期间发表的学术论文和科研情况

(8)基于条件随机场和增量学习词典的中文分词(论文提纲范文)

内容摘要
Abstract
第1章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 研究内容与研究方法
    1.4 可能的创新之处
第2章 条件随机场和增量学习词典构建的相关理论
    2.1 中文分词的两大瓶颈及常用分词方法
        2.1.1 歧义切分
        2.1.2 未登录词识别
        2.1.3 中文分词的常用方法
    2.2 基于条件随机场的中文分词模型
        2.2.1 条件随机场中文分词模型的学习算法
        2.2.2 条件随机场中文分词模型的预测算法
    2.3 增量学习词典构建的相关理论
        2.3.1 增量学习词典的基本思想——增量学习算法
        2.3.2 增量学习词典的构建算法——主动学习算法
        2.3.3 主动学习算法的选择策略——N-gram语言模型
    2.4 小结
第3章 增量学习词典的中文分词算法
    3.1 增量学习词典构建过程
        3.1.1 初始训练语料中提取初始词典
        3.1.2 增量训练语料中提取易错词语
    3.2 基于增量学习词典的训练语料预处理
    3.3 基于增量学习词典的测试语料预处理
    3.4 基于条件随机场和增量学习词典的中文分词实现流程
    3.5 小结
第4章 基于PKU和 MSRA语料库的实验
    4.1 实验语料的选取
    4.2 实验语料基于增量学习词典信息的预处理
        4.2.1 北京大学(PKU)语料
        4.2.2 微软亚洲研究院(MSRA)语料
    4.3 中文分词效果的评判标准
    4.4 模型训练
        4.4.1 标注集的选取
        4.4.2 特征模板的选取
        4.4.3 中文分词模型训练
    4.5 实验结果分析
        4.5.1 北京大学(PKU)语料库实验结果
        4.5.2 微软研究所(MSRA)语料库实验结果
    4.6 小结
第5章 结论与展望
    5.1 结论
    5.2 未来展望
参考文献
后记

(9)基于词频统计的中美图书馆自律规范及其对比研究(论文提纲范文)

中文摘要
Abstract
第一章 绪论
    第一节 研究背景、目的及意义
        一、研究背景
        二、研究目的
        三、研究意义
    第二节 中美图书馆自律规范研究综述
        一、国外研究现状
        二、国内研究现状
    第三节 研究方法
        一、词频统计法
        二、TF-IDF算法
        三、共词分析法
        四、社会网络分析法
        五、维恩图
        六、对比分析法
    第四节 创新点
        一、研究方法上的规范与多样性
        二、图书馆学基础理论的定量研究
第二章 文本选择与分词
    第一节 文本选择
        一、中国图书馆自律规范文本选择
        二、美国图书馆自律规范文本选择
    第二节 分词标准、方法与步骤
        一、分词标准
        二、分词方法
        三、分词步骤
第三章 自律规范文本的词频统计与知识图谱分析
    第一节 中国图书馆自律规范
        一、《中国图书馆员职业道德准则(试行)》
        二、《图书馆服务宣言》
        三、《公共图书馆服务规范标准》
    第二节 中国图书馆自律规范文本网络体系特征
        一、中国图书馆自律规范文本知识图谱特征
        二、中国图书馆自律规范文本间差异性
        三、中国图书馆自律规范文本间关联性
    第三节 美国图书馆自律规范文本
        一、《图书馆权利法案》
        二、《道德规范》
        三、《观赏自由声明》
        四、《图书馆:美国价值观》
        五、《阅读自由声明》
    第四节 美国图书馆自律规范文本网络体系特征
        一、美国图书馆自律规范文本知识图谱特征
        二、美国图书馆自律规范文本间差异性
        三、美国图书馆自律规范文本间关联性
第四章 中美图书馆自律规范文本比较分析
    第一节 体系主体构成比较
        一、图书馆的“誓约”方面
        二、图书馆员的“誓约”方面
        三、配套规范方面
    第二节 文本视角特征比较
        一、话语视角
        二、主题视角
        三、操作视角
    第三节 文本语义内容比较
        一、道德理念
        二、图书馆权利
        三、馆藏建设
        四、资源利用
        五、社会责任
第五章 总结与展望
    第一节 总结
        一、研究总结
        二、存在的优点与不足
    第二节 展望
参考文献
附录
致谢
攻读学位期间发表论文

(10)中医针灸领域信息抽取关键技术研究(论文提纲范文)

摘要
ABSTRACT
主要符号表
1 绪论
    1.1 研究背景及意义
        1.1.1 研究背景
        1.1.2 论文研究的意义
    1.2 国内外研究现状
        1.2.1 领域术语抽取
        1.2.2 实体关系抽取
        1.2.3 事件抽取
        1.2.4 问题分析
    1.3 研究内容
    1.4 论文的组织结构
2 中医针灸领域语料库构建
    2.1 术语抽取实验语料介绍
        2.1.1 术语及其分类
        2.1.2 术语种子集构建
        2.1.3 测试语料集构建
    2.2 实体关系语料库构建
        2.2.1 实体及实体关系类型定义
        2.2.2 实体关系标注语料集构建流程
    2.3 事件标注语料库构建
        2.3.1 事件类型定义
        2.3.2 事件相关概念
        2.3.3 人工标注事件实例
    2.4 本章小结
3 中医针灸术语识别算法模型
    3.1 术语抽取系统的架构
    3.2 领域术语抽取算法模型
        3.2.1 术语构件集生成算法
        3.2.2 候选术语抽取算法
        3.2.3 候选术语过滤规则及算法
        3.2.4 利用分词信息修正术语边界
    3.3 系统性能评价
        3.3.1 实验语料及评测指标
        3.3.2 实验结果分析
    3.4 与其他方法的比较
    3.5 本章小结
4 中医针灸实体关系抽取模型
    4.1 支持向量机
    4.2 基于SVM的实体关系抽取
        4.2.1 实体关系特征模板构造
        4.2.2 实体关系实例向量化
        4.2.3 实体关系分类模型生成
    4.3 实验及结果分析
    4.4 本章小结
5 中医针灸事件触发词抽取模型
    5.1 事件触发词抽取模型架构
    5.2 算法模型
        5.2.1 语料预处理
        5.2.2 候选触发词抽取
        5.2.3 触发词过滤规则
    5.3 实验及结果分析
    5.4 本章小结
6 中医针灸领域知识库建设构想
    6.1 知识库系统平台架构设计
    6.2 中医针灸知识集成
        6.2.1 数据源数据样例
        6.2.2 中医针灸知识抽取
        6.2.3 中医针灸知识管理
    6.3 中医针灸知识库应用
        6.3.1 辅助教学
        6.3.2 辅助诊疗
        6.3.3 知识发现研究
    6.4 本章小结
7 结论与展望
    7.1 结论
    7.2 创新点
    7.3 展望
参考文献
攻读博士学位期间科研项目及科研成果
致谢
作者简介

四、文本切分知识获取及其应用(论文参考文献)

  • [1]基于爬虫的新闻网页分词系统的研究与设计[D]. 秦亚红. 西北民族大学, 2021(08)
  • [2]基于社交文本数据的人物地理位置属性挖掘研究[D]. 陈梦苑. 电子科技大学, 2021(01)
  • [3]面向智库需求的智慧数据服务模式及服务能力评价研究[D]. 吴雅威. 吉林大学, 2021(01)
  • [4]基于Parser的数学自然语言结构分析及其应用研究[D]. 孙方滨. 电子科技大学, 2021(01)
  • [5]面向机械产品专利的机构信息识别与提取方法研究[D]. 卜和蛰. 湖南大学, 2020(08)
  • [6]基于改进朴素贝叶斯的新闻分类研究[D]. 赖晓锋. 江西财经大学, 2020(11)
  • [7]面向中文短文本的关系抽取算法设计[D]. 汪诚愚. 华东师范大学, 2020(08)
  • [8]基于条件随机场和增量学习词典的中文分词[D]. 杜晓凡. 天津财经大学, 2020(07)
  • [9]基于词频统计的中美图书馆自律规范及其对比研究[D]. 王丽培. 黑龙江大学, 2020(05)
  • [10]中医针灸领域信息抽取关键技术研究[D]. 孙水华. 大连理工大学, 2019(08)

标签:;  ;  ;  ;  ;  

文本分割知识获取及其应用
下载Doc文档

猜你喜欢