基于文本挖掘技术的金融负面信息及主体判定研究开题报告

 2023-02-26 06:02

1. 研究目的与意义

随着人们收入的增长,生活条件也日益见好,人往高处走,有了闲钱自然就会想到拥有更多的闲钱,但很多人的每月收入十分有限,所以就寄托于理财增收这条渠道上,所以投资理财的需求随之增强。

但接连发生的非法集资等投资理财案件,说明民众的金融投资理财知识和投资理财风险意识仍是欠缺,理财本没错,错的是理财之前没有做好风险防范。

那么如何才能增强理财风险意识呢?首先,投资者应该了解到投资项目可能存在的风险......随着互联网的飞速进步和全球金融的高速发展,金融信息呈现爆炸式增长。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

研究内容:根据所给的金融信息,通过bert,tf-idf处理判断其中是否含有负面信息并且进行主体判定

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

相关有研究证明基于机器学习方法的情感分析任务比基于词典的方法上可以获得更高的准确率[1]。一般来说,基于机器学习的情感分析方法主要包括以下三个步骤:(1)对于所需文本数据集的获取;(2)对文本数据的情感特征手动取出;(3)通过机器学习的算法将目标文本进行训练分类。hai 等人 [2]根据互联网用户的评论和整体评价,提出了一种新的概率监督的、面向情感的联合模型(sjasm),该概率模型建立在文档主题生成模型(latent dirichlet allocation,lda)基础之上,兼具了方面层情感分析和整体情感分析。singh 等人[3] 综合利用朴素贝 叶斯、j48 决策树、bf 决策树以及 oner 算法,四种机器学习算法进行了文本情感分析。文献[3]中分别使用朴素贝叶斯、支持向量 机和 k 邻近算法对金融文本进行语义的标注、特征的提取,进行分类。但是目标文本信息量庞大,如果通过手动对于文本特征的情感分析进行提取难以实现。

基于深度学习的方法一般采用稠密、连续、低维度的向量表示文档和词语,所以能解决数据稀疏问题[4]。目前最新的情感识别bert 模型 [5]来自于论文《 pre-training of deepbidirectional transformers for language understanding》,该模型相比 11 种自然语言处理任务可以获得最准确的结果。这是由于bert模型在语言模型预训练阶段,采用了基于自注意力机制的双向 transformer[6]结构。bert 模型预训练阶段包括两个任务:一个是遮蔽15%的文字的语言模型(masked language model,4 mlm),根据自己特有的遮盖(mask)语言模型预训练方式,生成对每个输入单词的上下文分布式表示;另一个是下句预测模型(next sentence prediction,nsp),来预测金融语料库中的下一个句子。该预训练模型在特定场景使用时不需要用大量的语料来进行训练,时间效率高效,具备较强的泛化能力,对于特定的任务只需要添加一个输出层来进行微调即可。

[8]文本分类是指从原始文本数据中提取特征,并于这些特征预测文本数据的类别,作为有效的信息检索和挖掘技术,其在管理文本数据中起着至关重要的作用[9]。传统机器学习方法如朴素贝叶斯、支持向量 机等技术表现出的分类效果相对较差[10]。随着深度学习的发展,文本的表征方式从空间向量模型发展到 word2vec词向量模型,基fasttext、cnn、rnn、lstm等神经网络语言模型的文本分类技术得到广泛应用,并涌现出各种变体[11],随后elmo、bert等通用预训练语言模型的出现有效提高了文本分类等自然 语言处理任务的实验效果[12]。目前,针对中文文本分类任 务的研究主要包括社交文本的情感分析[13]、新闻文本的分类任务[14]和专利的自动分类[15]等。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 计划与进度安排

2022年12月下旬:选定论文题目,与老师讨论所写论文的研究方向2022年1月一2月:初步收集和查阅论文所需的基本资料。2022年3月上旬:初步整理基本资料,提交开题报告。2022年3月中旬:在导师的指导下,集中整理收集到的相关资料,撰写论文详细题纲。.2022年3月下旬一-4 月中旬:认真查阅相关期刊、论文等文献资料,分析研究内容的研究现状,整合自己的想法,综合整理,完成论文初稿。2022年4月中旬一5 月上旬:认真听取指导老师意见,反复仔细修改完善初稿直至最后定稿。

2022年6月:准备答辩

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 参考文献

5. 参考文献:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。