设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 重新 试卷 文件
当前位置: 首页 > 大数据 > 正文

互联网金融之量化投资深度文本挖掘——附源码文档(2)

发布时间:2021-02-04 03:27 所属栏目:125 来源:网络整理
导读:4) 关键词词频模块 ? ? ? ?通过建立三个基础模块, 能够完成一系列的应用,关键词词频模块是其中的一个应用模块, 关键词词频模块的主要功能在于:对于给定的关键词以及给定的股票代码,在一定的时间范围内,计算

4) 关键词词频模块
? ? ? ?通过建立三个基础模块, 能够完成一系列的应用,关键词词频模块是其中的一个应用模块, 关键词词频模块的主要功能在于:对于给定的关键词以及给定的股票代码,在一定的时间范围内,计算每周的平均词频占比, 给出词频占比序列的曲线和股票价格曲线的对比图, 同时给出该词频占比与股价之间的相关系数。

? ? ? 模块中没有直接使用关键词每天的词频,而是根据每天的词频,以及当天文档的句子总数计算关键词的词频占比。 对于关键词 ,词频占比 的计算公式如下:

互联网金融之量化投资深度文本挖掘——附源码文档


? ? ? 其中, 公式的各个指标的意义如下:
? ? ? 分子: 概念关键词 在第 i 天出现的次数

? ? ? 分母: 第 i 天中文档的句子总数


? ? ? ?从词频占比的计算公式可以看出, 词频占比是将每个星期的关键词的词频总和除以每个星期文档的句子总数得到的。 使用词频占比而非直接采用词频,能够更公平地反应出关键词 每天的关注程度,从而更合理地对词频信号进行使用。另外,在计算关键词与给定股票的相关系数时, 模块会以一周为频率计算关键词的词频占比时间序列,同时计算该周内给定股票股价的均值,计算两个时间序列的相关系数作为两者相关性的依据。

? ? ? ?对于关键词词频模块, 只有一种调用的方式,调用时需给出关键词、股票代码以及时间范围:

sigWordSeq.py ??关键词词频时间序列


5) 关键词网络模块
? ? ? 和关键词词频模块一样,关键词网络模块也属于应用模块, 关键词网络模块的主要功能在于: 对于给定的关键词、在一定的时间范围内,根据 TF-IDF 关联度指标为依据,给出与关键词最相关的 20 个一级词,以及与一级词最相关的 5个二级词,组成关键词网络图。

? ? ? ?其中关联度指标采用的是TF-IDF算法, TF-IDF是一种常用的文本检索与本文探勘的加权技术,主要用于评估某个词对于一份特定文档的重要程度。 在本文的关键词网络模块中,将给定关键词的搜索结果集合作为特定文档, TF-IDF用于评估搜索结果中每个词对于该结果的关联程度,即对于关键词的关联程度。 TF-IDF的具体计算公式如下:

互联网金融之量化投资深度文本挖掘——附源码文档


其中 x 为搜索结果中的某个词,

互联网金融之量化投资深度文本挖掘——附源码文档

为词 x 的与关键词的TF-IDF关联度指标,其他符号意义如下:

互联网金融之量化投资深度文本挖掘——附源码文档


对于关键词网络模块,提供了两种形式的调用,一是对于给定的关键词,生成完整的关键词网络图,二是对于只给出与关键词关联度最高的20只股票组合,他们分别是:
WordNet.py ??完整关键词网络图
WordNet_stock.py ??关键词关联股票组合


三、 模块运行

1) 爬虫模块举例2个,其余不再呈现
路径: D:\TotalCode\LuceneCode\GetData\GetGuba_pylucene.py
功能: 股票论坛网页爬虫
输入参数:无
运行举例: python ? GetGuba_pylucene.py

运行过程实例:

互联网金融之量化投资深度文本挖掘——附源码文档


运行结果:

互联网金融之量化投资深度文本挖掘——附源码文档



路径:?D:\TotalCode\LuceneCode\GetData\GetSinaNews_pyl
功能: 个股新闻网页爬虫
输入参数:无
运行举例:?python ? GetGuba_pylucene.py

运行过程实例:

互联网金融之量化投资深度文本挖掘——附源码文档


(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读