互联网金融之量化投资深度文本挖掘——附源码文档(2)
4) 关键词词频模块 ? ? ? 模块中没有直接使用关键词每天的词频,而是根据每天的词频,以及当天文档的句子总数计算关键词的词频占比。 对于关键词 ,词频占比 的计算公式如下: ? ? ? 其中, 公式的各个指标的意义如下: ? ? ? 分母: 第 i 天中文档的句子总数 ? ? ? ?从词频占比的计算公式可以看出, 词频占比是将每个星期的关键词的词频总和除以每个星期文档的句子总数得到的。 使用词频占比而非直接采用词频,能够更公平地反应出关键词 每天的关注程度,从而更合理地对词频信号进行使用。另外,在计算关键词与给定股票的相关系数时, 模块会以一周为频率计算关键词的词频占比时间序列,同时计算该周内给定股票股价的均值,计算两个时间序列的相关系数作为两者相关性的依据。 ? ? ? ?对于关键词词频模块, 只有一种调用的方式,调用时需给出关键词、股票代码以及时间范围: ▲ sigWordSeq.py ??关键词词频时间序列 5) 关键词网络模块 ? ? ? ?其中关联度指标采用的是TF-IDF算法, TF-IDF是一种常用的文本检索与本文探勘的加权技术,主要用于评估某个词对于一份特定文档的重要程度。 在本文的关键词网络模块中,将给定关键词的搜索结果集合作为特定文档, TF-IDF用于评估搜索结果中每个词对于该结果的关联程度,即对于关键词的关联程度。 TF-IDF的具体计算公式如下: 其中 x 为搜索结果中的某个词, 为词 x 的与关键词的TF-IDF关联度指标,其他符号意义如下:对于关键词网络模块,提供了两种形式的调用,一是对于给定的关键词,生成完整的关键词网络图,二是对于只给出与关键词关联度最高的20只股票组合,他们分别是: 三、 模块运行 1) 爬虫模块举例2个,其余不再呈现 运行过程实例: 运行结果: 路径:?D:\TotalCode\LuceneCode\GetData\GetSinaNews_pyl 运行过程实例: (编辑:ASP站长网) |