互联网金融之量化投资深度文本挖掘——附源码文档
??
【重!磅!干!货!】互联网金融之量化投资深度文本挖掘——附源码文档
2016-08-07 西西
数据挖掘DW
数据挖掘DW
数据挖掘DW
查看之前文章请点击右上角,关注并且查看历史消息,还可以在文章最后评论留言。谢谢您的支持! 回复【文本挖掘】或者【点击阅读原文】获取链接与代码附录 一、 功能概述 ? ? ? ?关键词词频&网络图是以股票论坛、 个股新闻、研究报告三个网站作为数据源,以文本数据挖掘作为核心技术,以 Lucene 检索作为系统框架, 以证券分析为目的, 实现的智能文本分析系统,该系统主要实现了以下功能: 关键词词频统计 关键词网络图 ? ? ??其中,关键词词频统计功能是: 对于给定的关键词(Word)以及给定的股票代码(Ticker)在一定的时间范围[StartDate,EndDate]内,计算每周的平均词频占比, 同时给出该词频占比时间序列与股价之间的相关系数。 ? ? ? ?关键词网络图的功能是: 对于给定的关键词(Word)在一定的时间范围[StartDate,EndDate]内,根据 TF-IDF 关联度指标为依据,给出与关键词最相关的 20 个一级词,以及与一级词最相关的 5 个二级词,组成关键词网络图。 二、功能模块
1) 爬虫模块 2) 检索模块 ? ? ? ?检索模块的主要作用在于以 Lucene 为架构, 将爬虫模块爬到的文本数据加入到全文索引当中, 在建立索引的过程中,系统以“句子”作为基本的检索单位即检索关键词能够定位到该关键词所在的句子。 另外, 索引采用增量的方式来建立,即每次只将最新爬的文本加入到搜索索引当中, 而对于三个数据源,系统分别建立了三个独立的索引。同时,在建立的索引的基础上, 检索模块还实现了基本的文本检索功能, 检索程序能够在一定的时间范围内对于检索给定关键词,并返回该关键词所在的存储文件的文件名,以及该关键词所在的“句子”,并将所有的检索结果输出到一个给定的文件中。 ? ? ? ?简而言之,检索模块提供了建立索引和文本搜索两个主要的功能,他们分别是: ▲IndexFiles_pylucene.py? ?增量建立索引 3) 统计模块 ? ? ? ?其中,用户字典关键词的词频数和文档数,是为了关键词网络模块中计算TF-IDF 相关度指标所准备的数据,而每天的句子数则树为了关键词词频模块中计算词频占比所准备的数据。对于统计模块的这三个功能,分别有三个独立的程序进行,他们分别是: ▲IDFCalWord.py? ?计算关键词总词频数 ▲SentenceCal.py? 计算每天文档的句子数 (编辑:ASP站长网) |