设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 重新 试卷 文件
当前位置: 首页 > 大数据 > 正文

互联网金融之量化投资深度文本挖掘——附源码文档

发布时间:2021-02-04 03:27 所属栏目:125 来源:网络整理
导读:?? 【重!磅!干!货

?? 【重!磅!干!货!】互联网金融之量化投资深度文本挖掘——附源码文档 2016-08-07 西西 数据挖掘DW 数据挖掘DW 数据挖掘DW

互联网金融之量化投资深度文本挖掘——附源码文档

datadw

实战学习资料提供。涵盖数据分析工具使用,数据挖掘算法原理与案例,机器学习,R语言,Python编程,爬虫。如需发布广告请联系:?hai299014

查看之前文章请点击右上角,关注并且查看历史消息,还可以在文章最后评论留言。谢谢您的支持!


  • 回复【文本挖掘】或者【点击阅读原文】获取链接与代码附录

一、 功能概述

? ? ? ?关键词词频&网络图是以股票论坛、 个股新闻、研究报告三个网站作为数据源,以文本数据挖掘作为核心技术,以 Lucene 检索作为系统框架, 以证券分析为目的, 实现的智能文本分析系统,该系统主要实现了以下功能:

  • 关键词词频统计

  • 关键词网络图

? ? ??其中,关键词词频统计功能是: 对于给定的关键词(Word)以及给定的股票代码(Ticker)在一定的时间范围[StartDate,EndDate]内,计算每周的平均词频占比, 同时给出该词频占比时间序列与股价之间的相关系数。

互联网金融之量化投资深度文本挖掘——附源码文档


? ? ? ?关键词网络图的功能是: 对于给定的关键词(Word)在一定的时间范围[StartDate,EndDate]内,根据 TF-IDF 关联度指标为依据,给出与关键词最相关的 20 个一级词,以及与一级词最相关的 5 个二级词,组成关键词网络图。

互联网金融之量化投资深度文本挖掘——附源码文档


二、功能模块
? ? ? ?如本文之前所述, 本文分析系统的两个功能是建立在三个文本的数据源,Lucene 检索的架构之上的。 所以,实现关键词词频、关键词网络图的功能需要先做一些准备工作和模块支持, 本文所实现的智能文本分析系统只要分为以下几个模块:

  • 爬虫模块

  • 检索模块

  • 统计模块

  • 关键词词频模块

  • 关键词网络模块


1) 爬虫模块
? ? ? ?爬虫模块的主要作用在于将股票论坛、 个股新闻、研究报告三个网站的网页数据通过网页解析的方式将文本内容爬下来, 用于之后模块的文本挖掘。 爬虫模块将爬到的文本数据以【 日期 + 股票代码】 为单位存至相应的 TXT 文本文件当中,同时将文本文件所在的位置以及其他相关信息写入数据库。对于每个数据源,都有一个独立的程序进行网页爬虫,他们分别是:
GetGuba_pylucene.py? ?股票论坛网页爬虫
GetMbReport_pylucene.py ??研究报告网页爬虫
GetSinaNews_pylucene.py? ?个股新闻网页爬虫


2) 检索模块

? ? ? ?检索模块的主要作用在于以 Lucene 为架构, 将爬虫模块爬到的文本数据加入到全文索引当中, 在建立索引的过程中,系统以“句子”作为基本的检索单位即检索关键词能够定位到该关键词所在的句子。 另外, 索引采用增量的方式来建立,即每次只将最新爬的文本加入到搜索索引当中, 而对于三个数据源,系统分别建立了三个独立的索引。同时,在建立的索引的基础上, 检索模块还实现了基本的文本检索功能, 检索程序能够在一定的时间范围内对于检索给定关键词,并返回该关键词所在的存储文件的文件名,以及该关键词所在的“句子”,并将所有的检索结果输出到一个给定的文件中。

? ? ? ?简而言之,检索模块提供了建立索引和文本搜索两个主要的功能,他们分别是:

IndexFiles_pylucene.py? ?增量建立索引
SearchFiles_pylucene.py? ?关键词全文检索


3) 统计模块
? ? ? ?设计统计模块是为了随后的关键词词频和网络模块进行数据的准备,和爬虫模块和检索模块一样,统计模块也是基础模块。 统计模块的主要功能有三个:
▲ 以【用户字典】为列表,计算用户字典中每个关键词在三个数据源中出现的总词频数
▲ 以【用户字典】为列表,计算用户字典中每个关键词在三个数据源中出现过的总文档数
▲ 以句子为单位,计算三个数据源中每天文档的总句子数

? ? ? ?其中,用户字典关键词的词频数和文档数,是为了关键词网络模块中计算TF-IDF 相关度指标所准备的数据,而每天的句子数则树为了关键词词频模块中计算词频占比所准备的数据。对于统计模块的这三个功能,分别有三个独立的程序进行,他们分别是:

IDFCalWord.py? ?计算关键词总词频数
IDFCal.py? ?计算关键词所在文档数

SentenceCal.py? 计算每天文档的句子数


(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读