主页 > 安卓版imtoken下载 > btc量化机器人可靠吗 【读书会分享】加密货币价格预测
btc量化机器人可靠吗 【读书会分享】加密货币价格预测
使用推文量和情绪分析进行加密货币价格预测
作者:
亚伯拉罕
丹尼尔·希登
约翰尼尔森
胡安·伊瓦拉
学校:
南方卫理公会大学
期刊年
2018 年 SMU 学者
01
介绍
2018年5月,比特币和以太坊两大加密货币总市值达到1609亿美元,但价格波动巨大,以比特币为例,2017年1月价格为863美元,2017年11月飙升至17550美元. 这种价格波动给加密货币投资者带来了巨大的不确定性,加密货币的行为与传统货币截然不同,因此很难根据传统方法进行预测。 基于这样的背景,本文想建立一个预测比特币价格的模型,利用Twitter的API和Python中的Tweepy库收集关于比特币和以太坊的推文,然后进行情绪分析和打分,观察两者之间的关系价格和加密货币价格。 接触。
02
情绪分析
据估计,世界上 90% 的数据都是在过去 5 年内产生的,而这些数据大部分以非结构化文本数据的形式出现,例如推文、互联网上发表的文章、短信、电子邮件、 NLP情感分析用于提取和衡量文本中表达的主观情绪或观点。 文章使用了VADER模型(Valence Aware Dictionary and sentiment Reasoner),这是比较流行的基于规则的情感分析模型之一。
(git 链接:)
03
好趋势
作为世界上最受欢迎的搜索引擎之一,谷歌占所有互联网搜索的 74.52%btc量化机器人可靠吗,这意味着其搜索数据是值得信赖的资源。 谷歌通过“谷歌趋势”提供这些数据,它允许用户获得给定搜索词在给定时间相对于其他搜索内容的流行度。 此外,可以比较这些搜索词随时间的流行程度。在这项研究中,这些数据成为衡量人们在给定时间对加密货币的兴趣的指标,从而观察人们对加密货币的追求是否与价格有关系
(网站链接: )
04
推文数据
该模型收集了 30,420,063 条推文的数据,使用“#bitcoin、#ethereum 或两者的缩写来过滤掉相关信息。
清除推文以供分析
VADER 有几个好处。 该模型不仅将文本分类为正面、负面或中性btc量化机器人可靠吗,而且还衡量所用词语的强度或极性,而 VADER 的同义词库特定于社交媒体。
采集到的推文中含有大量噪声,数据预处理是非常重要的一步,决定了情感分析的准确性。 预处理通常包括删除大写字母和删除单词时态效果(例如,run、ran 和 running 都表示相同的信息)。 文章中还使用了正则表达式,它们是模式的集合,可用于识别某些类型的文本并清理具有错误模式的文本。 正则表达式用于删除#tags,引号和问号也被删除,因为它会导致情绪分析的结果有偏差,并且网络链接也被删除。
谷歌趋势数据
文章选择使用“比特币”和“以太坊”的全称来收集谷歌趋势数据,而没有使用每种货币的缩写“BTC”和“ETH”。
推文的情感分析
Twitter 上的大量推文来自机器人。 如果机器人发出的推文带有一定的情绪因素,也会影响对加密货币的需求,进而影响价格。 而这些类型的推文中有很大一部分提供的是事实或广告,没有任何情感因素,因此能够获取的信息量非常有限。 在 VADER 的评级中,几乎一半的推文都是严格中立的。 即使是带有客观评分内容的推文,无论是正面的还是负面的,在 VADER 模型中的得分都远低于 0.5 的阈值。
图1 不同时间点BTCÐ中性推文和客观评价推文比例
图2为2018年3月4日至2018年6月3日的数据,两张图中左侧纵轴所代表的蓝线为每日币价数据。 右侧垂直轴上的紫色线显示了每天的推文情绪。 可以看出,在2018年3月4日至2018年3月24日价格下跌期间,Twitter的情绪并没有随着价格发生一致的变化。 由于两者之间缺乏明确的关系,情感分析不会被用作模型的输入。
图 2
谷歌趋势和加密货币价格
为了确定谷歌趋势搜索数据与加密货币价格变化之间是否存在关系,文章使用 Pearson R 和 P 值来研究两者之间的相关性。 皮尔逊相关系数的取值范围为-1~1。正数表示两者正相关,但不能表示因果关系,负值表示负相关。
图 3 显示价格与 Google 趋势数据高度相关,并且在上涨和下跌期间均如此,相关的 Pearson R 值为 0.817,p 值为 0.000。
图 3
推文量和加密货币价格
最后观察到的模型输入是加密货币推文的数量。 当推文是客观的时,它们往往是积极的,这可能是因为当价格下跌时,仍然在推特上谈论加密货币的人对其他一些加密货币更感兴趣,而不是他们感兴趣的价值属性(例如隐私),但是在推特上谈论加密货币的人数可能随价格波动。 下面的图 4 显示了比特币的每日价格和推文数量。 当价格继续上涨或下跌时,推文数量与价格之间的这种相关性仍然存在,相关的 Pearson R 值为 0.841,p 值为 0.000。
图 4
05
结果
在考虑了三种类型的模型输入后,文章排除了推文情绪作为不可靠指标,并选择了谷歌趋势和推文数量数据作为模型输入。 整个数据集分为两部分,使用线性回归算法进行预测,80%用于训练模型,20%用于测试,不包括交叉验证。 图5模型拟合为模型预测结果,比特币实际价格用蓝线标出,训练数据用绿点表示,测试结果用红点表示。 图6是比特币的回归拟合结果。 估计价格在 y 轴上,实际价格在 x 轴上。 绿点代表训练数据,红点是测试结果。
图 5
06
结论
这篇文章并没有涉及到很多复杂的模型知识,更多的是关于数据来源和数据有效性,这在很多情况下可能对模型的影响更为重要。 例如,非常高端的 NLP 生成的情绪分析数据,在实际的价格预测问题中并没有起到很大的作用。 目前,数字货币的概念非常流行。 这篇文章也为我们提供了一些预测价格趋势的不同思路和获取数据来源的方法。 我觉得这部分还是挺有价值的。 Github 也有许多相关项目使用不同的模型来预测加密货币价格。 欢迎您了解相应的数据处理和模型,但仅限于兴趣,禁止挖矿交易等非法操作。
(git 链接:)