大数据的金融新创力 -...
TRANSCRIPT
-
大数据的金融新创力
新浪财经 产品大数据中心2016-11-18
-
商业决策
财产安全
精准营销 猜你
喜欢 共同兴趣
4个V的应用
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
-
My Portfolio Performance
今年跑赢上证指数34.18%
我的收益超过93.1%的股民
52.17% VS 25.47%
-
新浪影响主流中国,微博汇聚社会力量
-
社交网络
权威媒体
开放平台
每天超过100万优质媒体及意见领袖贡献内容
每天超过1亿主流用户通过新浪网来了解世界
每天超过40亿页面访问及内容消费
注册用户超过
5亿
人均好友超过
200人
每天新发微博内容量
超过1.3亿
用户每日时长超过
90分钟 超过34万平台开发者超过5万应用和网站可以使用微博账号直接登录
每日超过600万站外分享至微博,超过6000万流量导出
新浪+微博双核联动
-
近年来,随着微博的快速崛起,微博成为网民参与公共舆
论的主要平台。微博用户加大对财经信息的关注力度,以及用
户的消费能力的增长,都为微博在财经领域快速发展提供重要
基础,其传播通路的价值不断深化。
1.89亿条
3752.5万
31.6万个
2.69亿人次
财经相关博文总阅读数
1374.8亿次
2016年上半年
财经博文
微博讨论用户
财经官方账号
财经订阅用户
数据来源:新浪微博数据中心 监测时间:2016.01.01-2016.06.30
-
ETL
ETL
系统管理
安全管理
数据质量管理
元数据管
理
系统优化管理
运维管理
共享数据模型
调度管理
数据源
流量数据 行为数据 用户数据 社交关系 UGC
XX
XX
XX
XX
XX
XX
XX
XX
XX
………
XX
XX
新闻资讯
通用主题
中央数据仓库
MDS层(中间层数据) 主题
ODS层(基础明细数据)
原始数据层(原始日志)
主题用户主题
行为主题
XX主题
XX主题
XX主题 XX主题 XX主题
XX主题XX主题
XX XX
XX
XX
XX XX XX
XXXX
XX XX
ETL
轻度汇总数据
ETL
经过清洗转换处理后的基础数据
未加工的原始数据 XX主题 XX主题 …… ……
SDS层(应用层数据)汇总数据及面向业务需求数据
ETL
用户统一视图 XXXX XXXX XXXX XXXX
应用与服务
KPI指标 多维分析 即席查询 专题研究 数据挖掘平台
XX
战略决策平台开发人员 数据接口
提供gateway及开发环境,面向技术人员进行开发
分析师
自助提取数据开发平台,面向产品运营和分析师
产品运营及销售
根据选择条件进行定制,查询统计数据,面向非技术业务部门
共享数据平台数据门户(portal)
XX XX
XX报表系统 BI多维报表
SD系统
BI系统
提供各种数据接口服务
提取使用 回写、沉淀、共享
用户 产品运营 业务分析 技术 XX XX XX ……
用户主题
行为主题
XX主题
XX主题
XX主题
XX主题
分析挖掘
(UD
F
)
……
-
专注于大数据与金融创新
新闻 行情 用户 微博 搜索 股吧
-
市场
香港
美国
欧洲
商品
外汇$信息
新闻
新媒体
行业
政策
社区
机构
证金
公募
私募社保
证券
-
数据社交
移动
用户行为
资讯传播
技术SMAC革命
大数据处理
智慧分析
云计算
思想理性精确
探寻因果
普遍相关
逻辑发现
-
INVESTMENT
TOPIC
-
新闻数据—话题挖掘—概念潜在语义分析(LDA --- HDA)
LDA(隐性语义分析)的目的是要从文本中发现隐含的语义维度——即“Topic”或者“Concept”。我们知道,在文档的向量空间模型(VSM)中,文档被表示成由特征词出现概率组成的多维向量,这种方法的好处是可以将query和文档转化成同一空间下的向量计算相似度,可以对不同词项赋予不同的权重
LDA的概率图模型:
其中D代表文档,Z代表隐含类别或者主题,W为观察到的单词,表示单词出现在文档的概率,表示文档中出现主题下的单词的概率,给定主题出现单词的概率。并且每个主题在所有词项上服从Multinomial 分布,每个文档在所有主题上服从Multinomial 分布。整个文档的生成过程是这样的:(1) 以P(𝒅𝒊)的概率选中文档𝒅𝒊;(2) 以P(𝒛𝒌|𝒅𝒊)的概率选中主题𝒛𝒌;(3) 以P(𝒘𝒋|𝒛𝒌)的概率产生一个单词。
我们可以观察到的数据就是(𝒅𝒊, 𝒘𝒋)数据对,而𝒛𝒌是
隐含变量。(𝒅𝒊, 𝒘𝒋)的联合分布为:
P (𝒅𝒊, 𝒘𝒋) = P(𝒅𝒊) P(𝒘𝒋|𝒅𝒊),
P (𝒘𝒋|𝒅𝒊) = 𝒌=𝟏𝑲 P(𝒘𝒋|𝒛𝒌)P(𝒛𝒌|𝒅𝒊)
ZD W
-
挖掘投资风口:主题聚合
WLCSP封装
信维通信
红宝丽
上海贝岭
三安光电
晶方科技
体感交互
欧菲光
联创光电
苏州园林水晶光
电
高德红外
虚拟现实设备
易尚展示
欧菲光
银河生物华力创
通
三安光电
今日最新
热度151789
房地产
时间:2015-12-25 13:57:31
相关股票:大港股份 +10.01%
热度135987
万科概念
时间:2015-12-25 12:57:10
相关股票:中兴商业 +2.76%
热度16826
中石油管道业务整合
时间:2015-12-25 08:39:10
相关股票:东方热电 +9.42%
近期最热
热度328695
房地产
时间:2015-12-25 13:57:31
相关股票:大港股份 +10.01%
热度187150
增持
时间:2015-12-25 13:52:10
相关股票:中兴商业 +2.76%
热度178095
银行
时间:2015-12-25 13:55:10
相关股票:怡亚通 +9.99%
今日异动
热度变化率
860.50%
航运
时间:2015-12-25 13:57:34
相关股票:中海发展 +10.01%
热度变化率
458.00%
油品改革
时间:2015-12-25 13:13:16
相关股票:龙宇燃油 +10.00%
热度变化率
248.00%
海工装备
时间:2015-12-25 13:41:25
相关股票:中船防务 +5.36%
-
投资主题关注度与主题净值
近期最热
热度184978
医疗
时间:2015-12-16 10:57:31
相关股票:宝莱特 +10.01%
正感情100.00%
负感情0.00%
中性0.00%
2015-12-16 09::44:05 新闻情感分析
今日最新
热度175609
医疗
时间:2015-12-16 10:57:31
相关股票:宝莱特 +10.01%
-
TOPIC
STOCK
-
投资主题下最值得关注的个股
序号 股票 最新价 涨跌额 涨跌幅 昨收 今开 最高 最低
1明星电力600101
15.95 +1.45 +10.00% 14.50 15.95 15.95 15.95
2西宁特钢600117
7.41 +0.67 +9.94% 6.74 7.36 7.41 6.91
3冠农股份600251
11.44 -0.14 -1.21% 11.58 11.58 11.68 11.34
4鼎立股份600614
12.34 +0.23 +1.90% 12.11 12.05 12.53 11.96
5林洋电子601222
39.99 -0.04 -0.10% 40.03 40.18 40.65 39.31
-
个股维度
正情感 中性 负情感
荃银高科 300087.SZ 11.63 -0.03 -0.26%
苯乙烯 甲醛检测甘蔗废料利
用碳海绵
船舶航空海洋渔业 有机硅 微电子
电解电容器纸
太阳帆 类稀土 碳海绵
船舶航空海洋渔业 有机硅 微电子
-
SMART
USER
-
Sina Smart User
SU智能仓位于股灾1.0、2.0、3.0期间连续提示空仓规避风险,保护受益。
-
BIG DATA
STRATEGY
-
Sina smart user + Big data portfolio
技术力量支持
捕捉利好消息的个股
价量反应
寻找中短期势
一致的好股票
基础数据分析
大数据智能股票池股票池
实时监控8万条/小时的全网资讯
20万次/分钟实时计算
=
2015年以来回溯累计收益210.37%同期沪深300指数累计收益-0.94%
-
我们用到的技术
语义分析
智能情感
文本相关
排序
集群计算
模式识别
小波降噪
分形算法
金融工程
量化投资
多因子回归
-
BIGDATA
精准洞察市场情绪
数据共享
行为择时
量化研究
产品创新
智能投顾
事件预测
大数据让投资更容易
行业生态企业合作
-
2014年9月12日 新浪南方大数据i指数在深交所挂牌
9月24日 大数据战略发布,财经大数据研究中心成立
11月11日 全新数据中心(finance.sina.com.cn/data)上线
2015年4月1日 基于新浪大数据的“舆情牛股”上线
4月1日 港股Level2行情上线
4月22日 大数据100指数基金首发,有效认购近36亿,配售比27.88%,一天完成10亿元募集上限
5月28日 大数据100指数基金打开申购一天,截至6月30日,净值规模达102.8亿元
6月2日 与中金公司独家合作的投顾产品“i牛股”上线
6月15日 大数据300指数基金首发
8月18日 沪深Level2行情普及版上线
2016年1月15日 36只队伍中脱颖而出获得新浪集团创新大赛一等奖
5月10日 基于社交互动数据的众智基金首次募集
11月11日 大数据C端产品“投资易”上线
-
新浪财经产品大数据中心
Hey, Big
Data
Thank You !