欢迎来到大数据的世界。截至去年中旬,每分钟互联网用户发出超过20400万个电子邮件,谷歌的400万搜索,并提交了超过275,000名新推文,根据美国叉子,犹他州的软件公司(见图表)。在聚合中,IBM估计,世界每天都会创建超过2.5多个新数据字节。
这种关于大规模规模的经常以前不可用数据的快速增长导致了在统计和计算机科学交叉口的新研究领域的发展。数据科学提供新工具用于从经典统计模型和技术中提取巨大数据的预测洞察力。在过去的几年里,数据科学算法已经变得如此根深蒂固,我们甚至没有意识到它。当我们使用搜索引擎时,请在点击按钮或我们的电子邮件软件夹出另一块垃圾邮件时,将网页翻译成新语言,我们正在目睹这种机器学习技术。
尽管如此,任何统计建模者的红衣主教罪观就会过度使用数据:测试和重新测试模型规范,以获得更好,更好的预测力,最终在现实世界和采样超出数据时使用。研究人员使用各种技术来避免这种危险,例如纪律使用测试和阻止样本;专注于具有明显敏感性的预测变量,即能够解释为什么它的工作;特别是,重点是更简单的模型,其中包含更少的可用参数才能首先调整到数据。基本上,操纵数据的人限制了他们对具有几个变量的模型以及输入和预测之间的简单线性关系,以减少不受约束的数据挖掘的诱惑。
这些限制的成本是我们失去了识别这些新技术的一些更微妙的预测功能,这些技术可能提供交易见解。通过有效地让数据“言语”来揭示在更广泛的潜在预测变量上的数据“言语”来提供这种限制的一种方法。这些技术允许保护模型的复杂性以预测超出样品的能力。此外,传统的统计技术最适合组织的数据集,以便每个观察有一个固定数量的字段。相比之下,机器学习技术可以应用于更多非结构化数据集,如大型文本体。非结构化数据的示例包括新闻文章,新闻稿,博客和推文。
这些算法和建模技术已被广泛采用,例如广告和制药。然而,他们通过资产管理的采用速度较慢,普遍存在。在Blackrock,我们认为这些新的数据科学技术具有巨大的潜力,可以识别和捕捉客户的系统投资机会,因为我的同事科学活跃的股权集团最近争论。更具体地说,使用这些机器学习技术,我们可以开发出高度适应性的投资策略,可动态响应不断发展的市场条件,我们可以增强我们的交易模式的预测力量,我们可以量化曾经是纯粹的主观评估语气的纯粹评估an analyst’s report or in a首席执行官在电话会议上表达了乐观主义。
长期股权研究一直是定量金融界大部分工作的自然出发点。这是直观的明智的,因为这些大数据技术在部署到大型数据集时最佳地工作。股票市场具有丰富的数据,历史记录数千股历史记录,数千次股票和关于每年生成的每个公司的作品(年度报告,分析师评论,会议调用成绩单,新闻稿和新闻文章以及社交媒体- 像聊天室和Twitter评论的相关数据)。
至于固定收入,尽管数据普遍较小的数据,但有大量的机会应用机器学习和大数据技术。与股票中的信贷投资者一样,对市场上个体发行人的相对健康状况的看法,并在从越来越多的公司特定的非结构化数据中收获的长短见解中受益。更宏观的投资者也能获得更多宏观的投资者,因为我们可以应用这些技术来帮助衡量相关内容的情绪,例如新闻文章,经济战略研究,联邦政府讲话和美联储报告。
在警示笔记时,我们应该锻炼我们的热情,以表彰现代统计学习和非结构化数据,虽然有用的技术,无论资产课如何,都不是魔法。了解市场动态和经济洞察力仍然很重要。通过数据科学,我们可以使用该市场知识和投资专业知识来识别和培育宝贵的数据集,指导我们如何应用我们的机器学习技术来利用这些数据的预测见解并相应地发展投资策略。
Mike Rierson是董事总经理和研究负责人黑石旧金山的模型固定收入集团。
更多地获得更多交易和技术。