與大多數人的想象不同,在機器學習領域里,處理數據所耗費的精力占據著最多比例。通常情況下,每購買 1 美元的數據,我們需要花費 5-7 美元來清理,才能讓它用于機器學習模型的訓練與推理。在這個過程中,數據科學家要耗費整個開發流程 80-90% 的時間。
如果可供使用的數據標準化且直接可用,成本和效率的提升就會讓科技公司獲得前所未有的優勢。在這一方面,彭博是業內領先的數據服務提供商。
數據服務并不止于交易數據,今年 2 月 21 日,彭博宣布推出“另類數據”服務,其中包括 20 余種新類型數據,如基于人工智能和大數據處理得到的人流、社交媒體情緒數據,它們可以幫助投資者在瞬息萬變的市場中帶來先機。今天,作為人工智能大潮的一部分,數據服務正在邁向全新的階段。
彭博為眾多金融機構提供多種數據類別及服務,涵蓋實時數據、參考數據、定價數據和監管數據等。近日,我們與彭博企業數據全球負責人 Gerard Francis 進行了一番交流,他向我們介紹了彭博數據業務的發展,以及他對于在投資領域應用 AI 的看法。
Gerard Francis
“在金融領域里,我們是全球最大的數據供應商。”Gerard Francis 表示。彭博現在的數據提供平臺中已擁有實時數據、參考數據、另類數據、衍生數據等種類的數據集,且提供數據的方式多種多樣:從 API 到數據接入網站皆可以獲齲用戶可以在數據的基礎上使用自己的程序進行處理。
彭博企業級數據業務始于 1997 年,至今已有 22 年歷史了。目前,全球最大的金融機構都在依賴彭博的數據開展自己的業務。
彭博最近的方向是提供各種類型的“另類數據”:從衛星圖像到博客內容中收集的情緒信息,再到 APP 的下載趨勢。在彭博數據接入網站 Bloomberg Enterprise Access Point 上,我們可以找到很多不同類型的數據。彭博稱,目前該網站可提供 2700 余種參考數據集,200 余種估值數據集,400 余種另類數據集以及近 600 余種監管數據集等。
比起技術人員常使用的 GitHub,使用這個平臺更像是在瀏覽亞馬遜購物網站——你可以在其上瀏覽各種產品,并購買其中想要的。
Gerard Francis 以北美股票參考數據為例進行了演示。數據集下載完成后可以看到是 CSV 文件,可用 Excel 直接打開,其中的數據非常干凈整潔,無需進行任何其他處理就可以直接使用了。對于彭博的所有數據集,人們都可以直接下載使用。
價格之外的另類數據
Bloomberg Enterprise Access Point(BEAP)是彭博企業數據業務新近推出的一項服務,于 2018 年 9 月推出。這是一個在線數據平臺,為 Bloomberg Data License 客戶提供標準化的參考、定價、監管,以及另類數據集。彭博今年 2 月剛推出的“另類數據(Alternative data)”收集了很多前所未有的內容,可以幫助投資者在交易中奪取先機。
另類數據是彭博最近提出的新數據類型。在這一分類中,我們可以找到來自很多不同類型數據公司提供的內容。目前,BEAP 擁有 20 多套另類數據集,其中包括對金屬庫存、股票博客情緒、藥品審批、消費者客流量和停車場活動、建筑許可、地緣政治風險和應用利用率的洞察。彭博計劃在未來每個月都會加入更多的數據類型。
“另類數據正在變得越來越重要,”Francis 介紹道,“其中主要有兩個原因。其一是我們的客戶正在尋找提高 Alpha(超額收益)的方法。其二是另類數據通常難以使用。它數量巨大、笨重而難以處理,人們很難找到它的價值。但這卻是機器學習和 AI 可以發揮作用的地方,通過應用這些技術幫助我們找到價值。”
彭博通過 BEAP 網站提供另類數據業務可以一站式解決金融行業數據科學家對于內容的需求,無需面對多個合同和供應商。另一方面,彭博的數據提供使用了標準化的 API,從而節省了技術人員的使用步驟。
為了保證另類數據的準確性,彭博的數據團隊中有很多技術人員專注于數據處理。這家公司也在使用很多各類先進的技術來處理數據。據介紹,彭博的數據部門非常龐大,目前約有包括正式員工和供應商在內 5000 多人專注于數據。
在另類數據集中,我們可以找到一些很有意思的內容:商場的人流、停車場擁擠情況、手機 APP 的下載量,甚至某個地區出現不穩定的可能性。“我們的數據提供商之一 Apptopia 是個很有意思的公司,他們提供的數據可以告訴你所有 APP 在 Google Play 和 Apple Store 上的下載數量。”Francis 介紹道。
彭博展示的另一個例子是地緣政治風險數據,其來自 Predata 公司。數據供應商會收集很多預警和指標,對于政治風險、經濟增長、社會不穩定等進行評分,從而獲得一系列的數據。如果一個人正在做風險管理任務,他們可以在這里獲得有關國家潛在風險的提示。
這些數據本身來自于公開信息,被各家數據公司收集后進行處理。對于分析師來說,這可以幫助理解競爭對手的業務情況,也可以在某一次投資前做好背景調查。
在另類數據領域有很多垂直領域的公司,但彭博擁有一站式的數據服務平臺將大量另類數據整合在這一平臺上。“對于一些數據提供商來說,他們可能會面臨缺乏客戶的問題。”Francis 表示,“但是加入彭博平臺以后,他們的數據可以被更多投資者發現,也許很快會變成熱門產品了。”
情緒數據,一秒總結全文
彭博最為大眾所知的或許還是新聞報道,其提供的權威性新聞評論及觀點常常會成為市場的風向標。很多短線投資者會在新聞爆出后的數秒內進行判斷并發出交易指令。如果讓 AI 來直接判定一條新聞是否“值得交易”,或許可以為交易員爭奪一些寶貴時間。
彭博已經使用自然語言處理技術讀取自家新聞社記者們撰寫的新聞內容,隨后使用數學算法來計算情緒數據。另外,來自推特等社交媒體的信息也“盡在掌控中”。該數據產品稱為“Event Driven Feed”(事件驅動數據流)。
在這方面機器確實比人要快。彭博采用了機器學習算法,每當新聞寫好之后,我們就立即能夠獲得這個故事的評分。隨后,彭博終端就會發出推送,實時告知客戶。從記者寫好一篇文章再到客戶獲得評分,在這期間耗費的時間不到一秒鐘。
情緒數據是一種經過深度學習處理過的數據,如何解決“黑箱”問題呢?彭博認為可以通過使用數據樣本進行回溯測試等方式,從數學上獲得穩定的結果,解決人們的疑慮。
客戶們對于這種新鮮事物還在探索和適應的過程中。“一些人對這種分析的可靠性表示滿意——通過回溯測試以及不斷訓練新的數據進行投資;”Francis 表示,“有些時候客戶對此不會滿意,這取決于客戶的類型和他們的投資方式。我們發現很多中國客戶非常樂于嘗試機器學習這樣的新方法,以求獲得更好的回報。而另外一些國家的投資者會相對保守,或許對沖基金會接受,但基金經理不會接受。”
有關英偉達的推特消息發出后,股價的波動情況。市場會在短時間內作出反應。(圖片來自 Bloomberg)
在這其中最重要的是不同的交易策略,一些人走短線,一些人走長線。他們都可以通過數據獲得自己所需的信息。對于那些交易速度非常快的人,比如一些對沖基金,當他們獲得新聞報道的標題時,會很快將其轉換為交易動作。有時在看到標題的一秒鐘內,他們就會進行交易。
“目前全球 有 50 多家機構在使用 Event Driven Feed 產品,其中至少有五個客戶正在使用中文推送流,”Francis 介紹道,“其中一些是中國公司。這是一個新的趨勢,我們的業務重點正在從紐約和歐洲轉向亞洲。”
新數據帶來的收益
隨著彭博新數據服務的發展,越來越多的金融機構開始將目光轉向于數據平臺。“很多客戶會下載數據后進行測試,當找到信號之后將其轉化為收益,如果行之有效,他們就會購買數據集。已經有一些客戶開始購買這些數據了。”Francis 表示。
對于量化投資而言,使用最先進的技術才能帶來最大收益。很多彭博數據的客戶都在使用機器學習和人工智能技術來處理金融數據,以形成他們的投資策略。Gerard Francis 認為在彭博數據業務的客戶中已有 80% 正在使用 AI 算法,而 20% 仍在使用傳統的投資模型。
除了帶來更多預期收益之外,人工智能和機器學習對于金融市場的影響方式有很多種。在風險投資領域有很多人正在使用 AI 算法進行風險回測,尋找壓力區域。也有人在使用 AI 識別交易員的風險操作。人工智能會在金融領域里或許還有很多新類型的應用。
盡管機構不會直接披露通過技術獲得的收益數據,但我們已可以看到人工智能進入金融行業的趨勢了。在 20 年以前,很少有投資機構會去研究 AI,但隨著深度學習的發展,今天我們可以看到大量金融公司正在研究人工智能。
Citadel 首席人工智能官
鄧力
。一些對沖基金為了技術甚至招攬了著名 AI 科學家,2017 年 5 月,前微軟首席人工智能科學家鄧力宣布加盟對沖基金巨頭 Citadel。2018 年 8 月,《終極算法》一書的作者,華盛頓大學教授 Pedro Domingos 也被 DE Shaw 簽下。
如果去看看一些科技基金的回報率,如 Bridgewater 和 Renaissance Capital,你會發現它們擁有驚人的回報率,這正是量化技術的功勞。
在金融數據業務的賽道上,目前最大的公司是彭博和 Refinitiv(后者是 Blackstone 和湯森路透旗下金融品牌)。隨著金融機構對數據數量、質量需求的提升和成本壓力的增加,越來越多的機構傾向于減少數據供應商的數量,“他們期待從一家供應商那里獲得盡可能豐富的數據和服務,這樣可以幫助他們提高運營的效率,并且更經濟。而彭博正是他們很好的選擇。”Francis 對于彭博企業數據業務的未來充滿信心。
彭博來到中國已有一段時間,這家公司與各類金融機構和監管部門都保持了密切的聯系,從而獲得豐富的金融數據,覆蓋各資產類別和市常隨著中國市場的國際化,國內的金融機構正在逐漸開始使用新技術,而彭博也樂于將其全球經驗分享給中國客戶。
未來,人工智能將隨著數據服務的發展而變革。“我們的世界將變得高度自動化。”Gerard Francis 表示,“我認為人們會通過大量數據 API 和數據交換互相連接——所有數據中心都在云端。云服務將承載應用程序,人們在云端直接消費并傳遞數據。”
評論