近年來在大數據的應用之下,有很多關於利用文字探勘的情緒分析與股價波動的實證研究。實證的品質常常會受到文字情緒分析的準確度問題影響。在 PTT 當中有推與噓的功能,推通常代表正面情緒,噓代表負面情緒,以及箭頭代表中立的情緒。由此依據可以免除掉文字情緒分析準確度的問題。
於 PTT 上活動的鄉民當中,較有可能是投資大眾者應該會集中在 Stock 版與 Option 版,其中 Option 版是用於討論選擇權與期貨交易。該版每天都會有盤中閒聊與盤末閒聊,取 2011-08-22 至 2016-01-07 共 995 篇的盤中閒聊與 982 篇的盤後閒聊來研究情緒與大台指期的每日價格是否有關。根據推率 (推數除以回文數) 與噓率 (噓數除以回文數) 來預測隔日價差 (隔日開盤減當日收盤)、隔日漲跌 (隔日收盤減隔日開盤)。由散布圖可以看出盤中與盤後閒聊的推噓文與價格變動似乎關聯性不高。


經由線性回歸模型,利用推噓文與價格來訓練統計模型,其中 R-squared 均在 1% 左右,且推噓變數與回文數均不顯著與價格有聯動關係。從這份數據顯示 PTT 當中的可能投資大眾的情緒與台指期的價格變動無明顯關係。
哈哈哈,有意思
另外請問是利用爬蟲把推的數量和噓的數量抓下來嗎? 謝謝
讚讚
我是將所有的文字爬下來,然後用R處理文字,並整理出有幾個回文,並計算推和噓的數量。
讚讚