原文鏈接:http:///r語言對twitter數(shù)據(jù)進行挖掘/ Twitter is a popular social network, where a lot of data
waiting for our analysis. Twitter R package is a good tool for text
mining of twitter data. This article is about how to use Twitter R
package to get twitter data and import it into R, and then make
some interesting data analysis. 第一步是注冊一個你的應用程序。 為了能夠訪問Twitter數(shù)據(jù)編程,我們需要創(chuàng)建一個與Twitter的API交互的應用程序。 注冊后你將收到一個密鑰和密碼: 獲取密鑰和密碼后便可以在R里面授權我們的應用程序以代表我們訪問Twitter: 根據(jù)不同的搜索詞,我們可以在幾分鐘之內(nèi)收集到成千上萬的tweet。這里我們測試一個關鍵詞 littlecaesars的twitter結(jié)果: 抓取最新的1000條相關twitter 由于默認的抓取結(jié)果是json格式,因此使用twlisttodf函數(shù)將其轉(zhuǎn)換成數(shù)據(jù)框 然后我們做一些簡單的文本清理 從得到的數(shù)據(jù)里,我們可以看到有twitter發(fā)表時間,內(nèi)容,經(jīng)緯度等信息 在清理數(shù)據(jù)之后,我們對twitter內(nèi)容進行分詞,以便進行數(shù)據(jù)可視化 分詞之后可以得到相關twitter的高頻詞匯,然后將其可視化 除此之外,還可以結(jié)合數(shù)據(jù)中的時間戳數(shù)據(jù)和地理數(shù)據(jù)進行可視化分析 如果你一直在考慮對一些文本數(shù)據(jù)應用情感分析,你可能會發(fā)現(xiàn)使用R比你想象的更容易! |
|
來自: 拓端數(shù)據(jù) > 《待分類》