Twitter日本語評判分析データセットにて配布されているデータセットのうち,2つ以上の項目が1となっているデータ,Tweet内容が取得できないデータを除き,csvファイルとして取得するためのコードです.
100ツイートを一度に取得する方法に関しては、Twitter日本語評判分析データセットのためのツイートダウンローダを参考にさせていただきました.
Twitter日本語評判分析データセットにて配布されているtweets_open.csvファイルをダウンロード.
twitterAPIを用いるため,適当なアプリをtwitter appに登録し,
API Key, API Key Secret, Access Token, Access Token Secretを取得してください.
取得したキーはget_tweets.py内の以下のxxxに書き込んでください.
CK = 'xxx' # API Key
CS = 'xxx' # API Key Secret
AT = 'xxx' # Access Token
AS = 'xxx' # Access Token Secret
run.pyと同じ場所にcsvファイルをおいて,以下を実行してください. アノテーション情報と,対応するツイートのテキストがcsv形式で吐き出されます.
$ python run.py
Tweetをjson, pickleで取得したい場合,2_tweetExecutor.py内のコメントアウトを外してください.
API制限の関係で,1秒あたりに100ツイートのみの取得となります.(run.pyを実行する場合は気にする必要はありません) データセットに含まれるツイート数から単純に計算して,全てのデータをダウンロードするのに2時間弱必要になります.