juanalonso · May 16, 2019 18:11 · juanalonso · Oct 7, 2018 · Hajogit · May 16, 2019
diff --git a/get_tweets_by_hashtag.py b/get_tweets_by_hashtag.py
 #!/usr/bin/env python
 # encoding: utf-8

 import tweepy
 import re
 import sys
 import os


 consumer_key = ''
 consumer_secret = ''
 access_token = ''
 access_token_secret = ''

 auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
 auth.set_access_token(access_token, access_token_secret)
 api = tweepy.API(auth, wait_on_rate_limit=True, wait_on_rate_limit_notify=True)


 indexFilePath = os.path.join(os.path.dirname(sys.argv[0]),'index.txt')
 if os.path.exists(indexFilePath):
    indexFile = open(indexFilePath, 'r', encoding='utf8')
    lastTweet = indexFile.readline().strip()
    indexFile.close()
 else:
    lastTweet = '0'


 print("\n\n")
 print("    Folder:", os.path.dirname(sys.argv[0]))
 print("Rate Limit:", api.rate_limit_status()['resources']['search'])
 print(" Old index:", lastTweet)


 counter = 0
 firstTweet = True
 csvFile = open(os.path.join(os.path.dirname(sys.argv[0]),'tweets.txt'), 'a', encoding='utf8')

 for tweet in tweepy.Cursor(api.search, 
                           q='#sitges2018 -filter:retweets',
                           lang='es',
                           tweet_mode='extended').items():

    if "@" in tweet.full_text:
        continue 

    if firstTweet:
        firstTweet = False
        indexFile = open(indexFilePath, 'w', encoding='utf8')
        indexFile.write(tweet.id_str + '\n')
        print(" New index:", tweet.id_str, '\n\n')

    if tweet.id_str <= lastTweet:
        break

    tweet.full_text = tweet.full_text.replace('\n', ' ').replace('\r', '')
    tweet.full_text = tweet.full_text.replace('“', '').replace('”', '')
    tweet.full_text = tweet.full_text.replace('-', ' ')
    tweet.full_text = tweet.full_text.replace('\'', ' ').replace('"', ' ')
    tweet.full_text = tweet.full_text.replace('•', ' ')
    tweet.full_text = re.sub(' +',' ',tweet.full_text).strip()

    counter = counter + 1
    print ('%04d' % counter, 
           tweet.id_str, 
           tweet.created_at.strftime('%d-%m %H:%M'), 
           tweet.full_text[:70]) 
    
    csvFile.write(tweet.full_text + '\n')
	#!/usr/bin/env python
	# encoding: utf-8

	import tweepy
	import re
	import sys
	import os


	consumer_key = ''
	consumer_secret = ''
	access_token = ''
	access_token_secret = ''

	auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
	auth.set_access_token(access_token, access_token_secret)
	api = tweepy.API(auth, wait_on_rate_limit=True, wait_on_rate_limit_notify=True)


	indexFilePath = os.path.join(os.path.dirname(sys.argv[0]),'index.txt')
	if os.path.exists(indexFilePath):
	indexFile = open(indexFilePath, 'r', encoding='utf8')
	lastTweet = indexFile.readline().strip()
	indexFile.close()
	else:
	lastTweet = '0'


	print("\n\n")
	print(" Folder:", os.path.dirname(sys.argv[0]))
	print("Rate Limit:", api.rate_limit_status()['resources']['search'])
	print(" Old index:", lastTweet)


	counter = 0
	firstTweet = True
	csvFile = open(os.path.join(os.path.dirname(sys.argv[0]),'tweets.txt'), 'a', encoding='utf8')

	for tweet in tweepy.Cursor(api.search,
	q='#sitges2018 -filter:retweets',
	lang='es',
	tweet_mode='extended').items():

	if "@" in tweet.full_text:
	continue

	if firstTweet:
	firstTweet = False
	indexFile = open(indexFilePath, 'w', encoding='utf8')
	indexFile.write(tweet.id_str + '\n')
	print(" New index:", tweet.id_str, '\n\n')

	if tweet.id_str <= lastTweet:
	break

	tweet.full_text = tweet.full_text.replace('\n', ' ').replace('\r', '')
	tweet.full_text = tweet.full_text.replace('“', '').replace('”', '')
	tweet.full_text = tweet.full_text.replace('-', ' ')
	tweet.full_text = tweet.full_text.replace('\'', ' ').replace('"', ' ')
	tweet.full_text = tweet.full_text.replace('•', ' ')
	tweet.full_text = re.sub(' +',' ',tweet.full_text).strip()

	counter = counter + 1
	print ('%04d' % counter,
	tweet.id_str,
	tweet.created_at.strftime('%d-%m %H:%M'),
	tweet.full_text[:70])

	csvFile.write(tweet.full_text + '\n')