lernisto · April 30, 2019 03:57
diff --git a/word_frequency.py b/word_frequency.py
 import re
 from collections import defaultdict


 def wordfreq(words):
    freq = defaultdict(int)

    for word in words:
        freq[word] += 1

    return freq


 def report(freq):
    freq = list(freq.items())
    freq.sort(key=lambda x: (-x[1], x[0]))
    total = 0
    for word, count in freq:
        print(count, word, sep="\t")
        total += count

    print(f"total:\t{total}")


 def readwords(*files):
    for f in files:
        if isinstance(f, str):
            f = open(f)
        # TODO: replace this simple regex with nltk tokenization
        for m in re.finditer(r"([-_a-zA-Z0-9]+)", f.read()):
            yield m.group(0)


 if __name__ == "__main__":
    import sys

    files = [sys.stdin] if len(sys.argv) == 1 else sys.argv[1:]
    freq = wordfreq(readwords(*files))
    report(freq)
	import re
	from collections import defaultdict


	def wordfreq(words):
	freq = defaultdict(int)

	for word in words:
	freq[word] += 1

	return freq


	def report(freq):
	freq = list(freq.items())
	freq.sort(key=lambda x: (-x[1], x[0]))
	total = 0
	for word, count in freq:
	print(count, word, sep="\t")
	total += count

	print(f"total:\t{total}")


	def readwords(*files):
	for f in files:
	if isinstance(f, str):
	f = open(f)
	# TODO: replace this simple regex with nltk tokenization
	for m in re.finditer(r"([-_a-zA-Z0-9]+)", f.read()):
	yield m.group(0)


	if __name__ == "__main__":
	import sys

	files = [sys.stdin] if len(sys.argv) == 1 else sys.argv[1:]
	freq = wordfreq(readwords(*files))
	report(freq)