januz · April 16, 2019 22:03 · lqcata · Apr 16, 2019
diff --git a/Python script that extracts DOI from first PDF page using PyPDF2 b/Python script that extracts DOI from first PDF page using PyPDF2
 #!/usr/bin/env python
 # -*- encoding:utf-8 -*-

 from PyPDF2 import PdfFileReader
 import re
 import sys

 pdf_file = sys.argv[1]
 doi_re = re.compile("10.(\d)+/([^(\s\>\"\<)])+")
 input = PdfFileReader(file(pdf_file, "rb"))
 text = input.getPage(0).extractText()

 m = doi_re.search(text)
 print(m.group(0))
	#!/usr/bin/env python
	# -- encoding:utf-8 --

	from PyPDF2 import PdfFileReader
	import re
	import sys

	pdf_file = sys.argv[1]
	doi_re = re.compile("10.(\d)+/([^(\s\>\"\<)])+")
	input = PdfFileReader(file(pdf_file, "rb"))
	text = input.getPage(0).extractText()

	m = doi_re.search(text)
	print(m.group(0))