neurojojo · February 22, 2022 21:00
diff --git a/save_pdf_texts.py b/save_pdf_texts.py
 dictionary_of_texts = dict()

 for filename,pdf_text in zip(files,pdf_as_text):
  if len( pdf_text )!=0:
    dictionary_of_texts[filename] = pdf_text

 try:
  for filename,pdf_text in zip(problem_pdfs,image_pdf_text):
    dictionary_of_texts[filename] = pdf_text
 except:
  print('No image PDFs added')

 import re
 for k,v in dictionary_of_texts.items():
  newfilename = re.sub( 'pdf', 'txt', k )
  print( newfilename )
  with open( newfilename, 'w+' ) as f:
    for pagenum,page in enumerate(v):
      f.write(f'ARCHIVE START OF PAGE {pagenum}\n{page}\nARCHIVE END OF PAGE {pagenum}\n')
	dictionary_of_texts = dict()

	for filename,pdf_text in zip(files,pdf_as_text):
	if len( pdf_text )!=0:
	dictionary_of_texts[filename] = pdf_text

	try:
	for filename,pdf_text in zip(problem_pdfs,image_pdf_text):
	dictionary_of_texts[filename] = pdf_text
	except:
	print('No image PDFs added')

	import re
	for k,v in dictionary_of_texts.items():
	newfilename = re.sub( 'pdf', 'txt', k )
	print( newfilename )
	with open( newfilename, 'w+' ) as f:
	for pagenum,page in enumerate(v):
	f.write(f'ARCHIVE START OF PAGE {pagenum}\n{page}\nARCHIVE END OF PAGE {pagenum}\n')