%s

" % configuration['table_alignment'] tbl += " 0: rows.append(current_row) return rows class HTMLFormatting(Formatting): def __init__(self, markup): super().__init__(markup) def begin_document(self): return "\n" def end_document(self): return "\n" def raw_html(self, content): return content class TxtParser(object): def __init__(self): self.markup = HTMLMarkup() self.format = HTMLFormatting(self.markup) self.append_page_break = False self.create_title = False self.page_title = "" self.paragraph_filters = [] self.document_filters = [] def convert(self, content): converted = self.format.begin_document() if len(content) > 0: self.parse_link_aliases_and_find_title(content) if self.create_title and self.page_title != "": converted += "\n" converted += "%s\n" % self.page_title converted += "\n" converted += self.transform_paragraphs(content) if self.append_page_break: converted += "\n" converted += self.format.end_document() for doc_filter in self.document_filters: converted = doc_filter(converted) return converted def parse_link_aliases_and_find_title(self, content): for paragraph, is_raw in self.paragraphs(content): if not is_raw: self.convert_paragraph(paragraph) self.page_title = self.format.first_header def transform_paragraphs(self, content): converted = "" for paragraph, is_raw in self.paragraphs(content): if is_raw: converted += paragraph else: converted_paragraph = self.convert_paragraph(paragraph) for paragraph_filter in self.paragraph_filters: converted_paragraph = paragraph_filter(converted_paragraph) converted += converted_paragraph return converted def convert_paragraph(self, paragraph): if self.is_raw_html_paragraph(paragraph): return self.format.raw_html(paragraph) + '\n' if self.is_math_paragraph(paragraph): return self.format.math(self.do_markup(paragraph)) if self.has_formatting(paragraph): paragraph = self.do_markup(paragraph) return self.do_formatting(paragraph) return self.format.paragraph(self.do_markup(paragraph)) + "\n" def has_formatting(self, paragraph): return self.last_word(paragraph).startswith(":") def last_word(self, text): return text.split()[-1] def order_commands(self, commands): return list(reversed(commands)) def do_formatting(self, paragraph): last_word = self.last_word(paragraph) format_str = paragraph[paragraph.rfind(last_word):] format_str = format_str.strip('\n') paragraph = paragraph.replace(format_str, "") commands = format_str[1:].strip() command_regex = r"(?P[^\(,]+(\([^\)]+\))?),?" command_pattern = re.compile(command_regex) commands = [x[0] for x in command_pattern.findall(commands)] for command in self.order_commands(commands): paragraph = self.format.convert(command, paragraph, commands) return paragraph + '\n' def do_markup(self, paragraph): return self.markup.convert(paragraph) def paragraphs(self, content): paragraph = [] last_line_had_format = False ignore_lines = False raw_lines = False for line in self.lines(content): if self.is_ignored_textblock_begin(line): if len(paragraph) > 0: yield ('\n'.join(paragraph) + '\n', False) paragraph = [] last_line_had_format = False ignore_lines = True elif self.is_ignored_textblock_end(line): ignore_lines = False continue elif self.is_raw_textblock_begin(line): if len(paragraph) > 0: yield ('\n'.join(paragraph) + '\n', False) paragraph = [] last_line_had_format = False raw_lines = True continue elif self.is_raw_textblock_end(line): if len(paragraph) > 0: yield ('\n'.join(paragraph) + '\n', True) paragraph = [] raw_lines = False continue if ignore_lines: continue elif raw_lines: paragraph.append(line) continue if self.is_paragraph_separator(line) or last_line_had_format: if len(paragraph) > 0: yield ('\n'.join(paragraph) + '\n', False) if self.is_paragraph_separator(line): paragraph = [] last_line_had_format = False else: paragraph = [line] last_line_had_format = self.has_formatting(line) else: paragraph.append(line) last_line_had_format = self.has_formatting(line) if len(paragraph) > 0: yield ('\n'.join(paragraph) + '\n', False) def is_ignored_textblock_begin(self, line): return line.startswith('') def is_raw_textblock_begin(self, line): return False def is_raw_textblock_end(self, line): return False def is_raw_html_paragraph(self, paragraph): return paragraph.startswith('<') and paragraph.endswith('>\n') def is_math_paragraph(self, paragraph): return ('\\begin\{equation\}' in paragraph) and ('\\end\{equation\}' in paragraph) def is_paragraph_separator(self, line): return len(line) == 0 or line.isspace() def lines(self, content): lines = content.splitlines() current_line = "" i = 0 while i < len(lines): current_line += lines[i] if current_line.endswith("\\"): current_line = current_line[0:-1] else: yield current_line current_line = "" i += 1 class Txt2Html(TxtParser): def __init__(self): super().__init__() self.markup = HTMLMarkup() self.format = HTMLFormatting(self.markup) def is_paragraph_separator(self, line): return line.startswith(".. HTML_ONLY") or \ line.startswith(".. END_HTML_ONLY") or \ super().is_paragraph_separator(line) class TxtConverter: def get_argument_parser(self): return None def get_output_filename(self, path): return "" def create_converter(self, args): return None def run(self, args=sys.argv[1:], out=sys.stdout, err=sys.stderr): parser = self.get_argument_parser() parsed_args = parser.parse_args(args) write_to_files = parsed_args.output_dir or (len(parsed_args.files) > 1) for filename in parsed_args.files: if parsed_args.skip_files and filename in parsed_args.skip_files: continue with open(filename, 'r') as f: if parsed_args.verbose: print("Converting", filename, "...", file=err) content = f.read() converter = self.create_converter(parsed_args) try: result = converter.convert(content) except Exception as e: msg = "###########################################################################\n" \ " ERROR: " + e.args[0] + "\n" \ "###########################################################################\n" print(msg, file=err) result = msg if write_to_files: if parsed_args.output_dir: output_filename = os.path.join(parsed_args.output_dir, os.path.basename(self.get_output_filename(filename))) else: output_filename = self.get_output_filename(filename) with open(output_filename, "w+t") as outfile: outfile.write(result) else: print(result, end='', file=out) class Txt2HtmlConverter(TxtConverter): def get_argument_parser(self): parser = argparse.ArgumentParser(description='converts a text file with simple formatting & markup into HTML.\n' 'formatting & markup specification is given in README') parser.add_argument('-b', dest='breakflag', action='store_true', help='add a page-break comment to end of each' 'HTML file. useful when set of HTML files' ' will be converted to PDF') parser.add_argument('-x', metavar='file-to-skip', dest='skip_files', action='append') parser.add_argument('--verbose', '-v', dest='verbose', action='store_true') parser.add_argument('--output-directory', '-o', dest='output_dir') parser.add_argument('--generate-title', dest='create_title', action='store_true', help='add HTML head page' 'title based on first ' 'h1,h2,h3,h4... element') parser.add_argument('files', metavar='file', nargs='+', help='one or more files to convert') return parser def create_converter(self, args): converter = Txt2Html() converter.append_page_break = args.breakflag converter.create_title = args.create_title return converter def get_output_filename(self, path): filename, ext = os.path.splitext(path) return filename + ".html" def main(): app = Txt2HtmlConverter() app.run() if __name__ == "__main__": main()