Blog の
手始めに、
waylan/Python-Markdown: A Python implementation of John Gruber’s Markdown.
などの、
BeautifulSoup を
parsing - Python : How to convert markdown formatted text to text - Stack Overflow
実際実装してみたのですが、
使っているpython2.7
とPython 3.5.1
で
ライブラリが
- python2.7
BeautifulSoup
、markdown
、codecs
、HTMLParser
を使って 以下のように 実装できました。
HTMLParser
は、markdownの テキスト内に、 HTML
が含まれると、
エスケープされてしまってたので、その 戻しに 使用しています。
from BeautifulSoup import BeautifulSoup from markdown import markdown import codecs import HTMLParser f = codecs.open('your.md,'r','utf-8') source = f.read() html = markdown(source) text = ''.join(BeautifulSoup(html).findAll(text=True)) htmlParser = HTMLParser.HTMLParser() unescaped_text = htmlParser.unescape(text) print unescaped_text
- python3
bs4
、markdown
、codecs
、を 使って 以下のように 実装できました。
理由は定かではないですが、 bs4
だと、markdownテキスト内の HTML
は、
エスケープされなかったので、unescape
は、実施しませんでした。
from bs4 import BeautifulSoup from markdown import markdown import codecs f = codecs.open('your.md','r','utf-8') source = f.read() html = markdown(source) text = ''.join(BeautifulSoup(html, 'html.parser').findAll(text=True)) print(text)
関連記事表示の
解析の
以上です。
コメント