2.17 在字符串中处理html和xml
问题
想将HTML或者XML实体如 &entity;
或 &#code;
替换为对应的文本。 再者,你需要转换文本中特定的字符(比如<, >, 或 &)。
解决方案
如果你想替换文本字符串中的 ‘<’ 或者 ‘>’ ,使用 html.escape()
函数可以很容易的完成。比如:
如果你正在处理的是ASCII文本,并且想将非ASCII文本对应的编码实体嵌入进去, 可以给某些I/O函数传递参数 errors='xmlcharrefreplace'
来达到这个目的。比如:
有时候,如果你接收到了一些含有编码值的原始文本,需要手动去做替换, 通常你只需要使用HTML或者XML解析器的一些相关工具函数/方法即可。比如:
讨论
如果你想以其他方式处理文本,还有一些其他的工具函数比如 xml.sax.saxutils.unescapge()
可以帮助你。 然而,你应该先调研清楚怎样使用一个合适的解析器。 比如,如果你在处理HTML或XML文本, 使用某个解析模块比如 html.parse
或 xml.etree.ElementTree
已经帮你自动处理了相关的替换细节。
Last updated
Was this helpful?