0
点赞
收藏
分享

微信扫一扫

自注意力Self-attention

爱薇Ivy趣闻 2024-08-17 阅读 27

import html

import re

def replace_html(src_src):
        replace_str=str.replace(src_src," "," ")
        replace_str=str.replace(replace_str,"&lt;",'<')
        replace_str=str.replace(replace_str,"&gt;",'>')
        replace_str=str.replace(replace_str,"&amp;",'&')
        replace_str=str.replace(replace_str,"&quot;",'"')
        replace_str=str.replace(replace_str,"&apos;","'")
        replace_str=str.replace(replace_str,"&cent;",'¢')
        replace_str=str.replace(replace_str,"&pound;",'£')
        replace_str=str.replace(replace_str,"&yen;",'¥')
        replace_str=str.replace(replace_str,"&euro;",'€')
        replace_str=str.replace(replace_str,"&sect;",'§')
        replace_str=str.replace(replace_str,"&copy;",'©')
        replace_str=str.replace(replace_str,"&reg;",'®')
        replace_str=str.replace(replace_str,"&trade;;",'™')
        replace_str=str.replace(replace_str,"&times;",'×')
        replace_str=str.replace(replace_str,"&divide;",'÷')
        replace_str=str(html.unescape(src_src))
        #replace_str=replace_str.replace(' ','{|}').replace(' ','{|}').replace('、','{|}')
        replace_str=re.sub('[\s\u3002|\uff1f|\uff01|\uff0c|\u3001|\uff1b|\uff1a|\u201c|\u201d|\u2018|\u2019|\uff08|\uff09|\u300a|\u300b|\u3010|\u3011|\u007e]+','{|}',replace_str)
        replace_str=re.sub('^\{\|\}','',replace_str)
        replace_str=re.sub('\{\|\}$','',replace_str)
        return replace_str

举报

相关推荐

0 条评论