有些網站抓下來標點符號是HTML字元符號
目前暫時是用replace()
請問有其他比較好的方式嗎
假如你指的字元符號應該是HTMLEncoding
後的字串,可以使用System.Web.HttpUtility.HtmlDecode
解碼回來,舉例:
void Main()
{
var encodeResult = System.Web.HttpUtility.HtmlEncode("alert('Hello ITHelp')"); //result : "alert('Hello ITHelp')"
var decodeResult = System.Web.HttpUtility.HtmlDecode(encodeResult); //Result : "alert('Hello ITHelp')"
}
或者格式是Unicode
,可以使用System.Text.RegularExpressions.Regex.Unescape(字串)
解碼,舉例:
void Main()
{
var endcodingString = @"\u4f60\u597d\u002c\u0049\u0054\u90a6\u5e6b\u5fd9\u0021";
var decodeString = System.Text.RegularExpressions.Regex.Unescape(endcodingString);//"你好,IT邦幫忙!"
}
假如都不是,需要提供樣本字串分析。