iT邦幫忙

0

<C#爬蟲>解決標點符號是HTML字元符號

請問使用HtmlAgilityPack爬蟲寫入word

有些網站抓下來標點符號是HTML字元符號

目前暫時是用replace()

請問有其他比較好的方式嗎

謝謝

小魚 iT邦高手 1 級 ‧ 2019-02-09 00:23:17 檢舉
如果是要讓網頁顯示出來C#應該是有函式可以用,
如果是要資料庫也記標點符號就只能用replace了.

1 個回答

1
暐翰
iT邦大師 3 級 ‧ 2019-02-09 00:23:55
最佳解答

有些網站抓下來標點符號是HTML字元符號
目前暫時是用replace()
請問有其他比較好的方式嗎

回答:

假如你指的字元符號應該是HTMLEncoding後的字串,可以使用System.Web.HttpUtility.HtmlDecode解碼回來,舉例:

void Main()
{
	var encodeResult = System.Web.HttpUtility.HtmlEncode("alert('Hello ITHelp')"); //result : "alert('Hello ITHelp')"
	var decodeResult = System.Web.HttpUtility.HtmlDecode(encodeResult); //Result : "alert('Hello ITHelp')"
}

或者格式是Unicode,可以使用System.Text.RegularExpressions.Regex.Unescape(字串)解碼,舉例:

void Main()
{
	var endcodingString = @"\u4f60\u597d\u002c\u0049\u0054\u90a6\u5e6b\u5fd9\u0021";
	var decodeString = System.Text.RegularExpressions.Regex.Unescape(endcodingString);//"你好,IT邦幫忙!"
}


假如都不是,需要提供樣本字串分析。

我要發表回答

立即登入回答