测试代码
x1xx <p class=’ctext’ href=”"> <i>x2xx</i> <div> x3x x <br/>x4xx<br >x5xxxx <div class=”"> x6xx<br> x7x</div> x8xxx <div>x9x<br>x10x</div> x11xxxxxxx<b><br></b><br>x12xxx.</div> </p> <p> <b>x13<img >x14<br>x15x</b> x16xxx <u>x17x<br/>x18x</u> x19xx <td>x20xx</td> x21xxxxx <td class=”" style=”>x22xx</td> x23xx <div> <div>x24x<br>x25<a>x26xx</a>x27</div> x28xx <div><a>x29xx</a></div> </div> </p> x30xx
正则表达式
抓取全部可视文本(规则:抓取><之间的内容) //按照 >要抓取的内容< 截取。 //需要处理空格和换行 (?<=>+)[^<>]+|[^<>]+(?=<+)