Files
lib
Folders and files
Name | Name | Last commit date | ||
---|---|---|---|---|
parent directory.. | ||||
微博文本内容截取规则 概述: 从库内提取出某一条微博内容后,第一步根据换行符号进行分割成数组形式,通过访问数组来进行内容分解。如果从第一行开始遍历只有字符个数满足11的长度后才认为是正文开始。 1.如果一行中出现“仅供参考”四个字或者是空行,此行直接扔掉 2.如果第一个符合条件的行中出现以下字符则取此字符出现后的文字 "\u3011","新浪财经讯","日电","日讯","报讯" 3.如果行内有空格,空格直接的文字长度小于5则直接扔掉此内容 4.如果第一个符合条件的行中出现空格字符,并且空格位置在5以内则进行截取 5.如果第一行的出现一下字符并且字符位置在15以内则进行截取 "记者","编辑",":" 如果符合条件,并且之后出现空格或者括号则进行此条件下的截取。