Skip to content

Files

Latest commit

 

History

History

lib

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 
 
 
微博文本内容截取规则

概述:
	从库内提取出某一条微博内容后,第一步根据换行符号进行分割成数组形式,通过访问数组来进行内容分解。如果从第一行开始遍历只有字符个数满足11的长度后才认为是正文开始。

1.如果一行中出现“仅供参考”四个字或者是空行,此行直接扔掉

2.如果第一个符合条件的行中出现以下字符则取此字符出现后的文字
	"\u3011","新浪财经讯","日电","日讯","报讯"
	
3.如果行内有空格,空格直接的文字长度小于5则直接扔掉此内容

4.如果第一个符合条件的行中出现空格字符,并且空格位置在5以内则进行截取

5.如果第一行的出现一下字符并且字符位置在15以内则进行截取
	"记者","编辑",":"
	如果符合条件,并且之后出现空格或者括号则进行此条件下的截取。