博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
新闻正文提取之boilerpipe
阅读量:4111 次
发布时间:2019-05-25

本文共 579 字,大约阅读时间需要 1 分钟。

概述:

Boilerpipe即我们需要的正文提取工具,其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息,包括多种提取方式具体的参见:CommonExtractors

 

环境:

jdk1.6

boilerpipe-1.2.0

 

提取新闻正文demo代码如下:

public static void main(String[] args) throws Exception {	String url = "http://finance.people.com.cn/n/2013/1011/c66323-23157265.html";	TextDocument doc = new BoilerpipeSAXInput(new InputSource(new URL(url).openStream()))			.getTextDocument();	BoilerpipeExtractor extractor = CommonExtractors.ARTICLE_EXTRACTOR;	extractor.process(doc);	System.out.println("title:" + doc.getTitle());	System.out.println("content:" + doc.getContent());}

 

依赖的lib参见附件

 

转载地址:http://jiqsi.baihongyu.com/

你可能感兴趣的文章
LeetCode:633. 平方数之和
查看>>
LeetCode:403. 青蛙过河
查看>>
LeetCode:137. 只出现一次的数字 II
查看>>
LeetCode:690. 员工的重要性
查看>>
Resnet训练 验证自己的数据集
查看>>
Python判断文件/目录是否存在
查看>>
python 将字典写入csv
查看>>
在本地显示远程服务器的TensorboardX结果
查看>>
欢迎使用CSDN-markdown编辑器
查看>>
求字符串的周期 使用strncmp函数
查看>>
一串字符求最小字典序
查看>>
循环小数 uva202
查看>>
uva1588 Kickdown
查看>>
浮点数在计算机中的保存
查看>>
using namespace std
查看>>
uva11059
查看>>
生成1~n的排列
查看>>
uva1587 判断所给的六个面能否构成长方体
查看>>
HDU 1016 Prime Ring Problem
查看>>
线段树总括
查看>>