NAME

Lingua::PT::PLNbase - Perl extension for NLP of the Portuguese

SYNOPSIS

use Lingua::PT::PLNbase;

my @atomos = atomiza($texto);
my $atomos_um_por_linha = atomiza($texto);

my @frases = sentences($texto);
my $frases = separa_frases($texto);

DESCRIPTION

Atomização

Este módulo inclui um método configurável para a atomização de corpus na língua portuguesa. No entanto, é possível que possa ser usado para outras línguas.

A forma simples de uso do atomizador é usando directamente a função atomiza que retorna um texto em que cada linha contém um átomo.

Segmentação

Este módulo é uma extensão Perl para a segmentação de textos em linguagem natural. O objectivo principal será a possibilidade de segmentação a vários níveis, no entanto esta primeira versão permite apenas a separação em frases (fraseação) usando uma de duas variantes:

Projecto Natura
@frases = sentences($texto);

Esta é a implementação do Projecto Natura, que retorna uma lista de frases.

Linguateca
$frases = separa_frases($texto);

Esta é a implementação da Linguateca, que retorna um texto com uma frase por linha.

Estas duas implementações irão ser testadas e aglomeradas numa única que permita ambas as funcionalidades.

SEE ALSO

perl(1)

AUTHOR

Alberto Simoes (ambs@di.uminho.pt)

Diana Santos (diana.santos@sintef.no)

José João Almeida (jj@di.uminho.pt)

Paulo Rocha (paulo.rocha@di.uminho.pt)

COPYRIGHT AND LICENSE

Copyright (C) 2003-2004 by Linguateca (http://www.linguateca.pt)

(EN) This library is free software; you can redistribute it and/or modify it under the same terms as Perl itself, either Perl version 5.8.1 or, at your option, any later version of Perl 5 you may have available.

(PT) Esta biblioteca é software de domínio público; pode redistribuir e/ou modificar este módulo nos mesmos termos do próprio Perl, quer seja a versão 5.8.1 ou, na sua liberdade, qualquer outra versão do Perl 5 que tenha disponível.

1 POD Error

The following errors were encountered while parsing the POD:

Around line 923:

Non-ASCII character seen before =encoding in 'Atomização'. Assuming CP1252