REYNAZUL.

martes, 25 de marzo de 2014

DATA Lanzan Analice.me, una plataforma para extraer datos de forma automática a partir de documentos La plataforma, creada de forma colaborativa por integrantes de Hacks/Hackers Buenos Aires, es un software (libre) de extracción automática de entidades -como nombres, lugares y direcciones- a partir de documentos.

Analice.me es la continuidad de Mapa76, un desarrollo que en principio fue pensado para los juicios de Lesa Humanidad, "para poder bucear de forma inteligente miles de documentos de sentencias, fundamentos y testimonios" y extraer de ellos datos relevantes para investigaciones, según explicó a Télam el periodista Mariano Blejman, uno de sus impulsores.

El trabajo comenzó hace tres años, de manera colaborativa entre integrantes del capítulo local de Hacks/Hackers, una red global de profesionales de diversas disciplinas como diseño, periodismo y programación, entre otros. Con el paso del tiempo el proyecto se modificó y amplió para convertirse en Analice.me.

La herramienta permite subir documentos en distintos formatos - PDFs, TXT y DOCs- y a partir del texto estructurarlos en bases de datos, de forma automática, para poder realizar luego un análisis semántico y mejorar su presentación.

Una vez subida la información, puede extraerse nombres o lugares con un simple clic, así como filtrar la información por fecha, entre otras posibilidades.

En diálogo con Télam, Blejman amplíó los propósitos de Analice.me.

¿Para qué sirve Analice.me?

Es un software de extracción automática de entidades. Lo desarrollamos pensando en los juicios de Lesa Humanidad, para poder bucear de forma inteligente miles de documentos de sentencias, fundamentos y testimonios. A los investigadores les sirve para encontrar mejor la información, encontrar relaciones entre nombres y detectar rápidamente lugares, fechas y organizaciones en un texto.

¿Qué otros usos posibles tiene la plataforma?

Cualquier investigación o set de datos que sean textos se pueden analizar y comprender. Por ejemplo, los discursos de Cristina Kirchner, los boletines oficiales, actas de empresas y, sobre todo, cualquier tipo de causa judicial que maneje grandes volúmenes de datos. AMIA, casos como el de Marita Verón, entre otros.

¿Cuáles son los próximos pasos que darán en su desarrollo?

Lo próximo es sumar contenido para demostrar el valor de la búsqueda semántica con casos conocidos. Comenzar a abrir a organizaciones periodísticas o usuarios que puedan darle un uso de investigación y escalar en las funcionalidades hacia módulos de investigación visual. Por último, lo más ambicioso, es trabajar en un buscador de hechos detectados dentro de los textos.

El software de Analice.me está a disposición de quien lo desee. “Es libre, abierto y se puede implementar de forma privada para organizaciones que no quieran subir a Internet su información”, aclaró Blejman para fomentar su utilización y abrir el juego. fuente:telam.com.ar
Publicar un comentario