Patentes

Las tecnologías de vanguardia que utilizamos en nuestro rastreador web y análisis de sentimientos cuentan ahora con protección de patente en trámite en EE. UU., la UE y Grecia. Desde la investigación hasta las patentes, nos comprometemos a ofrecer los mejores servicios de análisis personalizados.

Get Wise

Oficina de Patentes y Marcas de los Estados Unidos (USPTO)

Rastreo web y resumen de contenido

La innovadora solución de rastreo web actual aborda el desafío de clasificar automáticamente los resultados y crear resúmenes de noticias. La solución rastrea artículos de noticias de diversos sitios web con diferentes estructuras y tipos de contenido, e incluye noticias, comentarios, etc., de redes sociales, blogs y otras fuentes que no cuentan con sistemas de distribución automática de contenido.

The current solution utilizes automatically generated web page wrappers to crawl, analyze, and extract information from web pages based on their structure and content. This is achieved through the use of XPath expressions and techniques such as neural networks and natural language processing. The efficiency of the web page wrappers is continuously evaluated and they are updated automatically whenever the structure of the associated web pages changes.

Las políticas de rastreo web se actualizan periódicamente para tener en cuenta la reputación y la relevancia de una página web, y para priorizar los sitios de noticias más importantes y actualizados sobre un tema en particular. Este enfoque innovador analiza la frecuencia con la que otras fuentes, como sitios de noticias y redes sociales, citan los artículos de un sitio web, así como la cantidad de artículos en otros sitios web que tratan el mismo evento, tema o entidad después de que el sitio web original lo haya mencionado por primera vez.

El proceso de rastreo web se lleva a cabo mediante múltiples colas paralelas para recopilar noticias y múltiples hilos que recuperan los elementos de dichas colas. Estas colas paralelas se combinan finalmente en una única cola priorizada, que se utiliza para rastrear sitios web según las políticas establecidas.

Una vez obtenido el contenido, se analiza mediante diversas técnicas, como la comprensión del lenguaje natural, y se agrupa según su similitud. Posteriormente, se crean resúmenes de las noticias seleccionando las frases relevantes de los artículos agrupados o utilizando técnicas de síntesis del lenguaje natural.

Oficina Europea de Patentes (EPO)

Web Content Sentiment Analysis

The current example system deals with the task of sentiment extraction from various online sources. The collected data is pre-processed to extract useful features that help machine learning algorithms in the sentiment analysis task. Specifically, the words in each text are converted into a neural embedding space and fed into a hybrid, bidirectional long short-term memory network, which includes convolutional layers and an attention mechanism. These features are then used to produce the final textual features.

Además, el sistema evalúa la frecuencia y el tipo de ideogramas emoji, ya sean extraídos automáticamente o asignados manualmente mediante hashtags, etc. El enfoque propuesto es novedoso por su anotación semántica de los elementos de datos preprocesados, la mejora de su contexto semántico mediante la identificación de patrones y la simplificación del problema de análisis al reducir el tamaño de los datos mediante submuestreo selectivo y otras técnicas. Se proporcionan detalles de implementación específicos que logran el mejor rendimiento conocido. Sin embargo, ejemplos alternativos pueden utilizar diferentes configuraciones de capas en la red neuronal, diferentes tamaños de ventana, umbrales, etc. Todas estas variaciones se encuentran dentro del alcance de la solución innovadora.

Este rastreador web prioriza el rastreo de páginas web y crea resúmenes de noticias de diferentes formatos y tipos de contenido. También incluye comentarios, publicaciones y otras interacciones de redes sociales y blogs. Utiliza contenedores web generados automáticamente para detectar, analizar y extraer contenido web según su estructura y contenido, mediante métodos como expresiones XPath, redes neuronales y procesamiento y comprensión del lenguaje natural. Se evalúa la eficacia de estos contenedores y se actualizan automáticamente cuando cambia la estructura de las páginas web correspondientes. Además, las políticas de rastreo web se actualizan periódicamente para tener en cuenta factores como la reputación, la influencia y el impacto de un sitio web.

Organización Helénica de la Propiedad Industrial (OBI)

Rastreo web y resumen de contenido

El rastreador web analiza, agrega y resume el contenido detectado. Prioriza el rastreo web y crea resúmenes de noticias para temas con diversas estructuras y tipos de contenido, incluyendo comentarios, publicaciones y otras interacciones de redes sociales y blogs. El rastreador utiliza contenedores de páginas web generados automáticamente para detectar, analizar y extraer información de las páginas web en función de su estructura y contenido, utilizando expresiones XPath, redes neuronales y procesamiento y comprensión del lenguaje natural. La efectividad de los contenedores de páginas web se evalúa y se actualiza automáticamente cuando cambia la estructura de las páginas web asociadas. Las políticas de rastreo web también se actualizan continuamente para tener en cuenta factores como la reputación, la influencia, el impacto y las referencias a un sitio web. El proceso de rastreo utiliza múltiples colas paralelas, cada una implementando diferentes microprocesos, que convergen en una única cola de prioridad utilizada para el rastreo en función de las políticas de rastreo.

Análisis de sentimiento del contenido de páginas web

Se proporciona un sistema y un método para extraer el sentimiento de elementos de datos web de diversas fuentes. Los datos de detección se preprocesan para extraer características útiles que ayudan a los algoritmos de aprendizaje automático en la tarea de análisis de sentimiento. Las palabras de cada texto se transforman en un espacio de incrustación neuronal y se introducen en una red híbrida bidireccional de memoria a corto plazo, junto con capas convolucionales y un mecanismo de atención, que extrae las características textuales finales. Además, se extraen diversos metadatos de documentos, como símbolos emoji, que ayudan aún más a detectar el sentimiento en los elementos de datos, mejorando el reconocimiento de patrones, etc. El problema de análisis también se simplifica reduciendo el tamaño de los datos mediante la reducción de muestreo selectivo y otros métodos.

Patentes

Oficina de Patentes y Marcas de los Estados Unidos (USPTO)

Oficina Europea de Patentes (EPO)

Organización Helénica de la Propiedad Industrial (OBI)

Análisis de sentimiento del contenido de páginas web

LET’S GROW YOUR BUSINESS TOGETHER.CONTACT US NOW.

LET’S GROW YOUR BUSINESS TOGETHER.
CONTACT US NOW.