|
||
|
|
|
|
Web como fuente de corpusInternet se ha convertido en el principal campo de aplicación de las técnicas de tratamiento de corpora multilingües. Es una fuente ilimitada de textos en diferentes idiomas y accesible a cualquier lugar, en la mayor parte de manera gratuita. Pero Internet no es un corpus en el sentido estricto de la lingüística de corpus, ya que no siguen los criterios para ser constituidos como corpus, al no existir una clasificación general ni una codificación estándar. Sin embargo, Internet constituye un corpus dinámico, una forma viva que va cambiando continuamente. Es como una base de datos enorme de documentos textuales. Se puede utilizar las páginas Web como un corpus activo o bajar las páginas al disco duro y considerarlo como un corpus estático. A la hora de documentar una página, es conveniente señalar el día en que se obtuvo, ya que lo que hay en una página ahora, puede estar en otra página o puede cambiar su contenido rápidamente. Una parte importante de las publicaciones en Internet procede de los medios de comunicación, de las empresas multinacionales y de las instituciones internacionales. Todos ellos se esfuerzan para que su representación en la red supere las barreras lingüísticas. Por ello, la red se ha convertido también en un vasto corpus multilingüe que crece cada vez más velozmente. Esto ha disparado la demanda de tecnologías con capacidad de procesamiento multilingüe: buscadores inteligentes, sistemas de indexación y catalogación, extractores de información, gestores de conocimientos, generadores de textos, generadores de resúmenes, etc. Hay que tener en cuenta de que no todos los documentos son escritos por las personas nativas. Sin embargo Web tiene ciertamente ventajas potenciales como colección del texto. Es enorme y está creciendo cada vez más. Contiene una selección amplia y todo tipo de texto, incluyendo el material que es relativamente raro en los corpora diseñados, por ejemplo existen muchos textos escritos que no están publicados oficialmente, por lo tanto no están corregidos profesionalmente. En comparación con corpora tradicionales el Web tiene una desventaja. Aunque funcione como un corpus, no hay aplicación adecuada para generar concordancias. Es necesario tener un Motor de Búsqueda especializado. Es posible hacer investigación lingüística por la ayuda de los motores de búsqueda convencionales pero las concordancias tradicionales ofrecen más oportunidades de analizar las estructuras del texto.
Es un buscador muy potente para la WEB y está diseñado para recuperar datos lingüísticos del Web, creado por la Unidad de investigación y Desarrollo de Estudios del Inglés (RDUES) de la universidad de Liverpool, Reino Unido. Permite obtener, en primera instancia, concordancias para una palabra o una frase, en una ventana definida de una a treinta palabras a la izquierda y a la derecha. Cuenta con varios buscadores, como Google, Altavista y otros dos, y es independiente del idioma. Como resultados adicionales, se puede traer la página en el formato electrónico, donde aparece la palabra o frase, resaltado en color amarillo; la página en archivo texto plano; y la lista de las palabras que aparecen en el texto, ordenadas por frecuencia o por orden alfabético. Su buscador permite filtrar las búsquedas por periódicos (del Reino Unido, Estados Unidos o Francia) y por temas. WebCorpus trabaja solamente con los motores de búsqueda convencionales. La versión actual de WebCorp es para la demostración y la velocidad de mostrar los resultados es más lenta que los motores de búsqueda. Aunque WebCorp tiene un motor de búsqueda como interfaz, sus habilidades y la manera de trabajar son muy diferentes. Para hacer un análisis lingüístico completo de una palabra o una frase particular utilizada el Web recurre a Motor de Búsqueda para encontrar una lista de las páginas que contienen la palabra o la frase, y después se obtiene a cada uno del URLs en esta lista manualmente, localizando cada uno de los ejemplos de la palabra o la frase en la página y copia éstos en un archivo. WebCorp automatiza este proceso entero, por eso es más lento que un Motor de Búsqueda estándar.
Este sitio se actualizó por última vez el 20 de junio de 2006 |
|||||||||||||||||||||||||||||||||||||||||||||||