Análisis cualitativo para grandes volúmenes de texto con LLMs

Análisis cualitativo para grandes volúmenes de texto con LLMs

By LatinR
Online event

Overview

Análisis cualitativo para grandes volúmenes de texto con LLMs

El desarrollo de la IA y los modelos generativos potencian el análisis cualitativo de textos para diversas disciplinas. Este tutorial aprovecha los créditos gratuitos de la API de Gemini de Google para enseñar a usar LLMs en R, un entorno amigable para el PLN. Se abordará un flujo de trabajo estructurado, desde el diseño y optimización de prompts y sus parámetros, hasta la iteración en dataframes para obtener salidas estructuradas, limpiar datos y finalmente, usar embeddings para visualizaciones.

En este marco, los objetivos planteados son:
- El/la estudiante comprenderá los beneficios de usar LLMs para el análisis de texto.
- El/la estudiante diseñará prompts para análisis cualitativo y creará criterios para evaluar los resultados del LLM.
- El/la estudiante ajustará los parámetros del modelo y los prompts para apuntar a resultados rigurosos y reproducibles.
- El/la estudiante automatizará el análisis de texto en R con funciones e iteraciones para obtener un objeto estructurado.
- El/la estudiante analizará la información resultante mediante visualizaciones y estadística descriptiva.


Este tutorial está dirigido a investigadores, estudiantes y profesionales de cualquier disciplina (ciencias sociales, humanidades, ciencias de la salud, etc.) que trabajen con datos de texto y deseen potenciar sus análisis cualitativos mediante herramientas de IA.

Para aprovechar al máximo el taller, los participantes deben tener un conocimiento básico-intermedio de R. Específicamente, se espera que puedan:

1. Entender y escribir funciones simples.
2. Utilizar bucles for para iterar sobre elementos.
3. Manejar datos tabulares con las funciones principales del paquete dplyr (como mutate, filter, select).

No se requiere experiencia previa con APIs, Procesamiento de Lenguaje Natural (PLN) o modelos de lenguaje.
A continuación, se presentan dos personas tipo ideales para este taller:

Persona 1:

David es un sociólogo que investiga el discurso público en redes sociales. Actualmente, está analizando el debate en torno a una nueva política medioambiental. Se siente cómodo usando R para análisis estadístico y dplyr para limpiar y transformar datos. Ha usado for loops, aunque a veces le cuestan un poco. No tiene ninguna experiencia con IA o APIs.

David ha recolectado miles de comentarios de una plataforma online y necesita clasificarlos. Quiere ir más allá de un simple análisis de sentimiento y extraer los argumentos principales que usan las personas (ej. "impacto económico", "justicia climática", "desconfianza en el gobierno"). Hacer esto a mano para todo el volumen de datos es inviable.

Al no tener formación en programación, David necesita un flujo de trabajo muy claro y bien documentado que le permita aplicar los conceptos de análisis cualitativo que ya conoce, pero usando código de manera reproducible.

Persona 2:

Sofía es una investigadora en salud pública que trabaja con transcripciones de entrevistas semi-estructuradas a pacientes con enfermedades crónicas. Tiene un nivel intermedio de R y del tidyverse. Ha creado sus propias funciones para automatizar tareas repetitivas de limpieza y se siente segura con las iteraciones.

Su objetivo es identificar y sistematizar las barreras de acceso al sistema de salud mencionadas por los pacientes en las entrevistas. Busca un método que le permita extraer esta información de manera estructurada (por ejemplo, en un dataframe con columnas para "tipo de barrera", "contexto", "cita textual") para luego analizarla cuantitativamente.

A Sofía le preocupa mucho la rigurosidad y la transparencia metodológica. Le interesa especialmente aprender a diseñar y optimizar "prompts" para asegurar que los resultados del modelo de IA sean consistentes, fiables y poder justificar su método en una publicación científica.

Instructores:


Ismael Aguayo (https://github.com/ismaelaguayob) es asistente de investigación en el núcleo milenio NUDOS y ayudante de estadística y métodos computacionales, con interes en la Ciencia de Datos y la inteligencia artificial. Integrante de la organización Socialtec (https://socialtec.cl/quienes-somos/).

Exequiel Trujillo (https://github.com/exetrujillo) es desarrollador web y ayudante de métodos computacionales, y se encuentra estudiando ciberseguridad y sociología de la música a través de análisis computacional. Integrante de la organización Socialtec (https://socialtec.cl/quienes-somos/).

Category: Science & Tech, High Tech

Good to know

Highlights

  • 2 hours 15 minutes
  • Online

Refund Policy

Refunds up to 7 days before event

Location

Online event

Frequently asked questions

Organized by

LatinR

Followers

--

Events

--

Hosting

--

$5 – $15
Dec 2 · 9:00 AM PST