





























Study with the several resources on Docsity
Earn points by helping other students or get them with a premium plan
Prepare for your exams
Study with the several resources on Docsity
Earn points to download
Earn points by helping other students or get them with a premium plan
Community
Ask the community for help and clear up your study doubts
Discover the best universities in your country according to Docsity users
Free resources
Download our free guides on studying techniques, anxiety management strategies, and thesis advice from Docsity tutors
Práctica de reporte 1 histología
Typology: Essays (university)
1 / 37
This page cannot be seen from the preview
Don't miss anything!
___________________________ (^) C U S A __________________________ V C O N G R E S O A G R O A L I M E N T A R I O
P unta -S ánchez , I.^1 D ymerSkI, t. 2
calle. J. l. 1 ruIz - roDríguez , a. 1
F erreIro - gonzález , m. 1
P alma , m. 1
1 Departamento de Química Analítica, Facultad de Ciencias, Universidad de Cádiz. 2 Department of Analytical Chemistry, Faculty of Chemistry, Gdansk University of Technology, Poland.
RESUMEN La adulteración de la miel es un problema importante en la industria alimentaria, y la detección de estas prácticas fraudulentas es esencial para garantizar la calidad y autenticidad del producto. La cromatografía de gases ultrarrápida (CG-ultrarrápida) es una técnica analítica rápida y sensible para detectar adulteraciones en miel y, combinada con algoritmos de machine learning, ha demostrado ser una herramienta efectiva para desarrollar modelos precisos y
______________ (^) C e n t r o u n i v e r s i t a r i o S a n t a A n a ______________ C O M U N I C A C I O N E S
fiables para detectar la adulteración de forma automatizada y objetiva.
En este estudio, se evaluó la capacidad de diferentes algoritmos de ML en combinación con CG-ultrarrápida para predecir el nivel de adulteración en miel de azahar (OB) y girasol (SF). Las muestras de miel de azahar y girasol se adulteraron utilizando una mezcla de otras mieles de diferentes orígenes florales como adulterante. Se obtuvieron muestras adulteradas con un rango de pureza de miel que osciló entre el 50% y el 95%. Se encontró que la regresión de vectores soporte (SVR) mostró el mejor rendimiento con un R 2 de 0.9086 en el conjunto de prueba para la matriz de datos conjunta de miel de azahar y girasol. Para mejorar la precisión de los modelos de regresión, se propuso clasificar las muestras de miel en función de su origen botánico y luego aplicar los modelos de regresión por separado. Todos los modelos de regresión probados en miel de azahar y de girasol por separado obtuvieron un rendimiento superior. El modelo de operador de selección y contracción mínima absoluta (LASSO) resultó ser el mejor para predecir las propiedades de la miel de azahar y de girasol, con un R 2 de 0.9987.
Palabras clave: Miel, Adulteraciones, Cromatografía de gases ultrarrápida, Machine learning.
SUMMARY
Honey adulteration is a major problem in the food in- dustry, and detection of these fraudulent practices is essential to ensure product quality and authenticity. Ul- tra-fast gas chromatography (ultra-fast GC) is a fast and sensitive analytical technique for detecting adulteration in honey and, in combination with machine learning al- gorithms, has proven to be an effective tool for develo- ping accurate and reliable models to detect adulteration.
In this study, several machine learning techniques were compared to predict the level of adulteration in orange blossom (OB) and sunflower (SF) honey using ultrafast GC. The OB and SF honey samples were adulterated using a mixture of other honeys from different floral origins as adulterant. Adulterated samples were obtai-
______________ (^) C e n t r o u n i v e r s i t a r i o S a n t a A n a ______________ C O M U N I C A C I O N E S
Además, esta práctica también puede comprometer la calidad y seguridad del producto. La miel adulterada puede tener una composición, sabor y aroma diferente a la miel pura [9].
Con el objetivo de garantizar la calidad y seguridad de la miel, varias organizaciones nacionales e internacionales han establecido estándares y pautas para la producción, el procesamiento y el etiquetado de la miel. La Norma del Codex para la Miel es una norma reconocida a nivel mundial que establece los criterios mínimos de calidad y pureza para la miel, incluido su contenido de humedad, composición de azúcar y ausencia de aditivos y contaminantes [10,11].
En los últimos años, se han utilizado diversas técnicas analíticas para detectar la adulteración de la miel, incluido el análisis de la relación de isótopos de carbono estables (SCIRA) [12], cromatografía de gases (GC) [13] UV-visible (UV-Vis) [16], infrarrojo cercano (NIR) [17], espectroscopia Raman [18], imágenes termográficas [19], y tecnología de biosensores [20].
La cromatografía de gases ultrarrápida (CG-ultrarrápida) es una técnica analítica que permite el análisis rápido y sensible de compuestos volátiles en mezclas complejas como la miel. El uso de estas técnicas en conjunto con algoritmos de machine learning (ML) permite el desarrollo de modelos precisos y fiables para la detección de la adulteración de la miel. De este modo, los resultados de este estudio pueden ser utilizados por la industria de la miel y las agencias reguladoras para garantizar la autenticidad y la calidad de la miel.
El objetivo de este estudio es evaluar la capacidad de diferentes algoritmos de ML en combinación con CG-ultrarrápida para predecir el nivel de adulteración en miel de azahar y girasol. Se evaluaron los siguientes algoritmos: el operador de selección y contracción mínima absoluta (LASSO), regresión de Ridge (RIDGE), red elástica (ENET), mínimos cuadrados parciales (PLS), Random Forest (RF) y vectores de soporte de regresión (SVR). Este estudio es el primero en examinar y comparar el rendimiento de algunas técnicas ML para el análisis de miel adulterada empleando CG-ultrarrápida.
___________________________ (^) C U S A __________________________ V C O N G R E S O A G R O A L I M E N T A R I O
Preparación de muestras adulteradas
Las mieles puras de azahar y girasol utilizadas en este estudio fueron suministradas por la Subdirección General de Control e Inspección Agroalimentaria de la Consejería de Agricultura, Ganadería, Pesca y Desarrollo Sostenible.
La miel de azahar (OB) se preparó mezclando 13 mieles de azahar puras diferentes. La miel de girasol (SF) se preparó mezclando 7 mieles de girasol pura diferentes. Las muestras adulteradas se hicieron mezclando cada miel con distinta proporción de adulterante para tener una pureza final entre el 50-95%. En la Tabla I se presentan todas las muestras preparadas para el estudio. El adulterante que se utilizó para las adulteraciones fue una mezcla en igual proporción de miel de eucalipto, de romero y de mil flores. Cada tipo de muestra se preparó por duplicado.
Análisis de las muestras
Los análisis se realizaron en el sistema de GC- ultrarrápida Heracles II con muestreador automático HS100 (Alpha M.O.S., Toulouse, Francia). El sistema estaba equipado con dos columnas paralelas de diferente polaridad (MXT-5 y MXT-1701) (Restek, Bellefonte, PA, EE. UU.) cada una acoplada a un detector de ionización de llama (μFID). El gas portador fue hidrógeno de pureza 6N proporcionado por el generador Precision Hydrogen Trace 250 (Peak Scientific Instruments, Inchinnan, Reino Unido). Las muestras se incubaron a 40 °C durante 20 minutos con una agitación de 500 rpm. La temperatura del inyector se estableció en 200°C. El volumen de muestreo del espacio de cabeza inyectado fue de 2500 μL a 250 μL/s. Los analitos se retuvieron en un material absorbente compuesto por Tenax ® a 40 °C y luego se desorbieron térmicamente a 240 °C durante 20 s. La temperatura del horno se programó para comenzar a 40 °C durante 2 s y luego aumentar de 40 a 270 °C a una velocidad de 3 °C/s, manteniendo 270 °C durante 18 s. La temperatura de los detectores FID se fijó en 270 °C. El tiempo de adquisición de datos fue de 97 s.
___________________________ (^) C U S A __________________________ V C O N G R E S O A G R O A L I M E N T A R I O
En términos generales, el dendrograma (Figura 1) agrupó las muestras en cuatro clústeres principales identificados como A, B, C y D. Las muestras se agruparon en primer lugar en función de su origen botánico, ya que todas las muestras de azahar (OB) (clúster A y B) se encuentran agrupadas a una mayor distancia de las de girasol (SF) (clúster C y D). En segundo lugar, se observa como dentro de cada origen botánico, las muestras tienden a clasificarse en función del nivel de adulteración, estando las muestras sin adulterar agrupadas en un único grupo y separadas del resto de muestras adulteradas tanto en el caso de las muestras OB como las SF. Las muestras de SF adulteradas mostraron una ligera tendencia a agruparse por el nivel de adulteración en subgrupos. Sin embargo, esta tendencia fue menos evidente en el caso de miel de azahar.
Este análisis sugiere que la CG-ultrarrápida permite distinguir de manera efectiva entre diferentes orígenes botánicos, así como también diferenciar entre muestras de miel adulteradas y no adulteradas. Sin embargo, mediante este análisis exploratorio no se ha obtenido una clasificación perfecta en el caso del nivel de adulteración en las muestras de OB.
Modelos supervisados para la predicción del nivel de adulterante en miel
La aplicación de modelos de regresión supervisada, como el operador de selección y contracción mínima absoluta (LASSO), regresión de Ridge (RIDGE), red elástica (ENET), mínimos cuadrados parciales (PLS), regresión de vectores de soporte (SVR) y Random Forest (RF), permite predecir el porcentaje de adulterante en muestras de miel a partir de los datos obtenidos a través de CG-ultrarrápida.
Para desarrollar modelos de regresión robustos y evitar sobreajustes, se realizó un pretratamiento de los datos aplicando el algoritmo de selección de variables Boruta , para identificar las variables más relevantes generadas al combinar datos de ambas columnas de CG-ultrarrápida. Este algoritmo utiliza una versión modificada de Random Forest para clasificar la importancia de las características.
La matriz de datos D (^) 44x20002 que contenía la información de ambos sensores se dividió aleatoriamente considerando únicamente el nivel de adulteración en un conjunto de entrenamiento que contenía el 75 % (n=33) y en un conjunto de test con el 25% restante (n=11). El conjunto de test incluyó muestras
______________ (^) C e n t r o u n i v e r s i t a r i o S a n t a A n a ______________ C O M U N I C A C I O N E S
independientes que no se utilizaron en la construcción del modelo, sino que se reservaron para la validación externa con el objetivo de obtener una estimación imparcial del error para todos los modelos entrenados.
Para evaluar los diferentes modelos supervisados, previamente se procesó el conjunto de entrenamiento (D (^) 33x20002 ) utilizando el algoritmo Boruta , que seleccionó las 30 características más importantes (D (^) 33x30 ) para construir los modelos. La optimización de los parámetros del modelo se evaluó mediante validación cruzada (VC) con 5 pliegues en el conjunto de entrenamiento.
Operador de selección y contracción mínima absoluta (LASSO)
LASSO es un modelo de regresión lineal que realiza tanto la regularización como la selección de variables mediante la aplicación de una penalización a los coeficientes de regresión, lo que reduce algunos coeficientes a cero y establece que las variables correspondientes se excluyan del modelo. El grado de penalización está controlado por el hiperparámetro lambda (λ), que se puede ajustar para equilibrar la compensación entre la complejidad del modelo y la bondad del ajuste.
Se desarrolló un modelo predictivo usando regularización con un valor de λ optimizado de 0.1321. Lambda se optimizó mediante un método de búsqueda de rejilla utilizando secuencias exponenciales de 10 -5^ a 10 cada
Regresión de Ridge (RIDGE)
En RIDGE, el valor del hiperparámetro lambda (λ) controla la cantidad de contracción aplicada a los coeficientes. Los valores más grandes de lambda dan como resultado una mayor contracción y coeficientes más pequeños, pero los coeficientes de las variables menos importantes nunca se reducen a 0.
El valor óptimo de lambda obtenido por un método de búsqueda en cuadrícula utilizando secuencias exponenciales de 10 -5^ a 10 cada 100 fue en este caso 10, lo que resultó en un RMSE de 6.3528 y un R 2 de 0.9007.
______________ (^) C e n t r o u n i v e r s i t a r i o S a n t a A n a ______________ C O M U N I C A C I O N E S
conjunto de datos original, lo que significa que algunos puntos de datos quedan fuera del proceso de entrenamiento y se usan como muestras out-of- bag (OOB). RF selecciona aleatoriamente un subconjunto de características antes de evaluar cada división en un árbol individual, lo que reduce la correlación entre los árboles y evita el sobreajuste. El hiperparámetro mtry determina el número de características muestreadas aleatoriamente en cada división y se eligió probando diferentes valores y seleccionando el que dio como resultado el mejor rendimiento, utilizando VC con 5 pliegues. El mejor mtry empleando un método de búsqueda de rejilla de 1 a 30, fue 1, y el número de árboles se estableció en 500. El RSME y R 2 alcanzado por el modelo fue de 6.0952 y 0.8812, respectivamente. En el conjunto de entrenamiento se obtuvo un RMSE de 3.4298 y un R 2 de 0.9528, mientras que en el conjunto de test se obtuvo un R 2 de 0.8683 y un RMSE de 6.2846.
Regresión de vectores soporte (SVR)
SVR es un modelo de machine learning que utiliza un hiperplano para aproximar una función de mapeo entre las variables de entrada y las variables de salida. Encontrando el hiperplano que maximiza el margen entre los puntos más cercanos del conjunto de entrenamiento y el hiperplano. SVR utiliza dos parámetros importantes que deben ajustarse: la función de costo de pérdida (C) y el parámetro de regularización (γ). Además de seleccionar la función kernel, que determina el ancho del kernel. En este estudio, SVR se utilizó con el kernel de función de base radial (FBR).
Ambos hiperparámetros ( C , γ ) se optimizaron mediante un método de búsqueda de rejilla utilizando secuencias exponenciales de log (^2) γ, log (^) 2C en un rango de [–10, 10] cada 0,5. Los mejores resultados se obtuvieron para un γ de 1.381068× 10 –3^ y un C de 1024 logrando un RMSE de 2.9527 y un R 2 de 0.9727. En el conjunto de entrenamiento, el RMSE fue de 2,7004 y el R 2 de 0,9701, mientras que, en el conjunto de test, el RMSE fue de 6,3364 y el R 2 de 0,9086. En resumen, la regresión SVR mostró el mejor rendimiento en la predicción del nivel de adulterante en muestras de miel utilizando un conjunto de datos que contenía miel de azahar y girasol.
Con el objetivo de mejorar la precisión de los modelos de regresión, se propuso clasificar las muestras de miel en función de su origen botánico y luego aplicar los modelos de regresión por separado. La discriminación de las muestras de miel según su origen botánico puede ayudar a garantizar que
___________________________ (^) C U S A __________________________ V C O N G R E S O A G R O A L I M E N T A R I O
los modelos de regresión se entrenen en datos que sean más homogéneos y que puedan capturar mejor las relaciones entre los diferentes tipos de miel, y esto puede conducir a predicciones más precisas del nivel de adulteración en muestras de miel.
Análisis de componentes principales (ACP)
Se realizó un análisis de componentes principales (ACP) para identificar las diferencias entre la miel de azahar y de girasol, empleando todas las muestras (D (^) 44x20002 ). La Figura 2 muestra las puntuaciones obtenidas por las muestras para las dos primeras componentes principales (CP). La primera componente principal (CP1) y la segunda componente principal (CP2) representaron el 86,7 % y el 7,5 % de la varianza acumulada, respectivamente, cubriendo un 94,2 % de la varianza total del conjunto de datos. En la gráfica de puntuaciones (Figura 2) las muestras de diferente origen botánico se distribuyeron en dos zonas claramente diferenciadas en base a sus puntuaciones con respecto a la CP1 y CP2.
La primera componente principal (CP1) permite distinguir entre los dos tipos de miel, ya que representaba un gran porcentaje de la varianza total en el conjunto de datos. Las muestras con puntuaciones positivas en la CP1 se asociaron con miel de azahar, mientras que los puntajes negativos correspondieron a miel de girasol. Además, la proximidad del valor de CP de las muestras a 0 indicó su nivel de adulteración, siendo las muestras con niveles más altos de adulterantes las más cercanas a 0 en ambos tipos de miel.
La segunda componente principal (CP2) no proporcionó información adicional significativa más allá de CP1, ya que representó un porcentaje relativamente pequeño de la varianza total en el conjunto de datos.
Modelos supervisados de machine learning para la clasificación según el origen botánico
El análisis de componentes principales puede ser un primer paso útil para identificar patrones en los datos. En este caso, parece que los dos grupos son claramente separables en función de los datos obtenidos por
___________________________ (^) C U S A __________________________ V C O N G R E S O A G R O A L I M E N T A R I O
Es importante señalar que el modelo de SVR obtuvo el mejor rendimiento para el conjunto de datos que incluía todas las muestras de miel, con un RSME de 6.3364 y un R 2 de 0.9086. Sin embargo, al tratar las muestras de miel de azahar y de girasol por separado, se observó una mejora en el rendimiento de todos los modelos de regresión. Además, se encontró que todos los modelos de regresión probados en miel de azahar y de girasol por separado obtuvieron un rendimiento similar muy alto, con un R 2 en el conjunto de test superior a 0.9900, excepto el modelo de RIDGE en miel de azahar (0.9843). En cuanto al RMSE en el conjunto de test, el modelo LASSO resultó ser el mejor para predecir las propiedades de la miel de azahar y de girasol, obteniendo valores de 1.3064 y 1.3574, respectivamente. Esto subraya la importancia de considerar diferentes modelos de regresión y seleccionar el de mejor rendimiento para un conjunto de datos específico.
En general, la combinación de CG-ultrarrápida con algoritmos de machine learning es una herramienta eficaz para detectar la adulteración de la miel y garantizar su calidad y autenticidad.
Los modelos desarrollados en este estudio pueden ser utilizados para predecir la adulteración en la miel de azahar y girasol con una precisión y fiabilidad elevada. La regresión SVR mostró el mejor rendimiento en la predicción del nivel de adulterante en muestras de miel utilizando un conjunto de datos que contenía miel de azahar y girasol, obteniendo valores de R 2 superiores 0.90 en el conjunto de test. Además, se encontró que todos los modelos de regresión probados en miel de azahar y de girasol por separado obtuvieron un mejor rendimiento, con valores de R 2 en el conjunto de test superior a 0.99, siendo el modelo LASSO el mejor para predecir las adulteraciones en miel de azahar y de girasol por separado.
Los resultados de este estudio pueden ser muy útiles para la industria de la miel y las agencias reguladoras, ya que proporcionan información valiosa sobre las técnicas de machine learning más efectivas para detectar la adulteración de la miel de forma rápida, objetiva y automatizada.
______________ (^) C e n t r o u n i v e r s i t a r i o S a n t a A n a ______________ C O M U N I C A C I O N E S
Figura 1. Dendrograma circular resultante del Análisis jerárquico de conglomerados (HCA) del conjunto de datos (D 44 x 20002 ) con CG-ultrarrápida; Las muestras de miel se colorean según su origen botánico: Girasol (SF) en rosa y Azahar (OB) en naranja. Se utilizó el método de promedios con distancias euclidianas.